通过3D bounding primitives和语义-密度场,做多视图一致且自动的3D-to-2D Label Transfer和2D-to-2D Label Transfer,减少了人手工标注pixel-level的semantic map的成本。
2D的pixel-level的语义标注需要花费很大的成本,而3D bounding primitives则是容易获得的,本文通过渲染+语义辅助的方法,完成了3D到2D的转换,同时提高了3D label和2D label的精度。**语义信息的加入可以提高隐式表征的几何。**同时3D-2D混合监督的方法,不仅可以解决3D bounding primitives的标签模糊性,还可以过滤2D预测中的noise。因为是在3D空间中进行infer,渲染出的2D语义和实例标签具有多视图一致性。
传统的3D-to-2D Label Transfer使用条件随机场(CRF),这种方法依赖即时的3D重建,并将未遮挡的3D点映射到2D,但是这种方法不能将3D重建的结果纳入到优化的范围,而错误的重建会带来不准确的Label Transfer。本文方法联合3D几何和2D语义,使用NeRF的渲染方法,得到pixel-level的2D语义与实例标签。
Semantic NeRF利用2D pre-trained model预测的语义map作为标签(所以强依赖于pre-trained model的性能),同时标签只有语义的,没有全景(panoptic)的。PNF能构造全景标签,但是其pre-trained的分割和检测网络类别局限于Cityscapes,无法针对任意类别进行有效扩展。
本文通过3D Bounding Primitives和noisy 2D semantic predictions的联合推理,获得了高质量的全景标签。同时使用dual semantic network,通过Semantically-Guided Geometry Optimization和Joint Geometry and Semantic Optimization,同时优化网络中的density field和semantic field。
本文要解决的问题就是上图:
上述是具体损失的梯度流向。可以看到, $L_{\hat{\bold S}}^{2D}$只会影响密度场的几何$\alpha_i$, $L_{\bold S}^{2D}$会同步影响几何$\alpha_i$和预测语义$s_i$,上述两个损失都是经过Volume Rendering之后的渲染损失; $L_{\bold S}^{3D}$是逐3D点的损失,不经过渲染,所以只影响预测语义$s_i$,不影响密度场几何$\alpha_i$。
对于由不同语义类别的多个 3D 边界框包围的点 x,我们为这些合理类别分配相同的概率,为其他类别分配 0。固定语义场中的3D BBox分为两类,stuff和thing,对于thing每个3D BBox独有一个Instance ID。
使用可变语义场$S_\phi$和带instance ID的3D BBox。首先根据$S_\phi$渲染出语义map(softmax),如果类别是stuff,则保持不变;如果类别是thing,则根据3D BBox带来的实例分布,将其替换: