Panoptic NeRF | Notion

任务

通过3D bounding primitives和语义-密度场，做多视图一致且自动的3D-to-2D Label Transfer和2D-to-2D Label Transfer，减少了人手工标注pixel-level的semantic map的成本。

背景

2D的pixel-level的语义标注需要花费很大的成本，而3D bounding primitives则是容易获得的，本文通过渲染+语义辅助的方法，完成了3D到2D的转换，同时提高了3D label和2D label的精度。**语义信息的加入可以提高隐式表征的几何。**同时3D-2D混合监督的方法，不仅可以解决3D bounding primitives的标签模糊性，还可以过滤2D预测中的noise。因为是在3D空间中进行infer，渲染出的2D语义和实例标签具有多视图一致性。

传统的3D-to-2D Label Transfer使用条件随机场（CRF），这种方法依赖即时的3D重建，并将未遮挡的3D点映射到2D，但是这种方法不能将3D重建的结果纳入到优化的范围，而错误的重建会带来不准确的Label Transfer。本文方法联合3D几何和2D语义，使用NeRF的渲染方法，得到pixel-level的2D语义与实例标签。

Semantic NeRF利用2D pre-trained model预测的语义map作为标签（所以强依赖于pre-trained model的性能），同时标签只有语义的，没有全景（panoptic）的。PNF能构造全景标签，但是其pre-trained的分割和检测网络类别局限于Cityscapes，无法针对任意类别进行有效扩展。

本文通过3D Bounding Primitives和noisy 2D semantic predictions的联合推理，获得了高质量的全景标签。同时使用dual semantic network，通过Semantically-Guided Geometry Optimization和Joint Geometry and Semantic Optimization，同时优化网络中的density field和semantic field。

Pipeline

Untitled

本文要解决的问题就是上图：

3D Bounding Primitives可以帮助我们跳过大量的empty space，但是没有准确的物体边界，而2D semantic prediction可以帮助更好的约束物体几何，因为3D Bounding是没有梯度的，所以这种约束只会使得密度场的几何更好。
3D Bounding Primitives会发生交叠，这使得交叠区域的3D语义标签具有多义性（Ont hot→Two hot）。这时候无论怎么改变交叠区域的几何都是无效的（同时具有两个语义信息，语义同增同减），这时候就需要引入可变（预测）的语义场，来修改场景的语义分布，监督信号仍然是2D semantic prediction(2D Noisy Supervision)。而对于未交叠的区域，则通过密度场和3D Bounding Primitives联合进行约束（3D Weak Supervision）。这种联合可以表征第一个问题所优化的几何，使得预测的语义场可以优化较为确切在该语义物体内部的语义信息。

Untitled

微信图片_20231002005454.png

上述是具体损失的梯度流向。可以看到， $L_{\hat{\bold S}}^{2D}$只会影响密度场的几何$\alpha_i$， $L_{\bold S}^{2D}$会同步影响几何$\alpha_i$和预测语义$s_i$，上述两个损失都是经过Volume Rendering之后的渲染损失； $L_{\bold S}^{3D}$是逐3D点的损失，不经过渲染，所以只影响预测语义$s_i$，不影响密度场几何$\alpha_i$。

Fixed Semantic Field

对于由不同语义类别的多个 3D 边界框包围的点 x，我们为这些合理类别分配相同的概率，为其他类别分配 0。固定语义场中的3D BBox分为两类，stuff和thing，对于thing每个3D BBox独有一个Instance ID。

Rendering of Panoptic Labels

使用可变语义场$S_\phi$和带instance ID的3D BBox。首先根据$S_\phi$渲染出语义map（softmax），如果类别是stuff，则保持不变；如果类别是thing，则根据3D BBox带来的实例分布，将其替换：

Untitled