任务

使用NeRF思想将MPI推广到连续视锥,获得更好的场景表达、视图合成、深度合成效果。

背景

MPI在单张输入的场景表达上做到了较好的效果,但是平面的个数是离散的,MINE将其推广到了连续域。MPI的表达带来了泛化性,MINE比NeRF的优势也在于具有泛化性。PixelNeRF和GRF也是conditioned on input image 的视图合成方法,但是网络设计和推理过程是pixel level的,但是MINE的推理过程是plane level的,速度更快。并且一旦确定采样点z的分布,推理出MPI的MINE就可以恢复任意视角的视图,不需要每个新视图运行一次推理网络。

MINE和MPI都有尺度约束的过程,因为单目具有尺度模糊性。两者都是使用SFM(COLMAP)的方法,确定图像中稀疏的深度约束,来跟网络预测的视差图/深度图进行损失计算。

Pipeline

Untitled

Encoder-Decoder架构

Untitled

流程

  1. 图像经过Encoder后,得到图像特征。
  2. 图像特征加上经过pe后的对应深度(用视差表示,这样可以约束到0-1之间)$pe(\frac{1}{d})$,输入Decoder,得到对应深度plane的RGB+$\sigma$。
  3. 使用可微体渲染得到图像。

采样

通过等视差切分深度Bins,每个Bins里面随机采样一个样本。

Untitled

新视图合成

  1. Warping