任务

利用显-隐式结合的框架和学习策略,自适应调整(01整数规划)信号分区,从而进行大规模的信号重建。

背景

在信号表征方面,希望可以是端到端可微分、可快速优化、可扩展至大场景的。对于显式表征,在计算上很快,但是内存占用较高,很难直接推广到大场景;对于隐式表征,内存占用是高效的,但是计算比较缓慢(一次索引就要前向推理一次网络)。本工作提出了一种显-隐式结合的表征学习框架,可以自动将信号的不同区域进行切分(四叉树、八叉树),兼具两种表征的优势。同时,本工作还提出通过线性规划的方法,对信号中切分blocks的大小和层级进行迭代优化,使得blocks划分能够适应信号中不同频率的特点。

隐式表达最近表现出很好的效果,但是查询网络往往设置的很大,以至于在pixel-level的query会非常慢,这极不利于推广到大场景。最近一些办法利用“局部隐式“来缓解这个问题——一个全局共享的解码器条件于全局显式grid,每个grid cell中存储该局部区域的特征码(latent code/feature vector)。这个办法需要存储显式结构,对大场景也有分辨率的限制。

NSVF在采样层面减少了网络前向推理的次数,也产生了”资源聚集“在表面的效果。但是其没有显式multiscale的概念,网络中的层级概念较为模糊,除了被prune掉的区域,其他区域可以认为是single scale的。

基于上述阐述,本工作的优势和创新点有三个:

Pipeline

坐标表示

对信号区域进行划分(四叉树、八叉树),固定住finest层级的位置(限制树高)。Encoder的输入不仅有坐标,还有层级,所以可以锁定某个scale的block。

坐标索引有两部分组成:全局坐标+局部坐标。全局坐标由xyz(或xy)加上归一化后的scale组成,维度是 $R^{d_{in}+1}$。局部坐标同样是xyz(或xy),每维的范围都是 $(-1,1)$。通过这种方式就可以覆盖到场景里的任何一个点。

前向过程

Untitled

Encoder生成的feature大小是 $R^{d_{in}+1}$, $H\times W\times D\times C$(or $H\times W \times C$)。对于相对坐标,同样在feature中通过该坐标插值得到feature vector,作为decoder的输入。

切分优化

信号表征中,一个普遍的思想是,细节越多的区域应该拿越多的资源去拟合。本工作multiscale的用意就在于此。首先需要固定场景中最大活动block的数量,然后在训练过程中,给予每个block数量固定的随机样本,同样跟踪每个block的平均拟合损失。

每隔一段间隙对信号切分进行更新迭代,希望能够得到更小的拟合损失,同时保证block的数量不会超过之前设定的最大活动block数量。拥有细节的区域希望获得finer的层级,这样就可以获得密度更高的训练样本;平滑的区域则只需要coaster的层级,因为少量样本就能拟合出该区域。这种multiscale就做到了资源的倾斜,满足了信号不同频率的区域拥有对应的训练资源。每个block中样本的查询,Encoder只需要运行一次,生成feature后decoder再运行多次。