ACORN | Notion

任务

利用显-隐式结合的框架和学习策略，自适应调整（01整数规划）信号分区，从而进行大规模的信号重建。

背景

在信号表征方面，希望可以是端到端可微分、可快速优化、可扩展至大场景的。对于显式表征，在计算上很快，但是内存占用较高，很难直接推广到大场景；对于隐式表征，内存占用是高效的，但是计算比较缓慢（一次索引就要前向推理一次网络）。本工作提出了一种显-隐式结合的表征学习框架，可以自动将信号的不同区域进行切分（四叉树、八叉树），兼具两种表征的优势。同时，本工作还提出通过线性规划的方法，对信号中切分blocks的大小和层级进行迭代优化，使得blocks划分能够适应信号中不同频率的特点。

隐式表达最近表现出很好的效果，但是查询网络往往设置的很大，以至于在pixel-level的query会非常慢，这极不利于推广到大场景。最近一些办法利用“局部隐式“来缓解这个问题——一个全局共享的解码器条件于全局显式grid，每个grid cell中存储该局部区域的特征码（latent code/feature vector）。这个办法需要存储显式结构，对大场景也有分辨率的限制。

NSVF在采样层面减少了网络前向推理的次数，也产生了”资源聚集“在表面的效果。但是其没有显式multiscale的概念，网络中的层级概念较为模糊，除了被prune掉的区域，其他区域可以认为是single scale的。

基于上述阐述，本工作的优势和创新点有三个：

multiscale，层次结构（四叉树、八叉树）
block-level，以block为单位的坐标查询grid减少了庞大的encoder前向推理的次数，用插值和轻量化的decoder加速了框架推理运行。
pure coordinate network，不需要显式的feature grid，只以坐标和层级作为输入。

Pipeline

坐标表示

对信号区域进行划分（四叉树、八叉树），固定住finest层级的位置（限制树高）。Encoder的输入不仅有坐标，还有层级，所以可以锁定某个scale的block。

坐标索引有两部分组成：全局坐标+局部坐标。全局坐标由xyz（或xy）加上归一化后的scale组成，维度是 $R^{d_{in}+1}$。局部坐标同样是xyz（或xy），每维的范围都是 $(-1,1)$。通过这种方式就可以覆盖到场景里的任何一个点。

前向过程

Untitled

Encoder生成的feature大小是 $R^{d_{in}+1}$， $H\times W\times D\times C$（or $H\times W \times C$）。对于相对坐标，同样在feature中通过该坐标插值得到feature vector，作为decoder的输入。

切分优化

信号表征中，一个普遍的思想是，细节越多的区域应该拿越多的资源去拟合。本工作multiscale的用意就在于此。首先需要固定场景中最大活动block的数量，然后在训练过程中，给予每个block数量固定的随机样本，同样跟踪每个block的平均拟合损失。

每隔一段间隙对信号切分进行更新迭代，希望能够得到更小的拟合损失，同时保证block的数量不会超过之前设定的最大活动block数量。拥有细节的区域希望获得finer的层级，这样就可以获得密度更高的训练样本；平滑的区域则只需要coaster的层级，因为少量样本就能拟合出该区域。这种multiscale就做到了资源的倾斜，满足了信号不同频率的区域拥有对应的训练资源。每个block中样本的查询，Encoder只需要运行一次，生成feature后decoder再运行多次。