IBRNet:Learning Multi-View Image-Based Rendering

一:摘要

        文章提出了

二:介绍

        新视角合成的最新方向是神经场景表征,把场景表示为神经网络的权重。代表工作NeRF,通过MLP和位置编码结合,把场景表示为位置和视角的5F辐射场。

        NeRF的表征准确,全面但是对每个场景都要复杂的训练过程。

        论文中将IBR和NeRF的思想结合,从多个源视图合成一个连续的场景辐射场,用来呈现新视角,还学习了一个视图插值函数预测场景。

        论文中的方法是完全可微分的,因此可以在多视角图片上进行端到端的训练。实验表示,当在大量数据上训练时,效果很好。

        论文的主要贡献:一种基于学习的多视角的呈现方法,在新的场景中的单次视角合成方法。

                                     一种称为IBRNet的新模型结构,可以从多个视图中推理空间的点的颜色和密度。

三:相关工作

        基于图片的渲染:IBR的早期工作提出了一些通过一组参考图像合成新视角图像的方法。效果不好。

        体渲染:另一种方法是通过离散体积表征来实现照片的真实性,最近的工作通过CNN来存储这种体积表征,这种方法效果不好且存储空间占用很大。

        神经场景表征:最近一个方向是通过神经网络来表示场景的形状和外观,通过MLP网络做隐式的形状表征,通过MLP的权重将连续的空间坐标映射到距离或是密度。最近的NeRF的效果很好,但是需要对每个新场景优化,时间很长。

四:论文实现方法

        论文通过聚合源视图中的信息来获得联系空间的颜色和密度。首先识别一组周围的源视图作为输入,从每一个源视图中提取密度特征,然后预测连续5D位置的密度和颜色,最后将这些颜色和密度通过体渲染合成图像。

        1:视角的选择和特征提取

        和NeRF不同,论文通过插值附近的源视角合成新视角,因为GPU显存限制,选择了少量的视角作为工作集。论文通过一个U-NET将工作集中的第i张图片(h*w*3)及其相机参数矩阵(3*4)映射为图片的密度特征向量(h*w*d)

        2:使用IBRNet进行RGB-U预测

        使用体渲染来呈现图像,对于一条输入的射线上选择点,并将这些点投影到选择的源视图的对应的像素点中,通过双线性插值提取投影位置的颜色和图像特征

        2.1:体密度的预测

        在X点处的体密度的预测分为两步,首先融合多视图的特征,得到一个密度特征,然后通过ray transformer吸收射线上的所有样本的密度特征来预测包括X点在内的所有点的密度

        多视角特征融合:因为表面上的三维点可能在多个视图中有一直的外观,所以要通过多个视图的特征来推断新视角的三维点的特征,论文使用了PointNet结构,首先计算了工作集上的N张图片中提取的X投影点的密度特征向量的平均数U和方差V,再将这些密度特征和平均数和方差送入MLP网络,计算得到新的N个密度特征向量和权重。随后,通过这些权重将N个密度特征向量映射成1个密度特征向量。

        射线的Transformer:得到X点的密度特征向量之后,可以直接通过MLP将其映射为密度,但是在复杂集合形状的场景效果不好,作者认为是因为,一个点是不足以预测密度的,要综合考虑整个射线之后,对这个射线上的点分配权重再预测密度。论文实现的方法是引入了Transformer,通过Transformer的核心部分位置编码和自注意力机制,对于射线上的M个样本,射线的Transformer把样本从近到远看作一个序列,从而预测该点的最终密度值

        提高时间上的视觉一致性:论文只考虑了附近的源视图作为工作集,因此,用摄像机生成视频的过程中,可能会有密度预测错的问题,作者采用了Sun的池化技术改进这个问题。

        2.2:颜色的预测

        作者使用了观察方向与工作集中的源视图的方向的差值作为输入,将该输入和前面预测的特征向量拼接,输入一个MLP网络,输出一个混合权重,通过混合权重,对工作集里的源视图的像素加权求和,得到最终的C

        3:渲染和训练:通过上面的方法计算连续5D位置的颜色和密度值,然后通过在射线r上取点,沿着射线积累颜色,预测最后的颜色值。

        4:实施细节

五:实验

你可能感兴趣的:(三维重建,深度学习,计算机视觉)