点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【NeRF和Transformer】交流群
文章链接:https://arxiv.org/abs/2307.08093
代码链接:
https://github.com/YifYang993/CR-NeRF-PyTorch.git
本工作旨在通过从不受限制的图像集合(例如从互联网中爬取的图像)中合成新视角图片,从而提供3D沉浸式体验。本方法使用户能够从多视角欣赏任意季节的国际地标,例如德国柏林的勃兰登堡门和意大利罗马的特维尔喷泉。具体来说,假设用户想去勃兰登堡门欣赏不同时间和天气的风景,但由于学业、工作等原因旅行成本过高,无法亲身前往。那么如何不出门就能在多种天气、多种时间、从多种角度下“云游玩”该景点呢?这时,我们提出的CR-NeRF即可派上用场。用户只需从互联网上收集任意关于勃兰登堡门的照片,不论是白天、晚上、春夏秋冬的场景都可以,再利用CR-NeRF,便能生成勃兰登堡门的新视角图像。CR-NeRF能根据用户给定的相机角度和图像风格来渲染图像。通过这一方法,用户可以在虚拟环境中体验勃兰登堡门的多样化场景,感受不同时间和天气带来的景观变化,让用户在家中就能畅游世界名胜,享受沉浸式的旅行体验。这种技术不仅节省了旅行成本和时间,还为用户提供了更多探索世界的可能性。
CR-NeRF 重建的三维场景实例如下:
神经辐射场(NeRF)是一种革命性的渲染场景方法,通过对每个像素采样单个光线,在从静态场景图像生成新视角方面展示出令人印象深刻的能力。然而,在实践中,我们通常需要从无约束的图像集合中恢复NeRF,这面临两个挑战:1)图像通常由于拍摄时间和相机设置的不同而具有外观上的动态变化;2)图像可能包含人和汽车等瞬态对象,导致遮挡和伪影。传统方法通过局部利用单个光线来解决这些挑战。相比之下,人类通常通过在多个像素之间全局利用信息来感知外观和对象。为了模拟人类的感知过程,在本文中,我们提出了交叉光线NeRF(CR-NeRF),利用跨多个光线的交互信息合成无遮挡、与图像外观相同的新视角。具体而言,为了建模不同的外观,我们首先提出使用新颖的交叉光线特征表示多个光线,然后通过融合光线的全局统计信息(即光线特征的协方差和图像外观)来恢复外观。此外,为了避免瞬态对象引入的遮挡,我们提出了一个瞬态对象处理器,并引入了网格采样策略来屏蔽瞬态对象。我们在理论上发现,利用多个光线之间的相关性有助于捕捉更多的全局信息。此外,在大型真实数据集上的实验结果验证了CR-NeRF的有效性。
通过CR-NeRF,我们输入不同光照条件下的照片,从而重建的可控外观的3D场景,同时消除图像中的遮挡。用互联网图像数据集重建NeRF面临着以下两个挑战。1)不同的外观:假设两个游客即使在相同的视点拍摄照片,他们也仍然处在不同的条件下:不同的拍摄时间,不同的天气(如晴天,雨天,雾天),不同的相机设置(如光圈,快门,ISO)。这种变化的条件导致对同一个场景拍摄的多张同视角照片可能会呈现截然不同的外观。2)瞬态遮挡:瞬态物体如汽车和乘客可能会遮挡场景。由于这些物体通常仅存在于单张图片中,因此高质量地重建这些物体通常是不切实际的。上述挑战与NeRF的静态场景假设相冲突,导致重建不准确、过度平滑和重影伪影。最近,研究者们已经提出了几种方法(NeRF-W;Ha-NeRF来解决上述挑战。从图1(a)中,NeRF-W和Ha-NeRF利用单相机光线方式重建3D场景。具体来说,这种方法分别与单射线特征融合外观特征和遮挡物特征,随后独立合成新视图像素的每种颜色。这种方式的一个潜在问题是它依赖于每条射线的局部信息(例如,单个图像像素的信息)来识别外观和瞬态物体。相比之下,人类倾向于利用全局信息(例如跨多个图像像素的信息),这提供了对物体更全面的了解,以观察其外观并处理遮挡。基于此,我们提出使用交叉射线范式来处理变化的外观和瞬态物体(见图1(b)),我们利用来自多射线的全局信息来恢复外观并处理瞬态物体。然后,我们同时合成一个新视图的区域。
基于交叉射线范式,我们提出了一个交叉射线神经辐射场(cross-ray Neural Radiance Fields, CR-NeRF),如图2, CR-NeRF由两个部分组成: 1.为了模拟可变的外观,我们提出了一种新的交叉射线特征来表示多射线的信息。然后,我们通过使用全局统计(例如,交叉射线的特征协方差)的交叉射线变换网络融合交叉射线特征和输入图像的外观特征。将融合特征送入解码器以同时获得多个像素的颜色。2。在瞬态目标处理方面,我们提出了一种独特的视角,将瞬态目标处理视为一个分割问题,通过考虑图像区域的全局信息来检测瞬态目标。具体来说,我们分割了输入的图像,以获得物体的可见性图。为了减少计算开销,我们引入了一种网格采样策略,对输入的光线和分割后的映射进行相同的采样,使两者配对。我们从理论上分析了利用多射线之间的相关性可以捕获更多的全局信息。接下来,我们具体描述CR-NeRF的两个部分。
PS: 我们假设读者了解关于NeRF, 相机模型等知识,若尚未掌握相关知识,请查阅CR-NeRF论文中的preliminary部分。
图2: CR-NeRF的方法流程我们首先用多个光线表示场景信息。为了从多视图观测中建模外观,我们首先使用多条光线表示场景信息。为此,我们提出了一种新的具有方程的交叉射线特征:
其中MLP是多层感知机 (multilayer perceptron), 对于每个射线点r(ti),我们在三维位置和观察方向处查询MLP,利用体渲染技术(VR)得到交叉射线特征。
有了交叉射线特征,我们将其与输入图像的风格融合,从而在场景表示中注入外观。我们的交叉射线外观建模的关键是利用之间潜在的互补信息,以方便从给定的外观图像到场景表示的外观建模。为了实现这一点,我们学习一个变换,将传递的交叉射线特征和外观特征与一个辅助恒等项对齐,该问题公式如下:
其中是对应的风格特征,β是一个超参数,是一个常数矩阵,用于匹配变换后的特征和。我们在论文中从理论上分析了考虑多射线来解决上述问题的必要性。
为了从变换后的特征θ中生成具有满意外观的新视图图像,我们需要在外观建模的训练过程中使用解码器θ。受公式(1)的启发,我们将外观建模的损失函数设为:
我们使用定制的编码器θ对转换后的特征进行建模,以便转换后的图像的内容与原始图像紧密匹配。这样,我们就可以用θθ合成一幅新视角图像。
为了处理新视图合成中由无约束照片集合引起的瞬态目标,我们提出了一种新的解决问题的视角:通过分割参考图像获得瞬态目标的可视图。利用深度分割网络的接受域,促进了不同像素和光线的相互作用,从而引入了更多的全局信息。我们部署一个轻量级的分割网络。在训练阶段,由于GPU内存有限,我们无法采样与交互的所有光线,因此天真地处理瞬态对象()的所有光线是不适用的。因此,我们应用网格采样策略(GS) [3],该策略将与条射线配对(参见图2)。预测的过程由以下公式表示:
,其中, 和是的高度和宽度。在这里,学习了一个可视图,没有地面真实分割掩码的监督。在训练期间,为了节省计算开销,我们将设置为小于。我们设计的遮挡处理损失函数为
其中表示元素乘法。损失旨在通过掩盖瞬态对象。
我们在Brandenburg Gate, Sacre Coeur和Trevi Fountain数据集上进行了大量的实验。如表1所示,我们观察到原始的NeRF在所有方法中表现最差,因为NeRF假设训练图像背后的场景是静态的。通过对样式嵌入建模和处理瞬态对象,NeRF-W和Ha-NeRF在PSNR、SSIM和LPIPS方面取得了相当的性能。由于交叉射线的优势,我们的CR-NeRF优于NeRF-W和Ha-NeRF。
我们在图3中展示所有比较方法的定性结果。我们观察到NeRF产生雾状伪影和不准确的外观。NeRF-W和Ha-NeRF能够从地面真实图像重建更有前途的3D几何形状和模型外观。然而,重建的几何形状不够精确,例如,勃兰登堡的绿色植物的形状和围绕柱子的幽灵效应,Sacre的空腔等。此外,现有方法生成的外观不够逼真,例如Sacre的雕像上的阳光,Trevi的蓝色天空和灰色屋顶的颜色。相比较,我们的CR-NeRF引入了交叉射线范式,因此实现了更真实的外观建模,并通过抑制瞬态物体重建一致的几何形状。
表2展示了CR-NeRF在Brandenburg、Sacre和Trevi数据集上的消融实验结果。我们观察到我们的基线(CR-NeRF-B)的性能通过添加交叉光线外观迁移模块(CR-NeRF-A)和瞬态处理模块(CR-NeRF-T)后在逐渐提升。
表2: CR-NeRF的消融实验我们的CR-NeRF在处理相机位置固定的多幅不同外观的图像时,推理效率明显超过Ha-NeRF(2.12秒vs表3的24.09秒)。这是因为我们的CR-NeRF使用NeRF主干只生成一次交叉射线特征,通过融合Fcr和每张图像的外观嵌入来合成各种外观。相比之下,Ha-NeRF要求每次估计都使用其MLP主干。为了提高效率,我们尝试通过保存中期结果来改进Ha-NeRF的推理速度。然而,由于Ha-NeRF的临时结果占用了的GPU内存过大,超出了单个TITAN Xp GPU的容量,因此将结果移动到主机内存需要大量额外的I/O时间。
我们对外观特征进行了插值实验,与SOTA方法进行了外观迁移比较实验,还制作了视频demo等。请阅读我们的论文和访问github链接。
本工作的贡献总结如下:
从无约束的照片集合中合成新视图的新交叉射线范式:我们发现现有的方法无法通过单射线水平范式从无约束的照片集合中产生令人满意的视觉结果,主要是由于忽略了多射线之间潜在的合作相互作用。为了解决这个问题,我们提出了一种新的交叉射线范式,它利用了跨多条射线的全局信息。
用于处理不同外观的交互式和全局方案:与独立处理每条光线的现有方法不同,我们通过引入交叉射线特征来表示多条光线,这通过特征协方差促进了光线之间的相互作用。这使我们能够在场景中注入全局信息的外观表示,从而实现更逼真、更高效的外观建模。我们的理论分析证明了在外观建模中考虑多射线的必要性。
处理瞬态对象的一种新的分割技术:我们将瞬态对象问题重新表述为分割问题。我们利用无约束图像的全局信息分割可视图。此外,我们还采用网格采样将地图与多个光线配对。实验结果表明,CR-NeRF消除了重建图像中的瞬态目标。
本工作还有很多可提升的空间。例如,我们在论文末尾所说,当前,由于瞬时物体没有GT监督,完全依赖深度模型从数据中自动学习数据模式,尚缺乏精细的建模。更重要的是,我们认为瞬时物体的定义仍然是一个未解决的问题,我们把它留给我们未来的工作。
[1] Martin-Brualla, Ricardo, et al. "Nerf in the wild: Neural radiance fields for unconstrained photo collections." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[2] Chen, Xingyu, et al. "Hallucinated neural radiance fields in the wild." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[3] Schwarz, Katja, et al. "Graf: Generative radiance fields for 3d-aware image synthesis." Advances in Neural Information Processing Systems 33 (2020): 20154-20166.
点击进入—>【NeRF】交流群
ICCV / CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
NeRF和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-NeRF或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如NeRF或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号