本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,仅供学习,违者必究!
Title: Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior
Paper: https://arxiv.org/pdf/2303.14184.pdf
Code: https://make-it-3d.github.io/
人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识。
在本文中,研究者的目标是实现类似的目标:从一个真实或人工生成的单张图像中创建高保真度的3D内容。这将为艺术表达和创意开辟新的途径,例如为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。通过提供一种更易于访问和自动化的创建视觉上惊人的3D内容的方法,研究者希望吸引更广泛的受众加入到轻松的3D建模世界中来。
本文探讨了仅使用单张图像创建高保真度3D内容的问题。这本质上是一项具有挑战性的任务,需要估计潜在的3D几何结构,并同时产生未见过的纹理。为了解决这个问题,论文利用训练好的2D扩散模型的先验知识作为3D生成的监督。论文的方法名为:Make-It-3D,采用两阶段优化pipeline:第一阶段通过在前景视图中结合参考图像的约束和新视图中的扩散先验来优化神经辐射场;第二阶段将粗略模型转化为纹理点云,并利用参考图像的高质量纹理,结合扩散先验进一步提高逼真度。大量实验证明,论文的方法在结果上显著优于先前的方法,实现了预期的重建效果和令人印象深刻的视觉质量。论文的方法是第一个尝试从单张图像为一般对象创建高质量3D内容的方法,可用于text-to-3D的创建和纹理编辑等各种应用。
论文的主要贡献总结如下:
论文利用了文本-图像生成模型和文本-图像对比模型的先验知识,通过两阶段(Coarse Stage和Refine Stage)的学习来还原高保真度的纹理和几何信息,所提出的两阶段三维学习框架如图2所示。
作为第一阶段,论文从单一参考图像 x x x重建一个粗糙的NeRF,以扩散先验约束新的视角。优化的目标是同时满足以下要求:
鉴于此,论文对参考视图周围的相机姿态进行随机采样,并对参考视图和未可见视图的渲染图像 G θ \mathcal{G}_{\theta} Gθ 施加以下约束:
优化后的三维表示应该与输入观测x在参考视图上的渲染结果非常相似,因此惩罚NeRF渲染图像和输入图像之间的像素级差异:
其中使用前景matting mask m m m来分割前景。
新视图渲染应该显示与输入一致的语义,为了解决这个问题,论文使用一个图像字幕模型,为参考图像生成详细的文本描述 y y y。有了文本提示 y y y,可以在Stable Diffusion的潜空间上执行 L SDS \mathcal{L}_{\text {SDS }} LSDS (利用text conditioned扩散模型作为3D感知先验),度量图像和给定文本提示符之间的相似性:
虽然 L SDS \mathcal{L}_{\text {SDS }} LSDS 可以生成忠实于文本提示的3D模型,但它们并不能与参考图像完全对齐(参见图3中的baseline),因为文本提示不能捕获所有的对象细节。因此,论文额外添加一个扩散CLIP损失,记为 L CLIP-D \mathcal{L}_{\text {CLIP-D }} LCLIP-D ,它进一步强制生成的模型来匹配参考图像:
具体来说,论文并没有同时优化 L CLIP-D \mathcal{L}_{\text {CLIP-D }} LCLIP-D 和 L SDS \mathcal{L}_{\text {SDS }} LSDS 。**论文在小timesteps使用 L CLIP-D \mathcal{L}_{\text {CLIP-D }} LCLIP-D ,在大timesteps切换到 L SDS \mathcal{L}_{\text {SDS }} LSDS 。**结合LSDS和LCLIP-D,论文的扩散先验确保了生成的3D模型在视觉上是吸引人的和可信的,同时也符合给定的图像(见图3)。
此外,模型仍然存在形状模糊,从而导致诸如凹陷面、过平面几何或深度模糊等问题(见图3)。为了解决这个问题,论文使用一个**现有的单目深度估计模型来估计输入图像的深度 d d d 。**为解释 d d d中的不准确性和尺度不匹配,论文正则化了NeRF在参考视点上的估计深度 d ( β r e f ) d\left(\beta_{\mathrm{ref}}\right) d(βref) 和单目深度 d d d 之间的negative Pearson correlation,即:
最终总的损失可以表述为 L ref \mathcal{L}_{\text {ref }} Lref 、 L SDS \mathcal{L}_{\text {SDS }} LSDS 、 L CLIP-D \mathcal{L}_{\text {CLIP-D }} LCLIP-D 和 L depth \mathcal{L}_{\text {depth }} Ldepth 的组合。为了稳定优化过程,论文采用了渐进式训练策略,在参考视图附近从一个狭窄的视图范围开始,在训练过程中逐渐扩大范围。通过渐进式的训练,论文可以实现一个360°的物体重建,如图4所示。
在coarse stage,我们获得了一个具有合理几何形状的3D模型,但通常显示出粗糙的纹理,可能会影响整体质量。因此,需要进一步细化以获得高保真度的3D模型。
论文的主要思路是在保留粗糙模型几何形状的同时,优先进行纹理增强。我们利用新视角和参考视角中可观察到的重叠区域来将参考图像的高质量纹理映射到3D表示中。然后,论文着重于增强参考视角中被遮挡区域的纹理。为了更好地实现这一过程,论文将神经辐射场导出到显式表示形式——点云。与Marching Cube导出的噪声网格相比,点云提供了更清晰和更直接的投影。
直接从NeRF渲染多视图RGBD图像并将其提升到三维空间中的纹理点的朴素尝试会产生噪声的点云,因为不同视角下的NeRF渲染可能会给同一3D点赋予不同的RGB颜色。为了解决这个问题,论文提出了一种迭代策略来从多视图观测中构建干净的点云。论文首先根据NeRF的渲染深度 D ( β r e f ) D(\beta_{ref}) D(βref)和alpha掩模 M ( β r e f ) M(\beta_{ref}) M(βref)从参考视图 β r e f \beta_{ref} βref中构建点云,如图5所示:
其中 R R R, K K K为内外参, P \mathcal{P} P表示深度到点云的投影。
对于其余视图 β i \beta_{\mathrm{i}} βi的投影,必须避免引入与现有点重叠但颜色冲突的点。为此,论文将现有的点 V ( β r e f ) V\left(\beta_{\mathrm{ref}}\right) V(βref)投影到新的视图 β i \beta_{\mathrm{i}} βi中,以产生一个指示现有点存在位置的掩模。以这个掩模作为指导,论文只给现有的点云补充那些尚未观察到的点 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi),如图5所示。然后用粗糙NeRF渲染的粗糙纹理初始化这些看不见的点,并集成到现有的密集点云中。
按照前文方法,虽然密集点云中的 V ( β r e f ) V\left(\beta_{\mathrm{ref}}\right) V(βref)已经有了从参考图像投影出来的高保真纹理,但在参考视图中被遮挡的其他点 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi)仍然遭受了来自粗糙NeRF的平滑纹理,如图6所示。为了增强其他点的纹理以增强模型的视觉效果,论文优化了 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi)的纹理,并使用扩散先验约束了新视图渲染。具体地,对于每个点,优化一个19维的描述符,其中前三个维度初始化为初始RGB颜色,并采用多尺度延迟渲染方案,使用一个U-Net渲染器联合优化来渲染特征图并得到最终图像:
论文将所提方法与五个代表性baseline进行比较。
生成的3D模型应该在参考视图上与输入图像非常相似,并且在新视角下展现与参考相一致的语义。论文使用以下指标来评估这两个方面:
表1和表2显示,论文的方法在参考视图和新视角质量方面明显优于baseline方法。
如图9所示,Make-It-3D可以成功将复杂场景的单张照片转换为3D模型,例如建筑和风景。这使用户可以轻松地建模,而这对于一些传统的3D建模技术可能很困难。
在先前的研究中,传统的方法常常会生成具有有限多样性和过于光滑的纹理的模型。为了实现高质量的文本到3D的转换,论文首先使用2D扩散将文本提示转换为参考图像,然后再进行基于图像的3D创建方法。如图10所示,Make-It-3D能够从文本提示生成多样化的3D模型,并展现出惊人的质量。
Make-It-3D可以通过在细化阶段中操纵参考图像而冻结几何结构来实现视角一致的纹理编辑。如图11所示,论文可以为生成的3D模型添加纹身并应用样式化效果。
论文介绍了Make-It-3D,这是一种新颖的两阶段的方法,可以从单个图像创建高保真度的三维内容。利用扩散先验作为三维感知监督,通过扩散CLIP损失和纹理点云增强,生成的3D模型展现了符合预期的几何形状和逼真的纹理。Make-It-3D适用于一般对象,赋予了多样的迷人应用。研究者相信论文的方法在将2D内容创作的成功扩展到3D方面迈出了重要一步,为用户提供了全新的3D创作体验。
CVHub
是一家专注于计算机视觉领域的高质量知识分享平台:
关注微信公众号,欢迎参与实时的学术&技术互动交流,领取学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!
即日起,CVHub
正式开通知识星球,首期提供以下服务:
Challenge
分析,创新点挖掘,实验配置,写作经验等。CV
,NLP
,AIGC
等;同时不定期分享各类实用工具、干货资料等。