今日最佳计算机视觉论文解读:Dr^2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning

单图像秒变3D:新型AGG框架打破传统,实现实时3D生成

引言:单图像到3D生成的挑战与进展

随着虚拟现实和增强现实技术的迅速发展,自动化3D内容创建的需求不断增长。为了从单一图像生成3D对象,研究者们探索了各种3D表示方法。其中,基于3D高斯散射的模型因其卓越的渲染效率而在3D重建和生成方面取得了突出成就。然而,现有的基于图像生成3D的高斯散射方法通常是基于优化的,需要多个计算成本高昂的得分提炼步骤。为了克服这些挑战,我们引入了一种摊销生成3D高斯框架(AGG),它能够即时从单个图像生成3D高斯,无需针对每个实例进行优化。AGG利用中间混合表示,将3D高斯位置和其他外观属性的生成分解开来,以便联合优化。此外,我们提出了一个级联管道,首先生成3D数据的粗略表示,然后通过3D高斯超分辨率模块对其进行上采样。我们的方法在与现有基于优化的3D高斯框架和使用其他3D表示的基于采样的管道进行评估时,展示了在质量和数量上具有竞争力的生成能力,同时速度快了几个数量级。

本文由赛博马良-AI论文解读达人(saibomaliang.com)——推荐选题&撰写生成。

如需查看本月份其他每日最佳计算机视觉论文解读,欢迎移步 http://saibomaliang.com ^_^

1. 论文标题:AGG: Amortized Generative 3D Gaussians for Single Image to 3D

2. 作者与机构:Dejia Xu1, Ye Yuan2, Morteza Mardani2, Sifei Liu2, Jiaming Song2, Zhangyang Wang1, Arash Vahdat2 (1University of Texas at Austin, 2NVIDIA)**

3. 论文解读链接:

赛博马良--懂流量密码的新媒体AI员工定制平台

4. 项目地址:https://ir1d.github.io/AGG/

3D高斯光斑模型的优势与挑战

3D高斯光斑模型的渲染效率

3D高斯光斑模型因其卓越的渲染效率而备受关注。这种模型使用各向异性的3D高斯光斑,每个光斑由中心位置、协方差矩阵、颜色信息和不透明度定义。这种表示方法的优势在于,它允许独立优化高斯光斑的属性,同时保持协方差矩阵的半正定性。3D高斯光斑模型的一个关键特点是其高效的基于瓦片的光栅化器,它支持快速的正向和反向传播,从而实现实时渲染。这种高效的渲染能力使得可以通过在2D渲染上定义的损失函数来监督3D高斯光斑,这对于其他表示方法来说是不适用的。

然而,尽管3D高斯光斑模型在渲染效率上具有优势,但如何恰当地生成3D高斯光斑仍是一个较少研究的话题。现有的方法侧重于基于每个实例的优化设置,尽管3D高斯光斑可以通过自适应密度控制来表示特定的几何形状,但初始化对于复杂对象结构仍然至关重要。

现有方法的优化基础与计算成本

现有的图像到3D生成方法通常是基于优化的,需要许多计算成本高昂的分数提炼步骤。这些方法虽然能够通过自适应密度控制优化3D高斯光斑来表示某些几何形状,但在复杂对象结构的初始化仍然至关重要。在优化设置中,3D高斯光斑的位置通常与其他属性一起优化,但观察到优化更新通常更倾向于减少不透明度和规模,而不是直接移动高斯光斑。因此,高斯光斑在错误的位置被消除后,自适应密度控制可以根据它们的梯度在适当的位置克隆或分裂高斯光斑。尽管对于优化算法来说,修剪和克隆操作的简单性很容易实现,但在摊销神经网络中实现这些操作却不是微不足道的。

AGG框架介绍:一种新的级联生成流程

AGG框架的总体设计

AGG(Amortized Generative 3D Gaussian)框架是一个新的级联生成流程,它能够从单个图像直接生成3D高斯光斑,消除了每个实例优化的需求。AGG框架包括一个粗糙的生成器,它在低分辨率下预测3D高斯光斑的混合表示,以及一个在精细阶段提供密集3D高斯光斑的超分辨率模块。在第一阶段,AGG采用混合生成器产生粗糙分辨率的3D高斯光斑。在这一阶段,将几何和纹理生成任务分解为两个独立的网络。一个几何变换器解码从预训练的图像特征提取器中提取的图像特征,并预测3D高斯光斑的位置。另一个纹理变换器生成纹理场,稍后由高斯位置查询以获得其他点属性。在第二阶段,AGG利用点-体素卷积网络有效地提取局部特征,并对前一阶段的粗糙3D高斯光斑进行超分辨率处理。RGB信息进一步注入到超分辨率网络中,以细化纹理信息。

从单图像直接生成3D高斯的能力

AGG框架的一个关键创新是其能力,可以直接从单个图像生成3D高斯光斑。这是通过设计一个能够在一次操作中即时生成3D高斯光斑的级联生成框架实现的。与现有的工作不同,AGG网络首先通过混合表示生成粗糙的高斯预测,该表示将几何和纹理分解开来。通过两个独立的变换器预测几何和纹理信息,3D高斯光斑的属性可以联合和稳定地优化。一个基于UNet的架构,具有点-体素层,被引入作为第二阶段,有效地超分辨率处理3D高斯光斑。AGG展示了在定性和定量上的竞争性生成能力,同时速度比现有的基于优化的3D高斯框架和采样基础的流程快几个数量级。

粗糙混合生成器的构建

1. 输入图像的编码与特征提取

在粗糙混合生成器的构建中,首先需要对输入图像进行编码和特征提取。这一步骤至关重要,因为从单一视角的图像中生成3D对象是一个高度不确定的问题,多个3D对象可能与单视图投影对齐。因此,一个有效的图像编码器是必不可少的,它需要提取出对3D信息至关重要的特征。在本工作中,使用了预训练的DINOv2变换器作为图像编码器,它通过自监督预训练展示了强大的特征提取能力。与之前的工作不同,不仅使用了聚合的全局[CLS]令牌,还结合了逐块特征。

2. 几何与纹理生成器的设计与分离

在生成器的几何部分,采用基于变换器的网络来预测3D高斯的位置序列。输入变换器的是一组可学习的查询,实现为一组可学习的位置嵌入。每个查询将对应生成一个3D高斯。在输入变换器网络之前,位置嵌入与DINOv2模型提取的全局令牌[CLS]相加。随后,通过一系列变换器块逐步调整查询序列,每个块包含一个交叉注意力块、一个自注意力块和一个多层感知块,这些组件交错使用LayerNorm和GeLU激活函数。交叉注意力块接受DINOv2特征作为上下文信息。几何预测器的最后一层涉及一个MLP解码头,将注意力模块生成的隐藏特征转换为三维位置向量。

纹理生成器的设计旨在解决纹理和几何信息的联合预测所带来的挑战。由于3D空间中缺乏直接的纹理地面真实监督,纹理信息是通过2D中的渲染损失推断出来的。为了解决这一问题,使用了一个独立的变换器来生成纹理场。纹理场使用三平面实现,并由共享的解码MLP头补充。三平面接受几何分支的3D位置查询,并将插值特征串联起来进行进一步处理。这种纹理场的使用有助于几何和纹理信息的分解优化。

3. 通过2D渲染进行监督的方法

得益于3D高斯的高效光栅化器,可以在训练过程中对新视图渲染应用监督。生成的3D高斯从随机选择的新视图渲染,并计算与数据集中可用的真实渲染之间的图像空间损失函数。具体来说,将场景渲染成RGB图像和相应的前景alpha掩码,并使用LPIPS和L1损失来最小化它们之间的差异,渲染损失为Lrendering = Lrgba + ω1Llpips,其中ω1是一个权重因子。

3D高斯超分辨率模块

1. 超分辨率网络的设计与实现

尽管混合生成器在粗糙生成阶段非常有效,但生成高分辨率的3D高斯需要大量的可学习查询,这在计算上是昂贵的,因为自注意力层的二次成本。因此,使用第二阶段网络作为超分辨率模块,引入更多的3D高斯到我们的生成中。由于第一阶段已经获得了粗略的几何形状,超分辨率网络可以更多地专注于细化局部细节。为了简化,使用了带有高效点-体素层的轻量级UNet架构。

2. RGB信息的整合与纹理细节的提升

第一阶段网络虽然可能捕捉到物体的大致几何形状,但由于点位置的振荡和粗略的几何形状,纹理场可能会收敛到模糊的结果。因此,利用输入图像中丰富的纹理信息对超分辨率网络生成可信细节至关重要。为此,在UNet架构的瓶颈处引入了RGB特征。具体来说,在特征扩展操作之前和之后采用交叉注意力层。通过交叉注意力层将图像特征引导到潜在的点-体素特征中。

应对摊销训练中的挑战

1. 适应性密度控制的问题与解决方案

在摊销训练中,3D 高斯模型依赖于适应性密度控制来表现复杂的几何形状,但这导致了3D高斯数量的动态变化,使得在摊销训练环境中难以预测。为了解决这个问题,我们采用了固定数量的3D高斯来避免生成网络需要决定点的数量。此外,由于缺乏克隆和分割操作,训练过程中的3D高斯倾向于模仿细腻的纹理细节,导致生成的图像出现模糊或损坏。为了克服这一挑战,我们经验性地为所有对象设置了规范的各向同性比例和旋转,以稳定训练过程。

2. 网络初始化与伪标签的使用

在原始的基于优化的3D高斯模型中,适当的初始化对于高斯位置的优化至关重要。然而,在摊销训练中,我们通过神经网络预测3D高斯,这就需要网络初始化得当,以便生成的高斯能够得到适当的监督。为了解决这个问题,我们使用了3D高斯伪标签来预热网络。我们使用少量的3D对象进行多视图重建,以获得每个对象的3D高斯,并使用它们的属性来适当地初始化网络层。由于这些高斯是随机排序的,我们采用了钱福尔距离损失来预训练网络,而不是使用L1重建损失。

实验验证:数据集与基线方法

1. 实验设置与网络架构

我们的实验基于OmniObject3D数据集进行,该数据集包含了高质量的真实世界对象扫描。我们的训练集使用了来自73个类别的2,370个对象,测试集包含146个对象,每个类别留出两个对象。我们的网络架构遵循了DINOv2的实践,使用了预训练的DINOv2-base模型来提取256×256分辨率的图像特征。我们还实施了3D增强,以在训练阶段强制旋转等变性,并防止网络仅仅过拟合数据集中对象的规范放置。

2. 与现有方法的定性与定量比较

我们将我们的方法与使用不同3D表示的基于采样的3D生成方法进行了比较,如Point-E和One-2345,以及使用SDS从Zero123优化3D高斯的DreamGaussian。我们的AGG网络在多视图渲染的质量和推理速度方面展示了竞争性能。尽管Point-E和One-2345在生成最终结果时采用了迭代扩散过程,而DreamGaussian则利用了通过得分蒸馏采样的昂贵优化过程,我们的方法在单图像到3D生成方面实现了数个数量级的速度提升。

讨论与总结

1. AGG的性能与速度优势

AGG(Amortized Generative 3D Gaussian framework)是一种新型的从单张图片生成3D内容的框架。它通过一种高效的渲染方法——3D Gaussian splatting——来实现3D重建和生成,这种方法因其卓越的渲染效率而受到关注。AGG框架的核心优势在于其能够即时产生3D Gaussians,无需每个实例的优化,从而显著提高了生成速度。

AGG框架利用了一个中间的混合表示形式,将3D Gaussian的位置和其他外观属性的生成分解开来,以便进行联合优化。此外,AGG提出了一个级联的管道,首先生成一个粗略的3D表示,然后通过一个3D Gaussian超分辨率模块对其进行上采样。与现有基于优化的3D Gaussian框架和使用其他3D表示的基于采样的管道相比,AGG在质量和数量上展示了竞争性的生成能力,同时速度快了几个数量级。

2. AGG在单图像到3D生成中的潜力与未来展望

AGG框架在单图像到3D生成领域展现出巨大的潜力。它首次尝试构建一个摊销模型(amortized model),该模型能够预测3D Gaussians,而不是通过优化来构建它们。这种方法减少了测试时优化的需求,将计算成本从推理阶段转移到训练阶段。

AGG的潜力不仅体现在其生成速度上,还体现在其对于复杂几何结构的表达能力。通过在训练过程中使用固定数量的3D Gaussians,并对它们进行适当的初始化和预热,AGG能够稳定训练过程并生成具有合理几何理解和可信纹理颜色的3D对象。

未来,AGG框架的发展方向可能包括进一步扩展其在更具挑战性的场景中的应用,例如输入图像包含多个具有遮挡的对象。此外,研究者们可能会探索如何提高AGG生成的3D Gaussians的数量,以更好地表示非常复杂的几何结构。

总的来说,AGG框架为单图像到3D生成提供了一个高效、可扩展的解决方案,其未来的发展值得期待。

本文由赛博马良-AI论文解读达人(saibomaliang.com)——推荐选题&撰写生成。

如需查看本月份其他每日最佳计算机视觉论文解读,欢迎移步 http://saibomaliang.com ^_^

你可能感兴趣的:(计算机视觉,人工智能)