【Diffusion for 3D reconstruction】【细节】3D-aware Image Generation using 2D Diffusion Models

没实现reconstruction,是多视角图像生成。

没有开源代码!

下面是技术细节:

总体框架。我们的方法包含两个扩散模型Gu和Gc。Gu是一个无条件模型,用于随机生成第一个视角,而Gc是一个有条件生成器,用于生成新的视角。通过聚合条件,通过改进和完善先前合成的视角,可以迭代地获得多视角图像。为了快速生成任意视角的合成图像,可以运行3D融合或基于图像的渲染来合成新的目标视角。

【Diffusion for 3D reconstruction】【细节】3D-aware Image Generation using 2D Diffusion Models_第1张图片

数据准备

RGBD 深度重建

Employ an off-the-shelf monocular depth estimator to predict depth map as it generalizes well to the targeted
datasets with diverse objects and scenes.

RGBD 视角变化

在新视点下部分RGBD观测的相关信息. 接受源RGBD图像Is = (Cs;Ds)和目标相机t作为输入,并输出目标视角下的可见图像内容It = (Ct;Dt)和可见性掩码Mt。变形算法使用基于网格的表示和光栅化器实现。对于一个RGBD图像,我们通过将像素反投影到3D顶点并为图像网格上的相邻像素定义边来构建一个网格。

将源RGBD图像的深度信息转换为3D坐标,并根据这些3D坐标构建一个网格表示。网格由顶点和边组成,其中顶点对应于图像中的像素,边定义了相邻像素之间的连接关系。通过这种网格表示,我们可以在3D空间中对图像进行几何变换和插值操作。
通过应用几何变换和插值,我们可以将源RGBD图像中的像素映射到目标视角下,并生成目标视角下的可见图像内容It和相应的可见性掩码Mt。可见性掩码指示了目标视角下哪些像素是源图像中的有效信息。

Training pair construction

通过前向-后向变形策略构建的条件是等效于将真实图像变形到目标视角(对于Lambertian表面)或对非Lambertian区域进行近似处理。这意味着我们可以使用预测的视角下的数据来近似地重建目标视角下的真实图像内容,从而在训练过程中进行学习和优化

4.2. Training

Unconditional RGBD generation

我们直接将数据集中的图像分布qd视为qi,即3D资产的部分观测的分布,并在构建的RGBD图像I ∼ qd(I)上训练扩散模型,以对其进行参数化。假设数据集中的RGBD图像分布qd反映了真实场景中3D资产的部分观测情况。我们将这个分布qd视为我们感兴趣的分布qi,并使用这个分布来训练扩散模型。这样,我们可以通过对训练数据进行扩散过程来学习和优化模型的参数,使其能够生成与数据集中观测到的图像分布相似的RGBD图像。

ADM(Attention-based Deep Multi-view) 网络是一种基于注意力机制的深度多视角网络架构,旨在处理多视角图像合成任务。通过引入注意力机制,ADM网络能够自适应地对不同视角的特征进行加权,从而更好地捕捉多视角图像的多样性和一致性。

在我们的工作中,我们对ADM网络进行了一些修改,以便能够处理包含深度通道的RGBD图像。具体而言,我们在ADM网络的输入层中添加了一个用于接收深度信息的通道,以便网络能够同时考虑颜色和深度信息来生成合成的图像。

对于带有类别标签的数据集(如ImageNet),我们使用了分类器无关的引导方法,即在训练过程中随机丢弃一部分标签信息。这种引导方法有助于减轻过度依赖类别标签的影响,使模型更好地学习到视觉特征的一般性和泛化能力。

通过采用ADM网络架构并结合深度通道和分类器无关的引导方法,我们可以更好地处理RGBD图像合成任务,并使生成的图像更具多样性和一致性。

你可能感兴趣的:(3d,计算机视觉,人工智能)