[2023.07.09]dreamfusion概述及背景,以及diffusion model相关知识

dreamfusion

1.摘要:

没有标注的3d数据集,用于去噪3d数据的有效结构的情况下。通常text to 3d的做法使用CLIP+NeRF,本文使用从2d模型中蒸馏出的loss代替CLIP。而使用用2d的扩散模型构造一个类似概率密度蒸馏的损失函数,用于调优2d图像生成器的参数。在类似DeepDream的过程,使用梯度下降优化这个loss随机初始化的3d模型(一个损失函数同时用在两个位置?)。

        1).概率密度蒸馏(probabilty density distillation):

        最小化拥有和展现扩散过程共同的均值的高斯分布族和由预先训练的扩散模型的分数函数(score function)之间的kl散度。(为什么选择这两个?)

                (1) score function: measures the sensitivity of log-likelihood log fθ(x) to its parameter θ:

        2). score distillation sampling

        优点:在优化NeRF的过程中就可以sampling

2.dreamfusion前已有的工作:

        1) diffusion model
        2)NeRFs
        3) 3d:

                GANs:通过在3d场景的2d渲染结果上增加对抗损失。

----------------------------------

diffusion model相关知识回顾

1.sampling

1)定义:

diffusion model的去噪过程,由于每次去噪都会生成新样本。去噪过程中,noise predictor估计该步骤图片的噪声,然后把预计的噪声从图片中减去。每步噪声的程度由noise schedule(方差序列\beta_t....\beta_1)确定,ddpm测试了常数、线性、二次,选用了线性\beta_1 = 10^{-4} ,\beta_T = 0.02。通常使用图像收敛速度、图像质量比较不同的采样器(sampler)。

2) sampler:

不同的sampler使用不同的采样方法, 除了扩散模型外,有传统的ode(常微分方程)求解器,祖先求解器(ancestral sampler)。

(1)常微分求解器:euler:最简单的。heun:比euler慢,但更精确。LMS:和euler速度相同,理论上和euler精度相同。

(2)祖先求解器:在每步采样过程中都增加噪音,所以被称为随机采样器。但产生的问题是,随着采样间隔的增加,结果更难收敛,不利于再现结果。

3)扩散模型采样速度慢

(1)原因:在逆向过程中,扩散模型需要把基础的分布映射到复杂的数据分布上。由于描述映射的生成式SDE需要通过数值迭代求解,在生成样本的过程中,模型要调用T次神经网络。因此,扩散模型采样速度慢。(gan生成时,只用调用一次神经网络)。

(2)stable diffusion如何提升扩散模型生成速度

How does Stable Diffusion work? - Stable Diffusion Art (stable-diffusion-art.com)

(3)CLD:认为diffusion model的扩散方式过于简单,所以导致去噪过程复杂。它们提出Critically-Damped Langevin diffusion.CLD参考哈密顿力学,为数据增加了一个速度维度。是的模型只需要学习已有数据的速度的条件分布,而不需要直接学习数据的分值,所以效果好于以前的SGMs。

Score-Based Generative Modeling with Critically-Damped Langevin Diffusion (nv-tlabs.github.io)

2. scalable generative models

3.扩散模型

1) 简单理解:

正向过程destroy the structure by adding noise, 逆向过程 adds structure by denoising.

2)score based generative modeling和ddpm的关系:

?待核实)两者都可以被认为是一种特别的SDE。score based/score matching是“方差爆炸”的SDE,因为高斯分布的方差会逐渐增加,而ddpm的高斯分布方差维持不变。

3)图片的数据分布的含义

假设一张黑白图片256*256,图片构成的分布为一个65536维的0到255的均值分布。对于彩色图片,每个像素值则需要在RGB空间描述而不再是均值分布。

你可能感兴趣的:(DreamFusion,计算机视觉,深度学习)