Re6:State of the Art on Diffusion Models for Visual Computing

Abstract

  • 将会主要介绍扩散模型的基本数学概念、流行的扩散模型实现细节,以及其应用,最后讨论可用的数据集,指标等

1 Introduction

  • 生成式模型的能力大爆发,如Stable Diffusion, Imagen, Midjourney, DALL-E 2, DALL-E 3等
    Re6:State of the Art on Diffusion Models for Visual Computing_第1张图片
    Re6:State of the Art on Diffusion Models for Visual Computing_第2张图片

2 Scope of this STAR

Re6:State of the Art on Diffusion Models for Visual Computing_第3张图片

挑战

  • 网络上的3D物体或场景的实例图片很少
  • 扩散模型的推理时间很慢,网络规模太大,训练速度慢,推理速度慢

3 Fundamentals of Diffusion Models

Overview

生成模型分类

  • 非直接模型:GAN
  • 直接模型:VAE, diffusion model

3.1 Mathematical Preliminaries

DDPM(Denosing diffusion probablistic models)

  • 通过对图像的噪声的分布来预测原始图像的分布
Score-based model(Generative Modeling by Estimating Gradients of the data Distribution)

Re6:State of the Art on Diffusion Models for Visual Computing_第4张图片

  • 如何理解数据的概率分布,第一张图可以看到假设横轴为眼睛逐渐变大,纵轴为头发逐渐变短,则大量的点将集中在左下和右上两个区域,预测score的过程也可以理解成是对噪声进行训练,估计噪声。
  • Score的定义为对概率求对数后求梯度,在第二张图中可以看到左上和右下的分布比较集中,大量的数据往这两个方向指
  • 因此,对于其他位置的点,需要进行梯度更新等方式逐渐移动到分布密集的点,这样生成的图片更符合需要
  • 得到分数后后采样:朗之万动力学,最后加上一个布朗运动的随机项
    在这里插入图片描述
  • 但是单纯进行梯度下降会出现问题,即当得到的数据落在不准确的区域之后梯度更新到准确的区域很困难,类似于梯度下降中的落入局部最优点。作者因此通过添加噪声以解决问题,加入噪声后,准确的区域扩大,即分布集中的图片变分散。生成效果更好
  • 作者在此基础上提出了退火朗之万动力学,因为面临着一个取舍问题,即:应该加多少噪声?加多了分布变得分散,加少了不容易生成图片。
  • 在这里2-6步骤,实现方式为从1-L种不同的噪声,每种噪声都是从1-T时间进行优化
    Re6:State of the Art on Diffusion Models for Visual Computing_第5张图片

SDE(SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS)

  • 用更通用的方式将扩散和逆扩散过程表达出来
  • 前向过程dx变化量由dt时间变化量和dw布朗运动有关
  • 逆向过程也可以通过数学公式推导出来
    Re6:State of the Art on Diffusion Models for Visual Computing_第6张图片
  • 同时提出了一个ODE Solver解决Reverse SDE的映射,这样能将数据在加噪去噪后回到原先位置。

3.2 Latent Diffusion using the Stable Diffusion Model

Stable Diffusion(High-Resolution Image Synthesis with Latent Diffusion Models)

  • 在特征图上做diffusion
  • 主要原理:
    • 首先x输入图片,通过encoder将图片变成特征图z,然后对特征图加噪,得到加噪后图像zt
    • 将加噪后图像zt输入到生成模型中,同时加入文字条件,进行不断去噪,得到z,再加一个decoder,复原图像
      Re6:State of the Art on Diffusion Models for Visual Computing_第7张图片

3.3 Conditioning and Guidance

  • 目的在于控制生成结果

Concatenation(Palette Image-to-Image Diffusion Models)

Cross attention

ControlNet(Adding Conditonal Control to Text-to-Image Diffusion Models)

Classifier-guided(Diffusion models beats gans on image synthesis NIPS 2021)

Classifier-free diffusion guidance(Classifier-free diffusion gudiance Arxiv 2022)

  • 可以理解成用了两个U-net,效果比加了分类的效果要好
    在这里插入图片描述

3.4 Editing, Inversion and Customization

Editing

Sdedit:(Guided image synthesis and editing with stochastic differential equations)(2021 arxiv)
  • 无监督
  • 加噪前期先抹去纹理信息,再抹去特征信息,即看不出物体是什么,去噪则是相反过程,先恢复低频信息,再恢复高频信息纹理信息
  • 而这篇论文在去噪时不让其走到最后一步,提前终止,保留低频信息,就生成了一个图片。如果将整个去噪过程走完就会恢复到原先的图片。
DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation(2022 CVPR)

  • 去噪过程中使用文本对Umet模型进行微调
Blended Diffusion for Text-driven Editing of Natural Images(2022 CVPR)
  • 可以对局部区域进行变换
Diffusion Self-Gudiance for controllable Image Generation(2023 arxiv)
  • 通过输入文字对图片中的内容进行更改
  • 文字与每一层之间存在映射,进而计算损失
Prompt-to-Prompt Image Editing with Cross Attention Control(2022 arxiv)
  • 修改文字进而使得图片变化
  • 每一个字都对应于attention maps的一层,将文字修改即将attention map的层修改

Inversion

Null-text Inversion for Editing Real Images using Guided Diffusion Models(2023 CVPR)
  • 原始图片和加入文本修正后主要内容发生变化
An image is worth one word:Personalizing text-to-image generation using textual inversion(2022 CVPR)
  • 当映射文本中出现了没有训练过的文字该如何处理?

Customization

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation(2023 CVPR)
  • 正常想法会将图片输入stable diffusion中进行fine-tune,然后输出,但照片量太少,出现过拟合
    Re6:State of the Art on Diffusion Models for Visual Computing_第8张图片
Multi-Concept Customization of Text-to-image Diffusion(2023 CVPR)
  • 同样是将图片提取出来进而生成新的照片
  • 通过修改不同层的信息进而修改生成图片

Video editing and generating(Unconditonal and text-conditoned)

Video Diffusion Models(2022 NIPS)
  • 修改模型,2D卷积换成3D,视频资源较少
MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA(2022 arxiv)
  • 生成图片然后插值,预测中间空的图片
Structure and Content-Guided Video Synthesis with Diffusion Models(ICCV 2023)
  • stable diffusion用在视频上
Tune-A-Video:One-shot Tuning of Image Diffusion Models for Text-to-Video Generation(ICCV2023)

Data and Metrics

Data

WIT:Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learing[SIGIR-2021]\
  • 37.6m text-image pair
laion-5b
  • 5B text=image pair

Metrics

Improved techniques for training gans(2016 NIPS)
  • Inception score
    • Fidelity
    • Diversity:类别的边缘分布,对所有类别的分布是均匀的
Gans trained by a two time-scale update rule converge to a local nash equilibrium(2017 NIPS)
  • Frechet Inception Distance(FID)
    • FID是从原始图像的计算机视觉特征的统计方面,来衡量两组图像的相似度,是计算真实图像和生成图像的特征向量之间距离的一种度量。
    • 这种视觉特征是使用 Inception v3 图像分类模型提取特征并计算得到的。FID 在最佳情况下的得分为 0.0,表示两组图像相同。分数越低代表两组图像越相似,或者说二者的统计量越相似
    • FID 分数常被用于评估由生成对抗网络(GAN)生成的图像的质量,较低的分数与较高质量的图像有很高的相关性。
      Re6:State of the Art on Diffusion Models for Visual Computing_第9张图片
Learning transferable visual models from natural language supervision(2021 ICML)
  • Clipscore
    • 计算文本和图片的相似度
      Re6:State of the Art on Diffusion Models for Visual Computing_第10张图片

Open Challenge

  • Evaluasion metrics
  • Train Data
  • Environmental Concern
    • OpenAI’s large GPT-4 model was trained on about 25,000 Nvidia A100 GPUs for 90–100 days, costing more than $100 Million.

Conclusion

  • 未来仍存在很多挑战

参考资料

  1. 当前最火文生图背后的Diffusion model综述串讲–数学原理与应用

你可能感兴趣的:(Re读论文,人工智能,学习,笔记)