李宏毅机器学习2023|图像生成模型

文章目录

  • 图像生成
  • Autoregressive(各个击破)Non-Autoregressive(一次到位)
  • 一次到位法
  • 额外的输入——从一个高维的Normal Distribution作simple得到一个向量
  • 常用的图片生成模型
    • VAE
    • Flow-based Generative Model
    • Diffusion Model
    • GAN
  • Diffusion Model
    • denoise model里实际内部做的事情
    • 如何训练Noise Predictor
    • 怎么把文字考虑进来
  • Stable Diffusion
    • 常见的图生文模型
    • 组成部分
      • text encoder
      • Generation Model
      • Decoder
    • 评估指标
      • FID
      • CLIP Score

图像生成

机器需要大量的脑补

Autoregressive(各个击破)Non-Autoregressive(一次到位)

直接把图片的像素拉直,当成文字那样处理。
但是这样太耗时

一次到位法

因为每一个像素独立绘制,因此效果不好

额外的输入——从一个高维的Normal Distribution作simple得到一个向量

李宏毅机器学习2023|图像生成模型_第1张图片

常用的图片生成模型

VAE

怎么样去找一些成对的训练集?使用Encoder产生。(图中省略了输入文字)
李宏毅机器学习2023|图像生成模型_第2张图片

Flow-based Generative Model

因为Encoder必须是Invertible的,因此输出的vector的维度必须和输入的一样。(图上没画好)
李宏毅机器学习2023|图像生成模型_第3张图片

Diffusion Model

李宏毅机器学习2023|图像生成模型_第4张图片

GAN

只learn decoder没有learn encoder。
Decoder要做的就是调整他自己,让判别器表现得越差越好。

Diffusion Model

这里的Denoise都是同一个model
李宏毅机器学习2023|图像生成模型_第5张图片

denoise model里实际内部做的事情

李宏毅机器学习2023|图像生成模型_第6张图片

如何训练Noise Predictor

从哪获取训练资料——怎么找到杂屑的ground truth?这是人类自己创造的
加噪音——Forward Process(Diffusion Process)

怎么把文字考虑进来

数据集:LAION-5b
李宏毅机器学习2023|图像生成模型_第7张图片
李宏毅机器学习2023|图像生成模型_第8张图片

来源论文:Denoising Diffusion Probabilistic Models

Stable Diffusion

现在最好的图像生成模型由三个元件组成:
1、Text Encoder
2、Generation Model(Stable Diffusion或者其他)
3、Decoder
三个元件分开训练再合起来
李宏毅机器学习2023|图像生成模型_第9张图片

常见的图生文模型

李宏毅机器学习2023|图像生成模型_第10张图片
李宏毅机器学习2023|图像生成模型_第11张图片
李宏毅机器学习2023|图像生成模型_第12张图片

组成部分

text encoder

encoder对结果影响很大,相对而言diffusion model(这里指那个noise predicter的大小)对结果影响就不大。
李宏毅机器学习2023|图像生成模型_第13张图片

Generation Model

杂屑不是加在图片上,而是加在中间产物上
李宏毅机器学习2023|图像生成模型_第14张图片
李宏毅机器学习2023|图像生成模型_第15张图片

Decoder

训练时不需要labelled data
李宏毅机器学习2023|图像生成模型_第16张图片
李宏毅机器学习2023|图像生成模型_第17张图片

评估指标

FID

越小越好
李宏毅机器学习2023|图像生成模型_第18张图片

CLIP Score

越大越好
李宏毅机器学习2023|图像生成模型_第19张图片

你可能感兴趣的:(机器学习,人工智能,计算机视觉)