多模态论文笔记——DiT(Diffusion Transformer)

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用,将Diffusion和Transformer结合起来的模型:DiT。目前DiT已经成为了AIGC时代的新宠儿,视频和图像生成不可缺少的一部分。

多模态论文笔记——DiT(Diffusion Transformer)_第1张图片

文章目录

    • 论文
    • 定义
    • 架构
    • 与传统(U-Net)扩散模型区别
      • 架构
      • 噪声调度策略
    • 与传统扩散的相同
    • 输入图像/条件信息的Patch化(Patchify)和位置编码
      • Patch化
      • 位置编码
    • DiT Block模块详细信息
      • 上下文条件化
      • 交叉注意力模块
      • adaLN-Zero 模块
        • Layer Normalization(LN)
        • Adaptive Layer Normalization(AdaLN)
          • AdaLN的核心步骤
        • adaLN-Zero
          • adaLN-Zero的核心步骤
          • 说明
      • DiT中具体的初始化
  • U-ViT(U-Net Vision Transformer)
    • DiT 和 U-ViT 的对比
  • 历史文章
    • 机器学习
    • 深度学习

论文

Scalable Diffusion Models with Transformers

定义

DiT是基于Transformer架构的扩散模型。用于各种图像(SD3、FLUX等)和视频(Sora等)生成任务。

DiT证明了Transformer思想与扩散模型结合的有效性,并且还验证了Transformer架构在扩散模型上具备较强的Scaling能力

你可能感兴趣的:(多模态论文笔记,深度学习,transformer,DiT,人工智能,机器学习,aigc,stable,diffusion)