【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation

  • 论文阅读笔记
    • 论文信息
    • 摘要
      • 背景
      • 方法
      • 结果
    • 关键发现
    • 作者动机
    • 相关工作
        • 1. Text-to-image Generative Models
        • 2. 3D generation based on pre-trained image generative models
        • 3. Domain Adaptation of 3D GANs
    • 方法/模型
        • 多视图图像数据集制作
        • 粗到细鉴别器解决数据集中的图像位姿不对齐问题
        • 基于潜在扩散的图像引导3D生成
    • 实验设计
      • 引导和提示对数据集构建的影响
      • 粗到细鉴别器的有效性
      • 潜在空间插值
      • 条件扩散模型有效性
      • 几何结构
      • 基于 LoRA 的卡通人物重建
      • 附录
    • 训练代价
    • 总结

论文阅读笔记

  1. 首先是合成数据集,利用controlnet和预先设定的提示词组合来生成多姿态、多风格、多属性的数据
  2. 其次是对于大姿态数据可以使用粗细不同的注释作为鉴别器的label,是否可以扩展到真人训练
  3. 包括本篇文章和instructpix2pix、emu edit都是先有文本生成图片后作为训练数据,是否可以先有图片,通过现有LLM识别图像生成对应的文本数据?

论文信息

  • 论文标题:StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation
  • 作者:Tencent PCG,Chunhua Shen团队
  • 发表年份:2023
  • 期刊/会议:暂无
  • Github:https://github.com/icoz69/StyleAvatar3D
  • code:未发布

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第1张图片

摘要

背景

伴随文生图扩散模型在3d内容生成方面的应用,提出一种3D风格化身生成方法。

方法

  • 利用预先训练的图像-文本扩散模型进行数据生成
    • 从现有的 3D 模型中提取的姿势来指导多视图图像的生成
    • 使用ControlNet由预定义姿势引导StableDiffusion图像生成
  • 基于生成对抗网络(GAN)的3D生成网络进行训练
    • 解决数据中姿势和图像之间的错位问题,我们研究了特定于视图的提示,并开发了用于 GAN 训练的从粗到细的鉴别器
    • 深入研究了与属性相关的提示,以增加生成的化身的多样性

结果

  • 利用图像文本扩散模型提供的外观和几何的综合先验,生成各种风格的虚拟形象

    • StyleGAN的风格空间中开发了一个潜在的扩散模型,以实现基于图像输入的化身生成

    • 生成的化身的视觉质量和多样性方面取得sota

关键发现

  1. 提出了一种新的框架,用于生成利用预先训练的图像-文本扩散模型的高保真3D化身。我们的框架允许文本提示定义样式和面部属性,显着增强了化身生成的灵活性
  2. 提出了一种从粗到细的姿态感知鉴别器来解决图像姿态不对中问题,从而更好地利用姿态标注不准确的图像数据
  3. 开发了一个额外的条件生成模块,该模块允许在潜在风格空间中使用图像输入进行条件 3D 生成(在风格代码空间训练diffusion model)

作者动机

  • 手动创建软件引擎中的3D资产是一个费力的过程,需要大量的专业知识,限制了多样化和高质量的3D模型的可用性
  • 预训练的图像-文本生成模型来生成高保真 3D 模型

相关工作

1. Text-to-image Generative Models
  • stablediffusion、Imagen、DALL-E的出现给文生图模型领域带来了巨大进步
  • controlnet、Lora用于帮助stablediffusion输出图像内容的进一步条件或主题控制
2. 3D generation based on pre-trained image generative models
  • Rodin使用3D化身模型获得的参数三平面特征
  • Dreamfusion基于分数蒸馏采样(SDS)优化nerf场生成3d内容
  • Magic3D利用稀疏3D哈希网格结构的两阶段优化策略
  • DreamBooth3D 结合了 DreamBooth 和 DreamFusion允许从主题的几张图像中个性化文本到 3D 生成模型
  • Latent-NeRF在编码器的潜在空间中应用扩散过程来改进 DreamFusion
3. Domain Adaptation of 3D GANs
  • EG3D的姿态条件鉴别器需要精确的图像相机姿态注释来学习多视图一致的3D模型
  • PoF3D开发了一种基于EG3D的无姿态鉴别器,在鉴别器中嵌入姿态预测器来预测输入图像中的姿态进行训练
  • 3DAvatarGAN 从风格化的 2D 生成器中提取知识被提炼为预训练的 3D 生成器以进行域适应
  • dreamfusion使用预训练的文本到图像扩散模型将预训练的 3D 生成器适应新的文本定义域

本文方法侧重于生成校准数据并有效地使用它来训练 3D GAN

方法/模型

  • 多视图图像数据集制作
    • 图像数据准备(一开始的数字化身来自?

      • 表示为 C θ C_{\theta} Cθ 的 ControlNet 接收姿势图像 I p I_p Ip和文本提示 T T T 作为输入,并且响应,生成风格化图像 I s : I s = C θ ( I p , T ) I_s:I_s=C_{\theta}(I_p,T) Is:Is=Cθ(Ip,T)
      • 文本提示 T 包括一个正提示和一个负提示: T = ( T p o s , T n e g ) T=(T_{pos},T_{neg}) T=(Tpos,Tneg),它们分别指定合成图像中所需的和不希望的特征
      • 使用来自引擎的现有 3D 化身模型为指导提供姿势图像,化身头部中心为世界坐标系原点,预定半径旋转以创建多视图图像,摄像机位置在-180度到180度的偏航范围内随机采样,俯仰范围为-30度至30度
      • 由于姿势图像是在引擎内生成的,我们同时获得合成图像 I s I_s Is的相机参数 c c c
    • 视角相关提示词(正负面提示词)

      • 引入视图相关的提示 T v i e w T_{view} Tview合并到正提示中,以生成特定的视图,例如“人脸的侧视图”和“头部背面”
      • 对于 Tneg 中的不同视图,引入了与看不见的面部特征相关的负面提示,例如“眼睛”和“鼻子”
    • 属性相关提示词

      • 属性相关的提示 Tatt,用于增强创建的化身的多样性。发型、面部表情和眼睛形状等方面,结合了 20 个不同的面部属性来增强化身的多样性。在生成过程中,随机抽取五个面部属性并为每个属性选择一个类别
      • T p o s T_{pos} Tpos由三部分组成:与风格相关的提示 T s t y l e T_{style} Tstyle、与视图相关的提示 T v i e w T_{view} Tview和属性相关的提示 T a t t : T p o s = { T s t y l e , T v i e w , T a t t } T_{att}: T_{pos} = \{T_{style}, T_{view}, T_{att}\} Tatt:Tpos={Tstyle,Tview,Tatt}
      • 模型从一些基于 LoRA 的图像示例中学习风格
    • 数据集生成的详细提示(详见论文附录表4和表五)

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第2张图片
【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第3张图片

  • 粗到细鉴别器解决数据集中的图像位姿不对齐问题

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第4张图片

  • 姿态表征为one-hot 偏航表示和一个 one-hot 俯仰表示,并cat起来作为最终姿势label,训练过程中只取其一

  • 接近正面的图像分配精细姿势注释的概率 p h p_h ph,不接近的使用 p l p_l pl

  • 基于潜在扩散的图像引导3D生成
    • 开发了一个在StyleGAN的潜风格空间W中运行的条件扩散模型,经过训练的 3D 生成器中随机抽取图像和样式向量对来学习扩散模型
    • 利用PriorTransformer作为我们的扩散模型εθ,它接收噪声样式向量w和前图像的clip编码嵌入y作为输入并预测噪声ε
    • 使用无分类器扩散引导的方法进行训练保证多样性
    • 将原始 3D 生成器中的样式映射网络替换为模型,以生成以输入图像为条件的 3D 化身

实验设计

  1. 50 个化身风格
  2. 生成的图像的分辨率为512 × 512
  3. 构建了一个混合风格的数据集,包含50万张图片,平均从50种风格采样,采用混合引导策略
  4. 当使用深度作为姿势图像时,我们利用Midas模型从现有引擎创建的10万个化身中提取深度图
  5. 对于人体姿势指导,我们基于引擎中的一个化身渲染不同视图的 Openpose 注释
  6. 训练期间增强我们的数据集,我们水平翻转合成图像和姿势标签。

引导和提示对数据集构建的影响

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第5张图片

  1. 特定于视图的提示在消除失败案例方面特别有效
  2. 结合与属性相关的提示极大地增强了生成的化身外观的多样性
  3. 混合引导方法导致生成的化身的整体质量和稳定性更好

粗到细鉴别器的有效性

FID评价鉴别器有效性

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第6张图片

潜在空间插值

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第7张图片

条件扩散模型有效性

输入input生成对应的人物化身

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第8张图片

几何结构

和eg3d一样,使用matchcube算法导出几何结构
【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第9张图片

基于 LoRA 的卡通人物重建

使用lora调整条件diffusion的风格

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第10张图片

附录

  • 合成所有面部标志并合成可见地标通常会引入歧义并导致图像不正确,合成所有可见地标以及鼻子点会产生最好的结果

【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第11张图片

  • 消融:模型与仅使用精细姿势注释或粗略姿势注释的基线进行了比较
    【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第12张图片【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第13张图片

  • 使用风格化后的真实图片输入扩散模型
    【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation_第14张图片

训练代价

  • 8 个批量大小为 32 的 Tesla V100 GPU
  • 3D Gan训练过程总共由 6000 次迭代组成,大约需要 5 天
  • 扩散模型的训练遵循类似的设置,使用 DDPM ,共 1000 个去噪步骤,训练了 600,000 次迭代,在训练时放弃条件的概率 pdrop 设置为 0.2,条件引导权重 λ = 5 \lambda=5 λ=5

总结

通过利用预训练的文本到图像扩散模型来生成风格化的 3D 化身,该框架提供了使用文本提示定义样式和面部属性的能力,大大提高了化身创建的灵活性。所提出的从粗到细的鉴别器可以有效地解决生成的训练图像和姿势之间的错位问题,从而提高利用姿态标注不准确的图像数据。最后,开发了一个基于潜在扩散的附加条件生成模块,实现了基于图像输入的 3D 模型生成。

你可能感兴趣的:(论文阅读笔记,文生图,论文阅读,笔记,AIGC,3Avatar,风格化,扩散模型)