[SGDiff] A Style Guided Diffusion model for fashion synthesis

Abstract

①提出一个 风格引导的扩散模型(SGDiff),把 图像模态 与 预训练的t2i模型 组合起来。

②提出一个 数据集 SG-Fashion。

Method

SGDiff Overview

[SGDiff] A Style Guided Diffusion model for fashion synthesis_第1张图片

 [SGDiff] A Style Guided Diffusion model for fashion synthesis_第2张图片

公式含义:在给定时间点 t 上的输入x_t,目标文本的语义表示f_T,风格表示f_S。通过扩散网络 \epsilon_{\theta} 估计该时刻的噪声 \hat{\epsilon}_t

输入:①文本text;②风格图像。

文本条件 c_T 通过扩散模型的 E_T^{diff} 生成 f_T

风格条件 c_S 通过CLIP模型的 E_S^{clip} 生成 f_S

这两个特征在 SCA 模块中进行特征融合(融合细节如下图:)

[SGDiff] A Style Guided Diffusion model for fashion synthesis_第3张图片

f_T :Q,K_T,V_T=L_T(f_T)

f_SK_S,V_S=L_S(f_S)

再特征拼接:

输出 f_m

最后再来一个 skip-connection:

Training Objective

从每一时间步骤t,获得重建图像 \hat{x}_0

[SGDiff] A Style Guided Diffusion model for fashion synthesis_第4张图片

Perceptual Loss:

Perceptual Losses for Real-Time Style Transfer and Super-Resolution. 2016

\psi_m(\hat{x}_0) ,\psi_m({x}_0) 分别表示 生成图像 \hat{x}_0 和真实图像 x_0 在VGG网络的第 m 层的特征表示。

VGG网络,包含多个卷积层和池化层,用于提取图像特征。

最后基于 Improved DDPM,提出最终目标Loss:

L^{simple}_t 

[SGDiff] A Style Guided Diffusion model for fashion synthesis_第5张图片

L^{vlb}_t

Multi-Modal Conditions

Experiment

数据集:SG-Fashion,包含17,000 张从优衣库等网站上下载的各类图片。

模型架构:GLIDE+CLIP(ViT/32)

显卡:a single RTX3090

定性比较

定量比较

[SGDiff] A Style Guided Diffusion model for fashion synthesis_第6张图片

收获

  • 了解到【模态融合】相关知识;

你可能感兴趣的:(科研,人工智能)