Multi-Concept Customization of Text-to-Image Diffusion

Multi-Concept Customization of Text-to-Image Diffusion

Abstract

提出自定义扩散,只需要优化文本到图像调节机制中的几个参数就足以表示新概念,同时实现快速调整(6min)可以针对多个概念进行联合训练,获通过闭式约束优化将多个微调模型组合为一个。提出一种微调技术,用于文本到图像扩散模型的自定义扩散,确定一小部分模型权重,即从文本到交叉注意力层中潜在特征的关键和值映射。
基于stable diffusion建立了该方法。方法只需要存储一小部分参数(模型权重的3%),并减少了微调时间(在2个A100 GPU上6分钟,与并行工作相比快2−4倍)。

Method

Multi-Concept Customization of Text-to-Image Diffusion_第1张图片Multi-Concept Customization of Text-to-Image Diffusion_第2张图片
cross-attention层之占了总体参数的5%,但是对于模型latent feature的影响特别大,因此只需要对cross-att层进行微调,便能够实现对于新目标的学习
Multi-Concept Customization of Text-to-Image Diffusion_第3张图片

正则化数据集

LAION-400M[63]数据集中选择了一组200幅正则化图像。减低模型在学习新目标是对旧的概念的遗忘。
Multi-Concept Customization of Text-to-Image Diffusion_第4张图片

多概念

提出使用不同的修饰表示符V*标记,限制权重更新为组合两个概念带来更好的结果

你可能感兴趣的:(人工智能,机器学习,深度学习)