【论文阅读笔记】Würstchen: AN EFFICIENT ARCHITECTURE FOR LARGE-SCALETEXT-TO-IMAGE DIFFUSION MODELS
WURSTCHEN:用于大规模文本到图像扩散模型的高效架构摘要贡献方法训练推理实验结论附录附录A附录B附录C附录D附录E这篇文章提出了一个高效的用于文本到图像生成模型架构,整体思路比较直白,在不损失图像生成质量的情况下,相比于现有T2I模型(SD1.4,SD2.1等)大大节约了成本。附录部分给了一些有趣的东西,比如FID的鲁棒性整篇文章还有点疑惑,比如阶段B的训练,使用的模型;节省成本主要是在说C