Stable Diffusion模型对比

  1. Stable Diffusion V1系列是用基于GPT的CLIP模型,其模型参数量为123.65M;
  2. Stable Diffusion V2系列则换成了更新更好的OpenCLIP模型,其参数量为354.03M,相比SD V1的Text Encoder模型大了3倍左右
  3. Stable Diffusion v1:它使用了LAION-2B (en)数据集以及laion-high-resolution和laion-improved-aesthetics的子集进行训练。laion-improved-aesthetics是一个精选子集,筛选条件包括原始尺寸至少为512x512像素、估计审美评分超过5.0以及估计水印概率低等。
  4. Stable Diffusion v2:此版本使用了LAION-5B数据集的一个子集,这代表了更广泛和多样化的训练数据。LAION-5B数据集是一个大型的多模态数据集,提供了更广泛的图像和审美质量范围。这个扩展的数据集有助于Stable Diffusion v2在性能和图像质量上的提升。
  5. 艺术表现:Stable Diffusion v2的用户指出,与v1相比,它在表示名人或艺术风格方面更具挑战性。这可能是由于训练数据的差异,因为CLIP的专有数据可能包含了更多的艺术品和名人图片​​​​。
  6. 负面提示:在Stable Diffusion v2中,与v1相比,负面提示对于强大性能显得更为重要。这表明了模型对提示的响应和图像生成方式的不同。
  7. 图像连贯性:一些评估表明,Stable Diffusion v1.5在整体连贯性和标题对齐方面可能比v2表现更好。在v2中,某些图像可能在上下文中不太适合或看起来几乎不连贯​​​​。
  8. 总结来说,尽管Stable Diffusion v2在文本编码器和训练数据方面取得了重大进步,从而提高了图像质量,但在准确表现特定风格和名人方面面临挑战。此外,v2中负面提示的增加意味着其在图像生成方面采用了不同的方法。
  9. SD V2.1模型在SD V2.0模型的基础上提高了生成图像的质量,由于SD V2.0在训练过程中采用NSFW检测器过滤掉了可能包含安全风险的图像(punsafe=0.1),但是也同时过滤了很多人像图片,这导致SD V2.0在人像生成上效果并不理想,所以SD V2.1在SD V2.0的基础上放开了限制(punsafe=0.98)继续进行微调训练,使得人像的生成效果得到了优化和增强。
  10. SD Turbo模型是在Stable Diffusion V2.1的基础上,通过蒸馏训练得到的精简版本

你可能感兴趣的:(学习笔记,人工智能,计算机视觉,深度学习)