市面上用的最多的AI绘画工具是 Stable-Diffusion(SD) 和 Midjourney(Mid),SD是在本地运行的服务,开源,门槛高,但自控性极高。而Mid作为在线的服务,门槛低,效果好,但可控性不够强。
Stable Diffusion(简称SD)是当今最流行的免费、开源的AI绘图模型,可以在电脑本地上离线运行,很多收费的AI绘图底层就使用了Stable Diffusion。而 Stable Diffusion WebUI(简称SDW)是基于Stable Diffusion制作的一个友好的 Web 图形化界面,解决了Stable Diffusion用命令行操作的麻烦。SD用户能够随心所欲地训练自己的模型和LORA,乃至引入ControlNet用各类工具来控制AI绘画出图的内容。甚至还可以指定区域重绘。
Stable Diffusion Demo,这是官方发布的一个简单的体验版,无需登录只需要提示词,然后点击生成按钮即可。
要顺利运行 stable-diffusion-webui 和模型, 需要足够的显存,最低配置4GB显存,基本配置6GB显存,推荐配置12GB显存。 电脑内存也不能太小,最好大于16GB
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
set COMMANDLINE_ARGS= --xformers
webui-user.bat
,会自动创建 Python 虚拟环境、下载安装依赖包,30分钟左右。失败可再次执行。http://127.0.0.1:8960
, 打开后界面如下图,可选择基础模型及设置提示词等参数,点击生成(Generate)按钮:参数 | 说明 |
---|---|
Prompt | 提示词(正向) |
Negative prompt | 消极的提示词(反向) |
Width & Height | 要生成的图片尺寸。尺寸越大,越耗性能,耗时越久。 |
CFG scale | AI 对描绘参数(Prompt)的倾向程度。值越小生成的图片越违背你的描绘,但越契合逻辑;值越大则生成的图片越契合你的描绘,但或许不契合逻辑。 |
Sampling method | 采样方法。有许多种,但仅仅采样算法上有不同,没有好坏之分,选用合适的即可。 |
Sampling steps | 采样步长。太小的话采样的随机性会很高,太大的话采样的功率会很低,拒绝概率高(能够理解为没有采样到,采样的结果被放弃了)。 |
Seed | 随机数种子。生成每张图片时的随机种子,这个种子是用来作为确认分散初始状况的基础。不明白的话,用随机的即可。 |
不同的模型会带来不同的画风、认识不同的概念(人物/物体/动作 … …),这是模型众多的原因。常见的模型可以分为两大类:主模型,用于微调主模型的小型模型。常见模型后缀名有如下几种:1. ckpt ,2. pt ,3. pth,4. safetensors,这几种后缀名都是标准的模型,从后缀名是无法判断具体是哪一种类的模型。
由于想要炼制、微调(finetune)主模型十分困难,需要好显卡、算力,所以更多的人选择去炼制小型模型,这些小型模型通过作用在大模型的不同部分,来简单的修改大模型,从而达到定制目的。常见的用于微调的小型模型又分为以下几种:Textual inversion (常说的 Embedding 模型)、Hypernetwork 模型、LoRA 模型。
主模型对于AI绘画的影响是最大的,SD系列,比如sd-v1-4、sd-v1-5、sd-v2(简写成SD1.5、SD2.0)之类的大模型,这些是 Stable-Diffusion 自带的大模型。基本没有人会用自带的大模型,因为效果很差。如果想自己练大模型的话,SD系列是不错的基础模型,因为他们比较庞杂,什么风格都有,属于中性模型。
目前比较流行和常见的 checkpoint 模型有 Anything 系列、ChilloutMix、Deliberate、国风系列等等。这些 checkpoint 模型是从 Stable Diffusion 基本模型训练而来的。目前,大多数模型都是从 v1.4 或 v1.5 训练的。它们使用其他数据进行训练,以生成特定风格或对象的图像。
模型文件名含 pruned 是指完整版,emaonly 是剪枝版。剪枝版比完整版通常小很多,方便下载。如果只是使用的话,两者差别不大,如果是想要自己练模型的话,需要下载完整版。
当下最火的微调模型,可以将某一类型的人物或者事物的风格固定下来,使用了某种 LORA 那么风格就趋近于它。它们通常为10-200 MB。必须与 checkpoint 模型一起使用。现在比较火的 Korean Doll Likeness、Taiwan Doll Likenes、Cute Girl mix 都是真人美女 LoRA 模型,效果很惊艳。还有一些特定风格的 LoRA 也非常受欢迎,最著名的有墨心等。
模型训练器: https://github.com/Akegarasu/lora-scripts
VAE,全名Variational autoenconder,中文叫变分自编码器。作用是:滤镜+微调。
有的大模型是会自带 VAE 的,比如 Chilloutmix。如果再加 VAE 则可能画面效果不会更好,甚至适得其反。默认的 VAE 是 animevae,效果一般,建议可以使用 kl-f8-anime2 或者 vae-ft-mse-840000-ema-pruned。anime2 适合画二次元,840000 适合画写实人物。
Textual lnversion 中文翻译过来叫文本反转,通过仅使用的几张图像,就可以向模型教授新的概念。用于个性化图像生成。Embeddings 是定义新关键字以生成新人物或图片风格的小文件。它们很小,通常为10-100 KB。必须将它们与 checkpoint 模型一起使用。比如 EasyNegative 这个 Embeddings,里面包含了大量的负面词,可以减少你每次打一堆负面词的痛苦。
ControlNet 是一个用于控制 AI 图像生成的插件。在 ControlNet 出现之前,我们在生成图片之前,永远的不知道 AI 能给我们生成什么,就像抽卡一样看运气。ControlNet 出现之后,我们就能通过模型精准的控制图像生成,比如进行填色渲染,控制人物的姿态等等。提示词的作用是奠定整个图的大致画面,Lora 的作用是让图片主体符合我们的需求,ControNet 的作用是精细化控制整体图片的元素——主体、背景、风格、形式等。
比如你提供一个图片,可以选择采集图片中人物的骨架,从而在新的图片中生成出一样姿势的人,可以选择采集图片中画面的线稿,从而在新的图片中生成一样线稿的画面 ,可以选择采集图片中已有的风格,从而在新的图片中生成一样风格的画面。
参考:15种ControlNet模型
广泛适用于二次元风格,可以考虑搭配不同模型使用!
(masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2), drawing, paintbrush,
NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),
提示词:
(((masterpiece))),(((best quality))), ((ultra-detailed)), (best illustration), 1girl, solo, blush, smug, smile, purple eyes, choker, gradient eyes, no pupils, multicolored_hair, pink hair, blue hair, long hair,, sangonomiya kokomi, ((kimono)), outdoors, sakura trees, sakura, facing towards viewer, front view
负面提示词:
EasyNegative,extra fingers, fewer fingers, extreme fingers,wrong hand,wrong tail, missing male, extra legs, extra arms, missing legs, missing arms, weird legs, weird arms, watermark, logo, long hand, (poorly drawn hands:1.331), (bad anatomy:1.21), (bad proportions:1.331), (fused fingers:1.61051), (too many fingers:1.61051), extra digit, fewer digits,(mutated hands and fingers:1.5 ), fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with morethan 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit,text,watermark,
参数:
Size: 512x512, Seed: 1396898128, Model: CounterfeitV25_25, Steps: 20, Sampler: DPM++ 2S a Karras, CFG scale: 7, Model hash: a074b8864e, Hires steps: 20, Hires upscale: 2, Hires upscaler: Latent (nearest-exact), Denoising strength: 0.7
秋葉aaaki