关于Stable-Diffusion WEBUI,我发现网上各种教程真的很多。
写得很好很详细的也不少,读了感觉比我写的好多了,无论是原理和相关论文还是操作和细节。
所以准备记录下Stable-Diffusion WEB UI的方方面面,以及哪里去看相关的资料。
这篇应该需要不断的补充,某些插件可能导致界面有变化。
阅读提示:
根据你绘图的目标,需要选择一种基础模型,人物/风景/建筑/宇宙/动漫/仿真?
参考:xiaolxl的国风3@抱脸,请自行了解huggingface.co上的模型。比如但不局限于:
注意版权,比如各地girllikeness模型……
正向提示词:描述希望图片生成为什么样子的词语(highres, beautiful, masterpiece)。
反向提示词:不希望图片出现的内容(lowres, ugly, blurry…)。
模板风格:比较完美的一组正反提示词,可以保存成一个“模板风格”,今后重复调用。
用模板风格可以存储别人的提示词配置用来生成同样的效果。
很多模型通常都来自网站,但是现在国内访问不了?:civitai 。
也可以参考:Danbooru 标签超市 ,或提示词学徒库 。
或小日子过得不错的另类寻找图像提示NSFW❗❗❗
(强调) / [弱化]:权重:提示词中出现:(photorealistic:1.4)
是强调photorealistic
,并且权重是1.4
(光标放单词上后,就可以Ctrl+上/下箭头快速调节呢)。圆括号越多越强调——而方括号则是弱化,越多方括号越弱。
LoRA模型提示词:提示词中出现:
就是LoRA模型的提示词,后面1.0
也是权重,调节同上。
做到这里就可以生成图片了。
⭐需要在WEBUI中安装插件。
用于对比各种参数生成图的不同效果(测试模型)
正常使用时不用,参考:Stable diffusion打造自己专属的LORA模型
⭐需要在WEBUI中安装插件。
需要下载多个不同模型。
用模型进一步控制生成的图片内容,
可用多种算法检测已有图片的边缘,深度,身体手部姿态。或则来自涂鸦,生成新的图片。
需要精确控制图片输出时使用,参考:ControlNet|使用教程
比如(很多控制,这里只放2个例子,简单看看吧):
和上面文生图一样,只是多了从某一张已有的图片出发。
也引入了 局部重绘 等功能(比如出了一张很满意的图,但是小部分画错了)。
等比/指定分辨率缩放,不需要解释。
前面提到过,生成图片分辨率需要在一定范围,否则非常容易乱。
而且生成大图开销太大,不如生成完了正常尺寸,再用算法放大。
放大效果如下(能点开看原图吧):
不同的模型(算法)有不同的效果。
上图大概是下面这样参数缩放的:
如果需要新的算法,比如上图的4x-UltraSharp则:
需要下载对应模型。(手动下载放入目录也行)
具体可以自己对比不同算法的效果,感觉上面这样比较真实。
可以选择首要算法(Upscaler 1),和附加算法(Upscaler 2)和它的权重(当然也可不选2)。
作用是移除背景。
⭐需要在WEBUI中安装插件。
WEBUI中可以查找rembg安装,参考:stable-diffusion-webui-rembg
需要下载多个不同模型。(手动下载放入目录也行)
有好些个模型,比如:silueta.onnx,通用,人物,衣服,等等……
基础模型(大模型)没有条件,这里提到的仅是LoRA模型。
这部分感觉比深度伪造(deep fake)要轻松多了。
用WEB UI的 训练 -> 预处理 标签页的功能,
.\xxxxx\100_xxxxx
的目录作为输出目录。如果背景并不是很乱,发型配饰上没有个人特色,那么可以不处理:)哈哈。
算了,还是认真写两句:
刚才提到预处理后的目录叫 .\xxxxx\100_xxxxx
。
xxxxx
:是具体的人物简称。100
:是里面每张图片训练的次数,这里我看到两种说法,一种是设为6-8,一种是根据图片数量至少设置100。实际上都是调用的kohya_ss的sd-scripts。
我比较倾向用脚本那个项目来训练。写配置文件反而比较简单,WEB UI在训练这块用处不大。
两个建议:
-i https://pypi.tuna.tsinghua.edu.cn/simple
。当然整合包的话已经换好了,否则可以参考我吐槽下载速度这块,实在慢到吐血(习惯了,Linux,Go,Python哪个不换国内源呢)。我用的是lora-scripts,训练脚本train.ps1
必须得改的几个参数:
完整如下(参数可能改动和变化,和项目版本有关):
# LoRA train script by @Akegarasu
# Train data path | 设置训练用模型、图片
$pretrained_model = "./sd-models/model.ckpt" # base model path | 底模路径
$is_v2_model = 0 # SD2.0 model | SD2.0模型 2.0模型下 clip_skip 默认无效
$parameterization = 0 # parameterization | 参数化 本参数需要和 V2 参数同步使用 实验性功能
$train_data_dir = "./train/aki" # train dataset path | 训练数据集路径
$reg_data_dir = "" # directory for regularization images | 正则化数据集路径,默认不使用正则化图像。
# Network settings | 网络设置
$network_module = "networks.lora" # 在这里将会设置训练的网络种类,默认为 networks.lora 也就是 LoRA 训练。如果你想训练 LyCORIS(LoCon、LoHa) 等,则修改这个值为 lycoris.kohya
$network_weights = "" # pretrained weights for LoRA network | 若需要从已有的 LoRA 模型上继续训练,请填写 LoRA 模型路径。
$network_dim = 32 # network dim | 常用 4~128,不是越大越好
$network_alpha = 32 # network alpha | 常用与 network_dim 相同的值或者采用较小的值,如 network_dim的一半 防止下溢。默认值为 1,使用较小的 alpha 需要提升学习率。
# Train related params | 训练相关参数
$resolution = "512,512" # image resolution w,h. 图片分辨率,宽,高。支持非正方形,但必须是 64 倍数。
$batch_size = 1 # batch size
$max_train_epoches = 10 # max train epoches | 最大训练 epoch
$save_every_n_epochs = 2 # save every n epochs | 每 N 个 epoch 保存一次
$train_unet_only = 0 # train U-Net only | 仅训练 U-Net,开启这个会牺牲效果大幅减少显存使用。6G显存可以开启
$train_text_encoder_only = 0 # train Text Encoder only | 仅训练 文本编码器
$stop_text_encoder_training = 0 # stop text encoder training | 在第N步时停止训练文本编码器
$noise_offset = 0 # noise offset | 在训练中添加噪声偏移来改良生成非常暗或者非常亮的图像,如果启用,推荐参数为 0.1
$keep_tokens = 0 # keep heading N tokens when shuffling caption tokens | 在随机打乱 tokens 时,保留前 N 个不变。
$min_snr_gamma = 0 # minimum signal-to-noise ratio (SNR) value for gamma-ray | 伽马射线事件的最小信噪比(SNR)值 默认为 0
# Learning rate | 学习率
$lr = "1e-4"
$unet_lr = "1e-4"
$text_encoder_lr = "1e-5"
$lr_scheduler = "cosine_with_restarts" # "linear", "cosine", "cosine_with_restarts", "polynomial", "constant", "constant_with_warmup"
$lr_warmup_steps = 0 # warmup steps | 学习率预热步数,lr_scheduler 为 constant 或 adafactor 时该值需要设为0。
$lr_restart_cycles = 1 # cosine_with_restarts restart cycles | 余弦退火重启次数,仅在 lr_scheduler 为 cosine_with_restarts 时起效。
# Output settings | 输出设置
$output_name = "aki" # output model name | 模型保存名称
$save_model_as = "safetensors" # model save ext | 模型保存格式 ckpt, pt, safetensors
# Resume training state | 恢复训练设置
$save_state = 0 # save training state | 保存训练状态 名称类似于 -??????-state ?????? 表示 epoch 数
$resume = "" # resume from state | 从某个状态文件夹中恢复训练 需配合上方参数同时使用 由于规范文件限制 epoch 数和全局步数不会保存 即使恢复时它们也从 1 开始 与 network_weights 的具体实现操作并不一致
# 其他设置
$min_bucket_reso = 256 # arb min resolution | arb 最小分辨率
$max_bucket_reso = 1024 # arb max resolution | arb 最大分辨率
$persistent_data_loader_workers = 0 # persistent dataloader workers | 容易爆内存,保留加载训练集的worker,减少每个 epoch 之间的停顿
$clip_skip = 2 # clip skip | 玄学 一般用 2
$multi_gpu = 0 # multi gpu | 多显卡训练 该参数仅限在显卡数 >= 2 使用
$lowram = 0 # lowram mode | 低内存模式 该模式下会将 U-net 文本编码器 VAE 转移到 GPU 显存中 启用该模式可能会对显存有一定影响
# 优化器设置
$optimizer_type = "AdamW8bit" # Optimizer type | 优化器类型 默认为 8bitadam,可选:AdamW AdamW8bit Lion SGDNesterov SGDNesterov8bit DAdaptation AdaFactor
# LyCORIS 训练设置
$algo = "lora" # LyCORIS network algo | LyCORIS 网络算法 可选 lora、loha、lokr、ia3、dylora。lora即为locon
$conv_dim = 4 # conv dim | 类似于 network_dim,推荐为 4
$conv_alpha = 4 # conv alpha | 类似于 network_alpha,可以采用与 conv_dim 一致或者更小的值
$dropout = "0" # dropout | dropout 概率, 0 为不使用 dropout, 越大则 dropout 越多,推荐 0~0.5, LoHa/LoKr/(IA)^3暂时不支持
相比深度伪造(训练N天)来说,这个训练(N分钟)简直太轻松了。
当然功劳是LoRA模型,之前训练过嵌入式模型也很痛苦的。
prepare tokenizer
update token length: 225
Use DreamBooth method.
prepare images.
found directory train\xxxxx\10_xxxxx contains 40 image files
400 train images with repeating.
0 reg images.
no regularization images / 正則化画像が見つかりませんでした
[Dataset 0]
batch_size: 1
resolution: (576, 768)
enable_bucket: True
min_bucket_reso: 256
max_bucket_reso: 1024
bucket_reso_steps: 64
bucket_no_upscale: False
[Subset 0 of Dataset 0]
image_dir: "train\xxxxx\10_xxxxx"
image_count: 40
num_repeats: 10
shuffle_caption: True
keep_tokens: 0
caption_dropout_rate: 0.0
caption_dropout_every_n_epoches: 0
caption_tag_dropout_rate: 0.0
color_aug: False
flip_aug: False
face_crop_aug_range: None
random_crop: False
token_warmup_min: 1,
token_warmup_step: 0,
is_reg: False
class_tokens: xxxxx
caption_extension: .txt
[Dataset 0]
loading image sizes.
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:00<00:00, 5000.66it/s]
make buckets
number of images (including repeats) / 各bucketの画像枚数(繰り返し回数を含む)
bucket 0: resolution (576, 768), count: 400
mean ar error (without repeats): 0.0
prepare accelerator
Using accelerator 0.15.0 or above.
loading model for process 0/1
load StableDiffusion checkpoint
loading u-net: <All keys matched successfully>
loading vae: <All keys matched successfully>
loading text encoder: <All keys matched successfully>
Replace CrossAttention.forward to use xformers
[Dataset 0]
caching latents.
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 40/40 [00:13<00:00, 2.99it/s]
import network module: networks.lora
create LoRA network. base dim (rank): 32, alpha: 32.0
create LoRA for Text Encoder: 72 modules.
create LoRA for U-Net: 192 modules.
enable LoRA for text encoder
enable LoRA for U-Net
prepare optimizer, data loader etc.
===================================BUG REPORT===================================
Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
For effortless bug reporting copy-paste your error into this form: https://docs.google.com/forms/d/e/1FAIpQLScPB8emS3Thkp66nvqwmjTEgxp8Y9ufuWTzFyr9kJ5AoI47dQ/viewform?usp=sf_link
================================================================================
CUDA SETUP: Loading binary D:\xxxx\lora-scripts\venv\lib\site-packages\bitsandbytes\libbitsandbytes_cuda116.dll...
use 8-bit AdamW optimizer | {}
override steps. steps for 10 epochs is / 指定エポックまでのステップ数: 4000
running training / 学習開始
num train images * repeats / 学習画像の数×繰り返し回数: 400
num reg images / 正則化画像の数: 0
num batches per epoch / 1epochのバッチ数: 400
num epochs / epoch数: 10
batch size per device / バッチサイズ: 1
gradient accumulation steps / 勾配を合計するステップ数 = 1
total optimization steps / 学習ステップ数: 4000
steps: 0%| | 0/4000 [00:00<?, ?it/s]epoch 1/10
steps: 10%|███████████████ | 400/4000 [05:33<50:00, 1.20it/s, loss=0.126]epoch 2/10
steps: 20%|██████████████████████████████▏ | 800/4000 [11:11<44:47, 1.19it/s, loss=0.105]saving checkpoint: ./output\xxxxx-000002.safetensors
epoch 3/10
steps: 30%|█████████████████████████████████████████████ | 1200/4000 [16:51<39:19, 1.19it/s, loss=0.123]epoch 4/10
steps: 40%|████████████████████████████████████████████████████████████ | 1600/4000 [22:20<33:30, 1.19it/s, loss=0.128]saving checkpoint: ./output\xxxxx-000004.safetensors
epoch 5/10
steps: 50%|███████████████████████████████████████████████████████████████████████████ | 2000/4000 [27:48<27:48, 1.20it/s, loss=0.117]epoch 6/10
steps: 60%|██████████████████████████████████████████████████████████████████████████████████████████▌ | 2400/4000 [33:17<22:11, 1.20it/s, loss=0.11]saving checkpoint: ./output\xxxxx-000006.safetensors
epoch 7/10
steps: 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████ | 2800/4000 [38:52<16:39, 1.20it/s, loss=0.112]epoch 8/10
steps: 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 3200/4000 [44:30<11:07, 1.20it/s, loss=0.124]saving checkpoint: ./output\xxxxx-000008.safetensors
epoch 9/10
steps: 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 3600/4000 [50:08<05:34, 1.20it/s, loss=0.117]epoch 10/10
steps: 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3673/4000 [51:48<04:36, 1.18it/s, loss=0.112]
只看loss是不行的,需要避免欠拟合和过拟合,但我们又看不出来。
最好用这个章节的方法,对比一下不同阶段输出的模型效果:
(1.2.1.5)插件:可选附加网络(LoRA插件)
但是我感觉和实际生成不太一样,并不是很靠谱。
目前来看,我还不太懂如何训练出比较好的模型,如果人站得远通常五官就很奇怪。