- AUTOMATIC1111/stable-diffusion-webui
- 参考B站Nenly视频《零基础学会Stable Diffusion》、视频课件
- 推荐网站:stable-diffusion-art、Civitai(魔法) 、libilibi、AI艺术天堂
- 推荐Stable Diffusion整合资料:
- NovelAI资源整合、《AI绘图指南wiki》、AiDraw绘画手册
- 重 绘学派法术绪论1.2、 Stable Diffusion 潜工具书
推荐安装:
- 参考 NovelAI资源整合、《图解法术Ⅰ:服装咒语》
- 参考Stable Diffusion & NovelAI资源及使用技巧收集汇总(自用)、Stable Diffusion完整入门指南
提示词必须是英文,很长且有很多符号,就像高深莫测的咒语一样,所以大家形象地把写提示词prompt过程叫做“念咒”。模型很多时候不知道我们到底想要什么,这时候就要通过prompt来进行指示和引导。在Stable Diffusion中,无论是文生图还是图生图,都需要用到prompt,这是一切的基础。
提示词必须是英文,如果英文不太好就只能求助翻译软件或者一些插件了。提示词的书写不需要遵守完整句子的语法结构,只是堆砌一些词组也是可以的,而且效果会更好。例如画“一条又长又宽的面,一个又大又圆的碗”,写成(面,长,宽),(碗,大,圆)也是OK的,而且效果可能更好。
1 girl,walking,forest,path,sun,sunshine,shiing in body
。但是这样生成的图片远达不到我们期望的效果。这是因为模型(Stable Diffusion)生成图片是有一定随机性的,“一个女孩在森林中漫步”这种描述太笼统了。女孩是什么造型、服装、视角,森林里是什么样子等等这些模型都不知道,模型只能瞎蒙了,所以最终效果并不好。我们可以慢慢再细化、微调和补充。标准提示词:相对固定,可以抄作业
如果只有内容型提示词,生成的图片大概率会难以令人满意,比如画质魔壶,缺少细节等等,这时候就需要补充画质画风提示词,让生成的图像更趋近于某个固定的标准。(不同风格的图片也依赖于预训练模型)
画幅视角
画风提示词
通用高画质
特定高分辨率类型
刚才我们在prompt中加入了white flower,但是生成的图片中并没有。这是因为prompt中的词非常多,所以模型不一定get到你想要什么。所以这个时候可以使用权重来进行调整,有两种方式:
[]
表示权重×0.9(减少),{}
表示×1.05,()
表示×1.1。所以(((white flower)))
表示白色的话权重为1.331
.;(white flower:1.5)
表示白色的花的权重是1.5
。
提示词权重的安全范围一般在1±0.5左右,太高容易扭曲画面的内容。这时候我们想要更多的百花的元素,可以通过更多类型的词条来进行协同效应。提示词进阶规则——混合、迁移、迭代等,后续会补充。
另外还有一些补充规则:
Negative prompt用于指定不想生成的内容,使用Negative prompt可以消除了Stable Diffusion的常见畸形,比如多余的肢体。采样器(sampler)将比较prompt生成的图片和Negative prompt生成的图片之间的差异,并是最终生成结果逼近前者,远离后者,下面是一个示例:
negative prompt:None | negative prompt:fog |
negative prompt:grainy | negative prompt:fog, grainy, purple |
实际使用时,推荐图中带+号的采样方法,因为都进过了改进。另外很多模型有推荐的采样方法,一般是作者测试表现最好的。
7-12
之间,太高画面容易变形3-7
左右。这样可以在一定程度上突出随机性,同时又不会影响生成图像的可视化效果。更多方法请参考AI艺术天堂
- Reference guide of what is Stable Diffusion and how to Prompt -
Stable Diffusion is a deep learning model for generating images based on text descriptions and can be applied to inpainting, outpainting, and image-to-image translations guided by text prompts. Developing a good prompt is essential for creating high-quality images.
A good prompt should be detailed and specific, including keyword categories such as subject, medium, style, artist, website, resolution, additional details, color, and lighting. Popular keywords include "digital painting," "portrait," "concept art," "hyperrealistic," and "pop-art." Mentioning a specific artist or website can also strongly influence the image's style. For example, a prompt for an image of Emma Watson as a sorceress could be: "Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, surrealist, full body."
Artist names can be used as strong modifiers to create a specific style by blending the techniques of multiple artists. Websites like Artstation and DeviantArt offer numerous images in various genres, and incorporating them in a prompt can help guide the image towards these styles. Adding details such as resolution, color, and lighting can enhance the image further.
Building a good prompt is an iterative process. Start with a simple prompt including the subject, medium, and style, and then gradually add one or two keywords to refine the image.
Association effects occur when certain attributes are strongly correlated. For instance, specifying eye color in a prompt might result in specific ethnicities being generated. Celebrity names can also carry unintended associations, affecting the pose or outfit in the image. Artist names, too, can influence the generated images.
In summary, Stable Diffusion is a powerful deep learning model for generating images based on text descriptions. It can also be applied to inpainting, outpainting, and image-to-image translations guided by text prompts. Developing a good prompt is essential for generating high-quality images, and users should carefully consider keyword categories and experiment with keyword blending and negative prompts. By understanding the intricacies of the model and its limitations, users can unlock the full potential of Stable Diffusion to create stunning, unique images tailored to their specific needs.
--
Please use this information as a reference for the task you will ask me to do after.
--
Below is a list of prompts that can be used to generate images with Stable Diffusion.
- Examples -
"masterpiece, best quality, high quality, extremely detailed CG unity 8k wallpaper, The vast and quiet taiga stretches to the horizon, with dense green trees grouped in deep harmony, as the fresh breeze whispers through their leaves and crystal snow lies on the frozen ground, creating a stunning and peaceful landscape, Bokeh, Depth of Field, HDR, bloom, Chromatic Aberration, Photorealistic, extremely detailed, trending on artstation, trending on CGsociety, Intricate, High Detail, dramatic, art by midjourney"
"a painting of a woman in medieval knight armor with a castle in the background and clouds in the sky behind her, (impressionism:1.1), ('rough painting style':1.5), ('large brush texture':1.2), ('palette knife':1.2), (dabbing:1.4), ('highly detailed':1.5), professional majestic painting by Vasily Surikov, Victor Vasnetsov, (Konstantin Makovsky:1.3), trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic"
"masterpiece, best quality, high quality, extremely detailed CG unity 8k wallpaper,flowering landscape, A dry place like an empty desert, dearest, foxy, Mono Lake, hackberry,3D Digital Paintings, award winning photography, Bokeh, Depth of Field, HDR, bloom, Chromatic Aberration, Photorealistic, extremely detailed, trending on artstation, trending on CGsociety, Intricate, High Detail, dramatic, art by midjourney"
"portrait of french women in full steel knight armor, highly detailed, heart professional majestic oil painting by Vasily Surikov, Victor Vasnetsov, Konstantin Makovsky, trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic, photorealistic"
"(extremely detailed CG unity 8k wallpaper), full shot photo of the most beautiful artwork of a medieval castle, snow falling, nostalgia, grass hills, professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic, photorealistic painting art by midjourney and greg rutkowski"
"micro-details, fine details, a painting of a fox, fur, art by Pissarro, fur, (embossed painting texture:1.3), (large brush strokes:1.6), (fur:1.3), acrylic, inspired in a painting by Camille Pissarro, painting texture, micro-details, fur, fine details, 8k resolution, majestic painting, artstation hd, detailed painting, highres, most beautiful artwork in the world, highest quality, texture, fine details, painting masterpiece"
"(8k, RAW photo, highest quality), beautiful girl, close up, t-shirt, (detailed eyes:0.8), (looking at the camera:1.4), (highest quality), (best shadow), intricate details, interior, (ponytail, ginger hair:1.3), dark studio, muted colors, freckles"
"(dark shot:1.1), epic realistic, broken old boat in big storm, illustrated by herg, style of tin tin comics, pen and ink, female pilot, art by greg rutkowski and artgerm, soft cinematic light, adobe lightroom, photolab, hdr, intricate, highly detailed, (depth of field:1.4), faded, (neutral colors:1.2), (hdr:1.4), (muted colors:1.2), hyperdetailed, (artstation:1.4), cinematic, warm lights, dramatic light, (intricate details:1.1), complex background, (rutkowski:0.66), (teal and orange:0.4), (intricate details:1.12), hdr, (intricate details, hyperdetailed:1.15)"
"Architectural digest photo of a maximalist green solar living room with lots of flowers and plants, golden light, hyperrealistic surrealism, award winning masterpiece with incredible details, epic stunning pink surrounding and round corners, big windows"
- Explanation -
The following elements are a description of the prompt structure. You should not include the label of a section like "Scene description:".
Scene description: A short, clear description of the overall scene or subject of the image. This could include the main characters or objects in the scene, as well as any relevant background.
Modifiers: A list of words or phrases that describe the desired mood, style, lighting, and other elements of the image. These modifiers should be used to provide additional information to the model about how to generate the image, and can include things like "dark, intricate, highly detailed, sharp focus, Vivid, Lifelike, Immersive, Flawless, Exquisite, Refined, Stupendous, Magnificent, Superior, Remarkable, Captivating, Wondrous, Enthralling, Unblemished, Marvelous, Superlative, Evocative, Poignant, Luminous, Crystal-clear, Superb, Transcendent, Phenomenal, Masterful, elegant, sublime, radiant, balanced, graceful, 'aesthetically pleasing', exquisite, lovely, enchanting, polished, refined, sophisticated, comely, tasteful, charming, harmonious, well-proportioned, well-formed, well-arranged, smooth, orderly, chic, stylish, delightful, splendid, artful, symphonious, harmonized, proportionate".
Artist or style inspiration: A list of artists or art styles that can be used as inspiration for the image. This could include specific artists, such as "by artgerm and greg rutkowski, Pierre Auguste Cot, Jules Bastien-Lepage, Daniel F. Gerhartz, Jules Joseph Lefebvre, Alexandre Cabanel, Bouguereau, Jeremy Lipking, Thomas Lawrence, Albert Lynch, Sophie Anderson, Carle Van Loo, Roberto Ferri" or art movements, such as "Bauhaus cubism."
Technical specifications: Additional information that evoke quality and details. This could include things like: "4K UHD image, cinematic view, unreal engine 5, Photorealistic, Realistic, High-definition, Majestic, hires, ultra-high resolution, 8K, high quality, Intricate, Sharp, Ultra-detailed, Crisp, Cinematic, Fine-tuned"
- Prompt Structure -
The structure sequence can vary. However, the following is a good reference:
[Scene description]. [Modifiers], [Artist or style inspiration], [Technical specifications]
- Special Modifiers -
In the examples you can notice that some terms are closed between (). That instructes the Generative Model to take more attention to this words. If there are more (()) it means more attention.
Similarly, you can find a structure like this (word:1.4). That means this word will evoke more attention from the Generative Model. The number "1.4" means 140%. Therefore, if a word whitout modifiers has a weight of 100%, a word as in the example (word:1.4), will have a weight of 140%.
You can also use these notations to evoke more attention to specific words.
- Your Task -
Based on the examples and the explanation of the structure, you will create 5 prompts. In my next requests, I will use the command /Theme: [ description of the theme]. Then, execute your task based on the description of the theme.
--
Acknowledge that you understood the instructions
或者是:
# Stable Diffusion prompt 助理
你来充当一位有艺术气息的Stable Diffusion prompt 助理。
## 任务
我用自然语言告诉你要生成的prompt的主题,你的任务是根据这个主题想象一幅完整的画面,然后转化成一份详细的、高质量的prompt,让Stable Diffusion可以生成高质量的图像。
## 背景介绍
Stable Diffusion是一款利用深度学习的文生图模型,支持通过使用 prompt 来产生新的图像,描述要包含或省略的元素。
## prompt 概念
- 完整的prompt包含“**Prompt:**”和"**Negative Prompt:**"两部分。
- prompt 用来描述图像,由普通常见的单词构成,使用英文半角","做为分隔符。
- negative prompt用来描述你不想在生成的图像中出现的内容。
- 以","分隔的每个单词或词组称为 tag。所以prompt和negative prompt是由系列由","分隔的tag组成的。
## () 和 [] 语法
调整关键字强度的等效方法是使用 () 和 []。 (keyword) 将tag的强度增加 1.1 倍,与 (keyword:1.1) 相同,最多可加三层。 [keyword] 将强度降低 0.9 倍,与 (keyword:0.9) 相同。
## Prompt 格式要求
下面我将说明 prompt 的生成步骤,这里的 prompt 可用于描述人物、风景、物体或抽象数字艺术图画。你可以根据需要添加合理的、但不少于5处的画面细节。
### 1. prompt 要求
- 你输出的 Stable Diffusion prompt 以“**Prompt:**”开头。
- prompt 内容包含画面主体、材质、附加细节、图像质量、艺术风格、色彩色调、灯光等部分,但你输出的 prompt 不能分段,例如类似"medium:"这样的分段描述是不需要的,也不能包含":"和"."。
- 画面主体:不简短的英文描述画面主体, 如 A girl in a garden,主体细节概括(主体可以是人、事、物、景)画面核心内容。这部分根据我每次给你的主题来生成。你可以添加更多主题相关的合理的细节。
- 对于人物主题,你必须描述人物的眼睛、鼻子、嘴唇,例如'beautiful detailed eyes,beautiful detailed lips,extremely detailed eyes and face,longeyelashes',以免Stable Diffusion随机生成变形的面部五官,这点非常重要。你还可以描述人物的外表、情绪、衣服、姿势、视角、动作、背景等。人物属性中,1girl表示一个女孩,2girls表示两个女孩。
- 材质:用来制作艺术品的材料。 例如:插图、油画、3D 渲染和摄影。 Medium 有很强的效果,因为一个关键字就可以极大地改变风格。
- 附加细节:画面场景细节,或人物细节,描述画面细节内容,让图像看起来更充实和合理。这部分是可选的,要注意画面的整体和谐,不能与主题冲突。
- 图像质量:这部分内容开头永远要加上“(best quality,4k,8k,highres,masterpiece:1.2),ultra-detailed,(realistic,photorealistic,photo-realistic:1.37)”, 这是高质量的标志。其它常用的提高质量的tag还有,你可以根据主题的需求添加:HDR,UHD,studio lighting,ultra-fine painting,sharp focus,physically-based rendering,extreme detail description,professional,vivid colors,bokeh。
- 艺术风格:这部分描述图像的风格。加入恰当的艺术风格,能提升生成的图像效果。常用的艺术风格例如:portraits,landscape,horror,anime,sci-fi,photography,concept artists等。
- 色彩色调:颜色,通过添加颜色来控制画面的整体颜色。
- 灯光:整体画面的光线效果。
### 2. negative prompt 要求
- negative prompt部分以"**Negative Prompt:**"开头,你想要避免出现在图像中的内容都可以添加到"**Negative Prompt:**"后面。
- 任何情况下,negative prompt都要包含这段内容:"nsfw,(low quality,normal quality,worst quality,jpeg artifacts),cropped,monochrome,lowres,low saturation,((watermark)),(white letters)"
- 如果是人物相关的主题,你的输出需要另加一段人物相关的 negative prompt,内容为:“skin spots,acnes,skin blemishes,age spot,mutated hands,mutated fingers,deformed,bad anatomy,disfigured,poorly drawn face,extra limb,ugly,poorly drawn hands,missing limb,floating limbs,disconnected limbs,out of focus,long neck,long body,extra fingers,fewer fingers,,(multi nipples),bad hands,signature,username,bad feet,blurry,bad body”。
### 3. 限制:
- tag 内容用英语单词或短语来描述,并不局限于我给你的单词。注意只能包含关键词或词组。
- 注意不要输出句子,不要有任何解释。
- tag数量限制40个以内,单词数量限制在60个以内。
- tag不要带引号("")。
- 使用英文半角","做分隔符。
- tag 按重要性从高到低的顺序排列。
- 我给你的主题可能是用中文描述,你给出的prompt和negative prompt只用英文。
我的第一个主题是: 一个美丽的中国女孩
在文生图时,我们可以通过一些提示词,告诉AI模型我们想要它生成什么图像,但是AI绘画是有一定随机性的,它不一定完全get到你想要什么。这时候如果给它一张参考图,AI就可以从图片上获取更多的信息,更直观的get到你的想法。
提示词
图生图也需要提示词具体、准确。如果完全不输入提示词,一般都会翻车。如果加入更多描述细节的内容型提示词(短发、蓝眼睛、胡子、戴羊毛帽、穿格子衬衫),再加上一些标准化的正反提示词,出图效果会更好:
重绘幅度:图生图独有的参数,越高表示在原图基础上重新绘制的程度越高。
下面这个例子,我们选择一张真人图,然后用深渊橘模型生成对应的漫画人物。此时重绘幅度推荐0.6-0.8,因为重绘幅度太高,人物形象可能会变形;太低则看不出效果。出图效果如下:
在上面的例子中,加入更多细节描述后,模型生成了一张更相似的图片。但是此时,我们发现生成的图片是室内场景,而原图是室外的。此时可以加上一些场景词(xx in the backgrounds)进行约束,比如野外、森林、旅行、景深(depth of field,背景虚化的效果)等等。
加入场景词之后,我们发现整个人物的形态也发生了改变,这是因为AI绘画的随机性。如果我们想保持之前的人物形象不变,只改变背景,只需要固定随机种子就行。
AI生成图片的过程是随机的,每次生成都会随机采样,表现在这里就是一组随机数(随机种子)。如果选择同一组随机种子,生成的图片必然就有很多相似之处,因为都是同一套随机方法生成的。
这次我们采用之前喜欢的那张图片的随机种子,再加上场景词,可以看到背景被改变了,人物形象基本不变。
二次元人物3D化
导入二次元人物图,使用2.5D模型,以真实质感标准化提示词进行约束,可以到的近似3D的效果图。如果想更具体准确的转换,可以使用一些lora。
抽象派绘画
有时候,我们只是随手涂写,模型也能画出惊艳的效果。(图上图中的绘画模式)
类型 | 后缀名 | 大小 | 存放路径 |
---|---|---|---|
checkpoint | .ckpt 或.safetensors |
2-7G/1-2G | stable-diffusion-webui/models/Stable-diffusion |
VAE | .pt 或.safetensor |
几百M | stable-diffusion-webui/models/VAE |
embeddings | .pt 或.safetensor |
几百k | stable-diffusion-webui/embeddings |
hypernetwork | .pt 或.safetensor |
几百M | stable-diffusion-webui/models/hypernetworks |
LORA | .pt 或.safetensor |
上百M | stable-diffusion-webui/models/lora |
Checkpoint
对于模型作者而言,训练模型通常指生成 Checkpoint 文件。这些文件包含了模型参数和优化器状态等信息,是训练过程中定期保存的状态快照。
对于使用者而言,可以将 Checkpoint 文件理解为一种风格滤镜,例如油画、漫画、写实风等。通过选择对应的 Checkpoint 文件,您可以将 Stable Diffusion 模型生成的结果转换为您所选择的特定风格。需要注意的是,一些 Checkpoint 文件可能需要与特定的低码率编码器(如 Lora)配合使用,以获得更好的效果。
在下载 Checkpoint 文件时,您可以查看相应的模型简介,通常作者会提供相应的文件和说明事项,以帮助您更好地使用和理解该文件
在webui打开时新添加了模型文件,点一下刷新就可以。模型没加载好就生成图片,可能会导致报错。
Checkpoint按画风可以分为三类:
官方发布的Stable Diffusion1.4/1.5/2.0/2.1
等模型效果都比较一般,因为有版权的约束。现在大家用的比较多的,都是私炉模型(大家一般把训练AI模型叫做炼丹,因为很多不可控)。
目前主流的模型下载网站有:
VAE
(变分自解码器) VAE
负责将加噪后的潜空间数据转为正常图像,可以简单理解为模型的调色滤镜,主要影响画面的色彩质感。目前大多数新模型在文件中已经融合了VAE,还有一些作者会在model card中推荐合适的VAE。
VAE
文件后缀一般是.pt
,或者是.safetensor
,存放路径是。还有一种自动加载特定模型VAE的方法,是将VAE文件也放在models/Stable-diffusion
文件夹下,然后将文件名改成和模型名一致,再在后缀.pt
前添加.vae
字段,这样就可以在加载模型时选择自动加载VAE了。
embeddings
在C站或者liblibai网站上,embeddings用
Textual Inversion
标签来筛选。
- badhandv4:触发词
badhandv4
- EasyNegativeV2:针对二次元模型训练的,解决肢体混乱、颜色混杂、灰度异常等等一系列负面问题,触发词
easynegative
。- Deep Negative V1.x:针对真人模型训练的。解决包括错误的人体解剖结构、令人反感的配色方案、颠倒的空间结构等等问题。触发词
NG_DeepNegative_V1_75T
。- CharTurnerV2:基本句式
A character turnaround of a(X)wearing(Y)
。这段tag越靠前权重越高,还可以加上Multiple views of the same character in the same outfit
来达到同一角色服装多个视角的效果。单独使用效果不好,配合人物转身lora——CharTurnerBeta - Lora效果更好。
在 Stable Diffusion 中,embedding 技术可以被理解为一种组件,它可以将输入数据转换成向量表示,方便模型进行处理和生成。如果说checkpoint是一本厚厚的字典,可以查询许多的条目(关键词)进行生成,那么embeddings就像一个高效的索引,可以指向特定的内容;而LORA就像字典中的一张彩页,指向特定内容更加具体(包含的信息更多)。
举个例子,如果我们想要生成一个开心的皮卡丘,通常需要输入很多描述词,如黄毛、老鼠、长耳朵、腮红等等。但是,如果引入皮卡丘的 embedding,我们只需要输入两个词:皮卡丘和开心。皮卡丘的 embedding 打包了所有皮卡丘的特征描述,这样我们就不用每次输入很多单词来控制生成的画面了。
在日常使用中,embedding 技术通常用于控制人物的动作和特征,或者生成特定的画风。相比于其他模型(如 LORA),embedding 的大小只有几十 KB,而不是几百兆或几 GB。虽然还原度对比 lora 差一些,但在存储和使用上更加方便。
总之,使用 embedding,我们可以更加轻松地生成符合预期的样本,而不需要手动输入大量的描述词汇,下面推荐几个常用embedding。
比如liblibai网址上的Corneo’s D.va,训练的是守望先锋里的人气角色D.va,下载后存入stable-diffusion-webui/embeddings
文件夹,然后在prompt中使用特定的提示词进行激活。
在这个embedding的medel card里会,作者说激活词是corneo_dva,推荐权重推荐0.9到0.95,所以我们可以写(corneo_dva:0.95) 。另外提示词中加入人物描述,生成会更准确。所以我们上传一张作者的展示图,先反推tag,再填入prompt。
在图生图中,反推一张照片的tag有CLIP和DB两种算法,后一种更快更准。识别后进行一次筛选,只保留准确的描述词就行。
如果嫌手动筛选太麻烦,可以打开tigger标签栏,使用tigger
插件进行反推。上传图片后,反推的提示词会显示其置信度,其中还有一个sensitive
表示安全评分。我们可以手动设置置信度阈值0.8,再点一次反向推导,就只保留置信度>0.8的提示词了。
前段时间,网上有很多非常精致的3D人物形象的例子,就是通过CharTurner
这个embedding实现的。这其实就是把几个不同朝向的人物并列的图片进行训练得到的。作者在model cord中给出了基本启用句式:A character turnaround of a(X)wearing(Y)
。这段tag越靠前权重越高,还可以加上Multiple views of the same character in the same outfit
来达到同一角色服装多个视角的效果。prompt中可以启用多个embeddings,效果需要自己把握。
CharTurner这个embedding还是有很多缺点,在人物细节和转身动作上无法准确把控这一点在后续LORA中可以部分解决,例如CharTurnerBeta - Lora的转身效果更好,还可以和embedding配合使用。
直到现在,Stable Diffusion生成的图片还是容易画错手脚的情况,甚至是多手多脚。C站上排行较高的几个embedding可以解决这个问题,这些embedding记录了一系列AI画错的方式,整合后放入负面提示框中进行激活,一定程度上避免了上述画错手脚的情况。
badhandv4
easynegative
。NG_DeepNegative_V1_75T
。LoRa
以下是几个我喜欢的lora:
- Adjuster 衣物增/减 LoRA:可实现衣物增减
- Detail Tweaker LoRA (细节调整LoRA):用于在保持整体风格/特征的同时增强/减少细节;它适用于各种基本模型(包括动漫和现实模型)/风格 LoRA/角色 LoRA 等,权重±2
- Polaroid LoRA:拍立得LORA,不带白色边框、只保留拍立得照片质感的模型。
- CharTurnerBeta - Lora:触发词
charturnbetalora
,权重建议0.2到0.4,配合CharTurnerV2 embedding效果更好。- 娜乌斯嘉角色lora、墨幽角色LoRa、FilmGirl 胶片风 LoRA、现代修仙传lora、国风未来lora、汉服唐风lora
LoRa
简介LORA 与 embedding 在本质上类似,因为携带着大量的训练数据,所以 LORA 对人物和细节特征的复刻更加细腻。
LORA激活方法:
,其中,lora_filename就是你要启用的LORA文件的文件名(不含后缀),例如
可以启用人物转身LORA CharTurnerBeta。有的LORA还有触发词,表示作者根据这个tag进行了加强训练,二者同时启用可以加强效果。
LORA 模型对应的底模和触发词汇,在 LORA 作者给出的model信息中可以获得。
需要注意的是, LORA 训练的图源复杂,所以一般会对画风造成轻微影响,可以通过降低其权重来抑制。权重设置越大,对画风的影响因素就越小,通常情况下,权重应该控制在 0.3-1 之间。
为了获得最佳效果,我们可以根据不同的 LORA 模型选择适当的提示词和排除词,并在设置权重时进行调整。同时,我们还可以参考其他作者的经验和技巧,以便更好地利用 LORA 生成图像。
这些模型默认没有预览图,你可以加载之后跑一张图片,然后点击用当前生成图片替换预览图。配置完之后,会在模型文件旁边生成同名的图片,不想要可以删除。也可以选择一张图片改成和模型一样的名字,刷新后就自动成为模型封面图。
在设置——扩展模型中,可以设置一些细节。比如设置模型展示方式是卡牌还是缩略图,卡牌宽高尺寸、LORA模型加载权重等等。
github地址:sd-webui-additional-networks
前面几种方式加载的LORA都会明确写在提示词中,这样在图片分享时,这部分内容是可见的。还有一种加载方式,用于多个LORA同时使用的情况。点击页面下方的addition network,就可以启用最多五个LORA,并分别配置权重。
通过addition network,默认读取的是在extensions-addition-network-models-lora
文件夹下的LORA文件。我们可以在settings-addition network
下,第一行设置其读取路径为lora默认的安装路径。
addition network加载LORA的方式是和提示词完全独立的,所以提高了提示词的阅读性,缺点就是分享时,这种方式加载的LORA信息不会被显示出来。所以有些网上比较满意的图片,copy参数信息后无法完美还原,就可能是作者使用了这种方式加载了LORA文件。
addition network还为LORA扩展了蒙版功能,使其可以作用于图片的特定区域,后续再补充。
LORA的具体应用,可以分为以下五种:
风格lora(art-style):权重0.2-0.3,过高会让角色LORA失去一些原本的特征
以C站很受欢迎的fashion girl为例,作者使用100个符合他审美的时尚女孩照片进行训练的,可以使生成的女性角色更符合审美,触发词为fashi-girl、red lips、mature female、makeup。类似的还有FilmGirl 胶片风、花想容/Chinese style等等,可以实现自己喜欢的风格。
画风lora:推荐权重0.2-0.4
例如Ghibli Style LoRA,叠加使用触发词ghibli style
,可以实现吉卜力工作室(宫崎骏)的画风,这种画风可以概括为绘本化的角色设计,水分质感的丰富色彩、精美细腻的背景场景。
concept(概念)lora
以Gacha splash LORA举例,这个是使用抽卡游戏中抽卡时的精美立绘来训练的,使用这个LORA之后,生成的图片也会有这种抽卡立绘的风格。这种概念型的LORA对提示词的书写要求更高,使用之前要熟读model card,并参考作者的示例图信息。类似的概念LORA还有塔罗牌、mugshot lora(档案照片)、国风未来等等。
最后,当你想强化作品中某种方面的特质时,可以叠加使用多个同类型的lora,例如使用多种机甲lora来生成机甲风图片。具体使用时,你可以通过控制不同lora的权重,使得作品更像某一种lora。
6. object:特定元素,这种可以实现产品设计、产品蓝图等。
进阶用法,是使用局部重绘的方式引入到图片中。比如给一张科技感的少女图片加上头盔,我们可以将生成的图片进行局部重绘。我们涂上头部部分,并向外多涂一部分,给AI充分一点的创作空间,然后选择头盔lora进行局部重绘。重绘方式有两种:
这样做有什么好处呢?因为头盔lora这种只涉及画面的很小一部分,如果硬要施加到全图范围,有一定概率会干扰大模型生成优秀的画面,这时,局部重绘就成为一种优秀的单独解决方案。这种画大图不加lora,画局部加lora的方式,可以用于服饰、产品等等其它lora的应用中。
hypernetwork
hypernetwork
的效果和LORA
差不多,区别在于, hypernetwork
一般用于改善整体的画风,比不同checkpoint之间的画风更细腻一点,例如区别不像真实模型和二次元模型那么大的画风差别,而类似梵高和莫奈之间的小差别。
以WavenChibiStyle为例,是一种Q版可爱的画。使用方式是点击设置标签栏,在左侧附件网络中选择加载超网络下拉菜单中的超网络模型,然后保存设置就可以了。我们维持人物设置不变,删去所有场景词,使用纯色背景,分辨率为正方形,生成一张图片。
目前, hypernetwork
的作用可部分被LORA
取代,而其生成效果没有LORA
那么好,但需要生成特定风格的画面时,hypernetwork
亦依然是一种选择。
最后,装了tag complete
这个补全tag的插件之后,输入
高清修复是文生图内置的功能。下面使用LOFI
模型作者的示例图进行说明。我们复制示例图的参数,再加上一些prompt,初始分辨率设置为500×750,可以看到生成的图片细节不够,还是有点模糊(分辨率太低,模型没有足够的操作空间)。
此时如果直接扩大分辨率,一次生成高分辨率图片,非常容易爆显存,且容易生成多头多手多脚的图像。此时可以考虑使用高清修复:
R-ESRGAN 4×+
,二次元选R-ESRGAN 4×+ Anime6B
,另外模型作者也会推荐高清修复算法。设置高清修复后,会先生成低分辨率的图片,再加噪打回潜空间进行重绘放大。下面是效果对比:
0.3-0.5
。图生图没有高清修复的选项。但其实选一张低分辨率照片,设置高分辨率参数进行生成,本身就是一种高清修复。在设置选项卡的“放大”一栏中,可设置图生图的放大算法。
如果想生成更高清的图片,可以使用Upscale
放大脚本。我们从图库浏览器加载一张图片到图生图,生成参数会自动同步复制。设置重绘幅度0.5,在最下方脚本下拉菜单中选择SD Upscale。放大倍数选择2,重叠像素选择默认值64,重绘算法选择R-ESRGAN 4×+ Anime6B
,原图尺寸600×600改为664×664:,点击生成,就得到一张1200×1200的图像了。
最终图像尺寸=(原图尺寸-重叠像素)×放大倍数
SD Upscale是把图像均匀分割成四部分,逐个放大再拼在一起。如果不设置重叠像素,分割部分没有过度,就会很生硬,出现边界线。
在附加功能选项卡里,可以进行AI算法放大。打开一张图,设置放大倍率和算法(可以选两种),点击生成就得到了2倍放大的图片。这种放大和AI里的老张片高清修复的原理是一样的,重绘度为0。
附加功能放大只是单纯放大,所以速度很快,计算无负担,但是精致细腻程度不如前两种,可以考虑综合起来使用。
见本文7.5节。
有时候我们好不容易生成了一张比较满意的图片,但是却有一点细节是需要调整的。比如衣服改成无袖,如果这时候直接改提示词,整张图片都会被改变,这时候就可以使用局部重绘,可以理解为就是把重绘区域拿来根据更改的提示词进行单独的图生图,而保持其余部分不变。
局部重绘还可以用来AI换脸、换衣服、更换背景去除涂鸦等等。
下面对几个重绘参数进行解析:
重绘区域:
一般情况建议选择全图重绘,仅蒙版适用于针对性很强的情况,比如只重绘手部,这时候希望降低 重绘幅度避免变形,并对提示词做净化处理(5 fingers,hand open,high five)。仅蒙版模式时,右边有个预留像素的参数,和5.2节SD Upscale里图块重叠像素的效果一样,用于在拼回去时接口处进行平滑过渡使用,根据蒙版大小来做对应的调节。
重绘幅度(Denoising):表示生成的图和原图的相似度。范围 0 ~ 1,默认 0.75。值越大,生成的图片和原来的图片相差越大。根据自己的需求进行调整即可。
仅仅局部重绘,效果还是不够强大。比如要重绘手部,AI还是容易画错,此时可以选择手涂蒙版,用于在蒙版上进行手绘。
下面例子中,在手涂蒙版下打开一张图片,右上角多了一个调色盘按钮,点开后可以选择画笔颜色。我们用蓝色画笔画一幅口罩,再用白色画笔在口罩上画一个爱心,再增加对应提示词(blue face mask with heart sign:1.2),重绘幅度设为0.8,最后点击生成,效果如下:
鼠标作画还是不够灵敏,如果外接数控画板,效果会更好。
下面介绍如何画手。我们上传一张图片,点击调色盘旁边的拾色器吸管,先吸取墙面背景颜色涂抹手部,再吸取脸部的肉色画出手型,提示词填上(5 fingers,detailed hand,high five:1.2),负面提示词用上之前讲的 EasyNegativeV2 这个embedding。画手的时候重绘幅度建议开0.5,太大会使勾勒的手部轮廓模糊。另外蒙版模糊也不宜太大,使用默认数值4就行。下面是生成的效果:
手涂蒙版比之前多了一个蒙版透明度的参数,如果你选择手绘的颜色饱和度太重了,可以适当开一点减弱颜色,保持和任务画风色彩比较一致。
绘图也可以单独使用,例如为图中人物加一条领带。区别在于不启用局部重绘的情况下,整张图的画面都会有一些改变。
或者是:
上传蒙版用于精确地控制蒙版范围。本质就是在PS软件中,把需要重绘的部分抠出来,再将这个模板上传到局部重绘中,就可以进行局部重绘了。
打开PS,如果图片只有一个主体人物,点击“选择”-“主体”,就会自动选择人物,生成一圈蚂蚁线表示的选区。如果人物较多,推荐使用工具栏里的对象选择工具,框选某个人物区域,就会自动选择对应人物。如果有多出或者残缺的部分,使用套索工具。套索圈住选择的部分会加入选区,按住alt进行圈选,选择区域就会被删除。
剩下部分还是看视频吧,《手把手教你玩转局部重绘》第12min开始。
初始的webui界面是很简单的,所有的插件在extensions栏中,有已安装、可安装、通过链接安装三个选框。
如果这个url不小心清除了,下面是两个地址:
- 扩展查阅地址:
https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui-extensions/master/index.json- 备用镜像地址:
https://gitee.com/akegarasu/sd-webui-extensions/raw/master/index.json
https://gitgud.io/AUTOMATIC1111/stable-diffusion-webui/-/wikis/Extensions-index.md
git clone https://github.com/Physton/sd-webui-prompt-all-in-one.git
下载tag自动翻译插件(使用download手动下载也行)。安装完后点击重启webui进行刷新,插件安装正确就会出现在已安装列表中。中文语言包:搜索zh
(取消勾选本地化/Localization的筛选)
图库浏览器:搜索image browser
提示词补全: 搜索tag complete
,中文词库见网盘
提示词反推:搜索tagger
Ultimate Upscale脚本:SD upscale升级版,用于图片放大。 搜索ultimate upscale
Local Latent Couple:局部细节重绘,搜索llul
Cutoff:精准控色,防止串色,搜索cut off
prompt-all-in-one:prompt综合插件,功能很多,详见视频《提示词补全插件(自动翻译)插件》。
@Nenly
在可安装选框中取消勾选localization,然后搜索zh
,推荐安装秋叶的安装包云端汉化翻译(第一个)。安装后在settings——user interface中选择切换语言为zh-Hans
,然后重启webui就可以了。
webui默认只能在output文件夹里来查看之前生成的图片信息,安装了image browser
之后就可以在图库浏览器里进行查看图片生成信息、一键发送图片到文生图图生图,图片排序、打分筛选、删除图片和收藏图片了。
filename keyword search
:对图片的文件名进行关键词搜索,图片文件名一般包含路径、文件编号和一小段关键词提示词;EXIF keyword search
:对图片的所有生成信息进行关键词搜索。比如搜索smile,则所有包含smile提示词的图片都会被显示出来tag complete
tag complete
:用于自动补全没有输完的提示词,还会提示你更符合AI逻辑的提示词。比如下面脱下帽子,比起hat_off,hat_removed在AI图片生成中会表达的更准确。
tag补全是基于本地booru实现的,补全内容还包括时下热门的动漫IP等等。另外输入
中文tag翻译:按照B站视频《全网最全Tag词库》操作。
a1111-sd-webui-tagcomplete.zip
压缩包filename
设置为zh_cn.csv;再往下翻,translate filename
选择zh_cn_tr.csv,这样就配置好了,保存设置。
配置好之后,就可以在提示词框中直接输入中文了。
另外,,输入tag complete
还可以自动识别加载已经安装的embedding、lora、hypernetwork等,非常方便。
tagger
tagger
用于提示词反推,右下是反推出来的提示词的置信度,我们可以设置置信度阈值来筛选反推出来的提示词,设置之后再点一次反推按钮就行。
tagger左下还可以添加和排出提示词,右上sensitive还可以显示图片的敏感度。
另外B站还有中英双语对照翻译和另外的tag补全插件本地汉化词库文件,可参考视频《中英双语对照、TAG提示词自动补全》
prompt-all-in-one
参考视频《提示词补全插件(自动翻译)插件》
之前的tag补全插件,本质上是按照本地词库(两个CSV文件)进行对照翻译,词库里没有的词就翻译不出来;而这个插件是通过第三方接口进行在线翻译。我们在右侧方框里输入中文,按enter就会自动将英文tag加入提示词框中了。下面对插件按钮逐一介绍其作用:
第一个按钮:设置语言;
第二个按钮:设置;
第三个按钮:历史记录,点开后可以看到提示词的历史记录,点击右侧收藏夹按钮,可以将其添加到收藏夹,点击最右侧按钮,就可以将其自动输入提示词框
第四个按钮:提示词收藏列表
En
按钮:点一下就会将提示词框所有中文翻译为英文
最后两个按钮,分别是复制提示词和删除提示词
一般我们可以在提示词框输完中文后,点击翻译。后续要补提示词,可以在右侧方框里继续输入中文,按回车就自动翻译为英文并添加进去了。
另外将鼠标移动到下面的提示词处,还可以快速拖动提示词、快速调整提示词权重(点击±号或括号),比较方便。
utimate upscale
utimate upscale
是一个更好用的图片放大脚本,可以看做是SD upscale的全面升级版,拼合更自然,重绘效果也更好。安装完之后,在脚本下拉菜单中可以看到。下面介绍几个参数。
custom size
之后,可以自定义放大尺寸。其它放大算法、蒙版边缘模糊(6.1节)、预留像素(5.2节)在之前都讲过。utimate upscale
也是把图片拆分成几块进行分别放大,拆分区域大小可以自定义,如下图,设置宽高中一个元素为0,表示是一个正方形。所以utimate upscale
默认也是拆成512×512的区域进行放大。utimate upscale
比SD upscale
更稳定,重复幅度可以设置高一点,比如0.5左右。 Local Latent Couple
用于丰富局部画面细节。安装完之后,在脚本下拉框中选择LLuL
,会出现一个方框界面,阴影框表示要细节放大的区域,默认是整张图的四分之一。拖动方框选择我们要放大的区域,其它参数特别是随机种子保持不变,重新生成,新图片上,衣服的细节就会更多。
cutoff
可以解决提示词互相干预得我问题,比如输入a cute girl, white shirt with green tie, red shoes, blue hair, yellow eyes, pink skirt
,结果生成的图片可能会出各部位串色的问题,开启cutoff之后,可以有效抑制:
实现原理:每个颜色词单独处理。颜色词生成词向量时,削减掉其他颜色词,得到的结果作为本颜色词的向量,即采用增加计算量的方法。本来一个文本prompt只需要过一次text encoder,现在需要过n次text encoder才能得到最终的文本表征(n代表这个prompt里有n种颜色)
在启用cutoff之后,输入上述颜色词及cutoff的权重,如下图所示:
其它参数: