【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法

目录

学前视频

0.本章素材 

1.图生图是什么

2.图生图能做什么

3.如何使用图生图

4.功能区域

4.1.提示词区域

4.2.图片提示词反推区域

1.CLIP反推

2.DeepBooru 反推

4.3.图片上传区域

4.4.结果图区域

4.5.缩放模式 

4.6.重绘幅度

7.结语

8.课后训练  


学前视频

stable diffusion图生图教程

0.本章素材 

百度网盘 夸克地址
anything模型(二次元模型) 百度网盘 提取码:g5uk

夸克网盘

提取码:PWLu

chilloutmix模型(真人模型) 百度网盘 提取码: qup0

夸克网盘

提取码:Ny9P

案例图 夸克网盘
通用提示词 夸克网盘

1.图生图是什么

简单来说:图生图就是依赖图片和提示词进行二次创作。

2.图生图能做什么

图生图的出现 是为了弥补文生图的不足,因为文生图有个无法避免的问题,就是随机性太大,当你抽卡 抽到一张你喜欢的图片,但是可能某些地方不满足需求,对于文生图而言,是很难进行修正以及修改的。

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第1张图片

虽然衣服是实现了白色衬衫,但是背景,人物,发型等都发生了变化,那如果 需求再加上在不改动原图的整体风格的情况下,变更衣服的样式,那么文生图就无法做到了。

而图生图则能实现这种效果,下面,我将图生图的功能实现做出详细讲解

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第2张图片

3.如何使用图生图

图生图并不是单纯的直接由图片生成图片,图片只是做主体作用,打个比喻,你要做一道麻辣鸡,鸡就是那个图片,但是 只有鸡是没有办法做成一道菜的,你还得加上各种调料,配菜,才能得到自己想要的料理。同理,图生图也是由文字与图片共同配合完成的,通过文字去控制原本的图片进行二次创作,从而减少图片生成的随机性,更好的满足我们的需求。

4.功能区域

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第3张图片

图生图大部分功能都与文生图的一致,需要讲解的点,都已经标出来,如果有哪块在本章未解答,可以去文生图这章翻阅。

4.1.提示词区域

这块区域的用法和文生图的用法是一样的,但是为什么我要特意拿出来讲解,因为 这块 和文生图的使用效果会有一点不一样,这块的提示词 会作用于结果图,而不是对于原图的描述,这里初学者 是很容易混淆的,大多数教程正向提示词都是和原图是有关系的,会让人误解为是对于原图的解释,图生图中无论是正向还是反向提示词 都是对于结果图的引导和规范,例如:

原图是女孩,提示词为1boy,则结果图 会往 男性引导

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第4张图片

 

4.2.图片提示词反推区域

当我们想利用原图进行操作,但是想保留某些特征,让原图和生成图保持相似度时,我们就需要进行提示词编写,此时反推区域就能帮助我们提取原图的特征提示词,例如:

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第5张图片

需要注意,反向提示词是不会生成的,还是需要自己进行填写,并且提示词的准确度也并不是百分百,准确度依靠图片中的特征是否足够明显,对于AI生成的图片,图片提示词反推也会更加准确。

1.CLIP反推

生成的提示词更像自然语言,一般是短语形式;

a young woman is posing for a picture in a t - shirt with a mountain scene on it and a quote on the front, Fan Qi, mountains, computer graphics, neo-romanticism

一位年轻女子正在摆姿势拍照,她穿着一件t恤,上面有山景,正面写着一句话:范琦,山,电脑图形,新浪漫主义

2.DeepBooru 反推

DeepBooru 反推注重对于图片进行标签化,生成的大多数是单词,对于二次元图片的反推尤其擅长

1girl, 3d, artist_name, asian, bangs, black_eyes, black_hair, brown_eyes, closed_mouth, indoors, lips, long_hair, looking_at_viewer, nose, photo_(medium), photo_inset, photorealistic, realistic, shirt, short_sleeves, solo, t-shirt, upper_body, white_shirt

女孩,3d,艺术家,亚洲人,刘海,黑眼睛,黑头发,棕色眼睛,闭着嘴,室内,嘴唇,长发,看着观众,鼻子,照片\(medium\),照片插页,逼真的,逼真的,衬衫,短袖,独奏,t恤,上身,白衬衫

两种反推并没有明显的优略之分,CLIP更加容易读懂,DeepBooru则更容易进行修改,但是我个人使用而言,我还是比较喜欢用DeepBooru,因为 多数情况下图片生成需要多次调试,标签化的提示词更容易进行替换和新增,也更好设置权重。

4.3.图片上传区域

可以选择点击上传 或者拖动到上传区域,但是 注意的是,图片名称不要携带中文字符或者空格之类的,当名称携带中文字符时,使用CLIP反推时会报:


TypeError: stat: path should be string, bytes, os.PathLike or integer, not NoneType

使用其他图生图功能时也有可能会出现类似问题,这里再次强调一下,文件和文件夹不要使用中文字符,甚至纯数字命名,最好是使用英文命名,以避免各种奇怪的问题

4.4.结果图区域

输出结果图的地方,也可以根据结果图 进行 再次修改 ,此时点击 结果图下方的图生图就可以了,这样原图就会变成结果图

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第6张图片

4.5.缩放模式 

缩放模式其实就是结果图的大小按照什么方式进行调整的,在拖动宽度或者高度时,会出现一个红色的框框,那就是结果图的大小,一般来说通过调整宽度和高度,默认使用拉伸就可以了

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第7张图片

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第8张图片

 

4.6.重绘幅度

这个与文生图高清修复的重绘幅度相似,用白话文来解释:就是结果图和原图有多少相似度,重绘幅度越高,结果图和原图越不像,重绘幅度越低,结果图和原图则越相似,当重绘幅度为0时,输出原图,重绘幅度为1时,原图和结果图没有任何关系。可以看出0.6之后结果集和原图的相似度就开始有较大的差距了,建议重绘幅度0.2到0.7即可。

正向提示词:masterpiece, best quality, 1gril,red hair

模型:anything

原图:案例图

【stable diffusion】保姆级入门课程02-Stable diffusion(SD)图生图-基础图生图用法_第9张图片

 

5.结语

图生图的第一小节 基础图生图就讲解到这里了,内容不算多,但是需要同学们自己进行实操一下,理解每个功能的作用,接下来,我会讲解图生图中绘图(涂鸦)功能

6.课后训练  

  1. 根据案例图,反推出相关的提示词

  2. 替换案例图人物的眼睛颜色,发色

  3. 保留人物特征,动作,以及背景,生成一张对应二次元图片(使用anythiny模型)

 

你可能感兴趣的:(stable,diffusion,stable,diffusion)