图生图 (img2img) 相较于文生图 (txt2img),因存在参考图片的基础上创作,其可控性自然更强。下面从图生图的几个应用方向出发,详述其功能特性。
顾名思义,就是通过图片反推关键词,不过作为附加功能首次使用时,需在线下载相应的模型包。有可能退出来的描述信息并不是非常准确
CLIP反推获得关键句:a beach with a sunset and some rocks and water with a wave coming in to shore and a sun setting
DeepBooru反推获得关键词:cloud, horizon, ocean, orange_sky, sky, sunset, beach, cloudy_sky, scenery, mountainous_horizon, twilight, gradient_sky, mountain, sun, evening, shore, water, sunrise, red_sky, river, no_humans, dusk, outdoors, waves, city, city_lights, lake, island, cityscape, planet, landscape, sunlight, purple_sky, house
然后把生成的关键词重新通过文生图反推绘图。顺序为CLIP反推、DeepBooru反推、原图。想要较好还原,建议选择DeepBooru反推修改使用。
img2img应用领域广泛,包括但不限于大幅度改变图像内容、改变画风风格、线稿绘图等。其中基础的绘图参数和txt2img
是一致的。
其中有一点不同的是其中多了Resize mode
和Denoising
。
当上传图片尺寸和要生成的图的尺寸不同时,需要选择调整大小方案。设想一种情况:参考图像是512768的竖图,比例大约为2.6:4;而待生成图像是512512的方形图像,比例为1:1。下图展示了几种不同的缩放模式效果。上1角图为原图,重绘参数为0。
原图。
拉伸模式:直接将短边拉长。调整图片为生图设置的宽高。若上传图片的宽高与生成设置的宽高不一致,则该图片会被压扁。
裁剪模式:剪去长边的上下部分。裁切图片以符合生图的宽高,我最推荐的方式。
填充模式:使用AI填充短边。裁切并调整图片宽高,若上传图片的宽高与生成设置的宽高不一致,则多出来的区域会自动填满。
用一个0到1之间的数值控制重绘的幅度。
数值越接近0基本不重绘,越接近于1重绘的画面越不一样。不同的 Denoising strength 效果的区别。
同时还可以重叠各种采样方法,下面是使用了不同采样方法后的效果。
Sketch标签页的使用将得心应手。这个功能允许在已有的图像上进行添加和修改,或者根据个人想法和创意从零开始绘画。在完成绘制后,还可以通过输入提示词来完善作品。无需担心画画技巧的问题,因为这里并不要求必须是专业的绘画水平。
对图像的特定部分进行重写。此功能允许在不改变整体图像的情况下,对某一特定区域进行修改。例如喜欢一张图像,但想改变其中某一部分的情况下,比如更改人物的面部表情,如将原本严肃的表情调整为微笑,或者改变图像中人物手中的物品,比如把手中的苹果变为草莓,这种特性就大显神威了。
指定这些变更的方法简单直接,只需设置好提示,然后编写出相应的代码,就能看到指定区域的图像得到了有效的重写。
结合 Sketch 和 Inpaint 功能,可以同时重写指定范围,根据文字提示,绘制出与草图相匹配的图像。选择蒙版重绘模式,一般都选择重绘蒙版内容,也可以去对应反向的画面进行操作。
例如改变其中一个苹果为一把勺子。
除图像外,可利用遮罩数据来定义更精细的范围。基本来讲准备好一份黑白 png 数据,即可成为遮罩图像。同样也可以使用机器学习、深度学习的方法批量定义提取蒙版操作。
例如想给模特换衣服的话,就要提取对应的蒙版。进行重绘操作。不需要通过什么PS,通过算法直接提取服装的mask蒙版。
这个是通过机器自动批量提取的蒙版进行重绘操作。输入关键词blue dress
就会得到下图的结果。
处理多张照片一次成为可能。在创建舞蹈视频的过程中,会对导出的序列化图像进行处理,这样可以使得视频中的每一帧都根据相同的提示和设置生成。
然而为了维持生成图像的一致性,必须依赖于各种设定和扩展工具的帮助。