作为一名业余摄影爱好者,对于没能点亮画画这个技能点,我始终是心有不甘的。毕竟,这就总感觉咱这内在的艺术气质就不够了,照骗爱好者和摄影艺术家之间那小小的鸿沟,不就迈不过去了吗? :-)
当然,我也努力过,在远古的大学时代,也曾不辞路途遥远,夜里骑车跨校区(去文科学院所在的校区)选修过一学期的素描人像课。结果第一节课老师就现场拉了个同学上去做模特让写生。这就是选修课宣传单上说好的零门槛?!而且买一送一,全程零指导自由学习(当然,也可能是老师觉得完全没必要把时间浪费在类似我这样,连排线都画不齐的“真·小白”身上),结果可想而知。。。
所以,对于这一两年火起来的AI 绘图这事,我内心是喜悦的,你看,这不有机会证明,咱可能不缺艺术细胞,只是缺少了一个合适的表达工具。
只可惜,从Mid Journey,DALL-E之类的模型试用阶段起,内测就一直没排上队。好容易大概半年前,依照各种指南,按图索骥尝试了一下Fork某小型模型到某线上算法平台,折腾了一圈参数,尝试了若干小时后,产出了类似以下作品
好嘛,这离各类模型的官方Demo效果感觉差得有点远,和我想象中自己的艺术表达也有一定的差距,所以决定把责任推给AI,都是AI的问题,离个人实用还得有很长距离。于是打算放下一段时间,等哪天DALL-E 2 之类开放使用再回来看看,也就没再关注这块的新闻
直到个把月前,偶然看到一篇文章,一副名为《太空歌剧院》的画作,在美国科罗拉多州举办的艺术博览会上,在评委不知情的情况下,和真人画作PK,获得数字艺术类别冠军。事后这幅画作的作者39岁游戏设计师Jason Allen自曝该画作是他使用Mid journey完成的(当然,经过了各种参数尝试迭代和事后人工修饰处理)
纳里,这么厉害,于是又搜了一圈相关开源模型,发现Stable Diffusion已成为时下最流行的开源AI CG模型。然后,有若干小程序都支持使用Stable Diffusion模型出图?不需要自己下载安装模型,调参运行等等,这也太方便了吧。。。赶紧试试看效果如何,可不能再让工具耽误了自己的艺术思维的表达输出不是。
从微信小程序开始上手
类似的小程序有几个,比如
- AI 绘图精灵
- AI绘画大师
- 意间AI绘图
- 马良AI绘图
玩过这类AI生成模型的同学应该都知道,这类模型,大体上都是你提供一串对图像的英文文本描述(Prompt),然后模型根据你的描述生成图像,但实际当你填写的时候,你会发觉不知道怎么描述,填个 cat,dog,girl之类的词,然后该怎么调整描述,完全没有方向,一脸懵。
所以,门槛是需要降低的,这几个小程序,功能细节上各有千秋,但行为模式上,基本上都是给了你一些Sample示范,你可以简单选择一个示例,或者照着样子填几个关键字,修改一下风格,大小之类,点击运行就可以了,相比之前自己搭建并运行模型,不要3小时,不要30分钟,甚至不要3分钟,吐血大放送,打骨折,只要10-30秒不到,一副画作就生成了。。。
效果如何呢,前面三个都可选择使用Stable Diffusion作为后台引擎,应该也是调用的引擎开源接口,所以能力上限应该是看齐的,下限则主要还是看你填写的描述语了
其中,AI 绘图精灵,AI绘画大师这两,可以使用中文输入(应该是做了关键词的自动翻译再吐给引擎)。但使用中文描述,效果就不保证了(你想首先要做一次文本翻译,然后再从翻译后可能完全词不达意的文本中再生成图像),不过如果你能猜测背后英文翻译的结果,大体就和直接使用英文从SD出图区别不大了。
当然你也不要指望AI能精确辨别主语谓语和宾语的区别,大体还是抽取关键字进行拟合。 下面两张使用图示同样的描述语生成。但主体对象完全不同
另一个意间AI绘图是之前我用的比较多的(这两天好像在升级),这个只支持英文输入,但反正你之后想要把图像描述准确,建议还是用英文,所以没啥问题,毕竟SD模型训练的时候就是以英文为环境的。
这个小程序做的比较好的地方是界面,操作干净整洁很多,另外对历史图像的存储,下载等也支持的更好,广告也少,免费额度(看广告得到)的获取也容易很多,一个广告十张图,前面两个小程序基本是一个广告一张图,画两张基本就放弃了。
示例Demo描述所生成的图像效果就还不错
最后一个,马良AI绘图,应该不是使用SD模型的,只能输出二次元类风格的图像的生成,使用英文描述,但它做得好的地方,是支持词条生成,基本上把各类关键字用菜单分类的方式给到你,然后你勾选各种关键字组合,然后自动生成英文描述,这就很用心了。 尽管我很少用,因为二次元美少女看起来都一个样,没有太大兴趣。
不过,它对描述语的匹配还是做得不错的,比如下面这张使用菜单选词的方式,大概选择了类似这样的关键词:
令人惊叹的艺术(画面质量),一个美丽的女孩(人物),白色头发和法式编发(头部),微笑(样貌),双手放在胸前(人物动作),冬天和下雪(背景),洛丽塔(衣服),电影视角(风格)
当然,我的本意是想画雪天里的丹妮莉丝,只是这个尖下巴的二次元风完全搭不上。
一些使用体验
好了,工具介绍完,键盘艺术家,指尖上的国家地理摄影大师之路正式开启。用提示语知道AI作图,基本上这个过程就是你判断现实和虚构,多大程度上AI能够缝合上的一个过程。
对象题材
总体以我使用下来的经验而言,人像类图片,配合各种人名(作为长相参考),画家(风格和作品参考),电影,游戏(同样是画面来源),年代(整体典型装束,画风)等有明确图像参考来源的描述语,然后加上所在环境,天气,光线,背景,甚至镜头视角大小等说明,就相对最容易得到一个较好的输出。毕竟AI模型目前确实更多是拟合模仿(不管是什么生成模型),所以缝合几种风格或场景意向的描述,最有可能实现“创意” 。但最重要的,还是你得让AI有个清晰的参考来源。
而风景类图片通常无法太写实(即类似照片)因为现实景物图像细节太多,不像人脸有固定范式,AI模拟难度太大,稍微扭曲一点立马就觉得很假,所以偏抽象虚幻一些的风景照相对容易。
其次是静物(蔬菜瓜果瓶瓶罐罐),大概是素描和摄影作品数量也有一些,另外,形状本身也有较好的宽容度,所以也还能看
最后动物类,基本就很难了,估计是模型训练过程素材太少,动物脸识别和缝合术也没有那么成熟。特别是要和人像等结合在一起的时候
风格匹配
如果你的主体对象偏虚构,那环境背景画面风格等大致也只能走虚幻的路,如果你的主体对象偏客观现实,相应的环境背景画风风格大体也会需要比较写实才有可能输出一个相对可信的画面,等等。但你要想构建出与众不同的画面,又得尽可能在现实和虚构中进行组合。
人像拟真
古人云画鬼容易画人难,因为人大家天天见,画得像不像一眼能看出,而鬼嘛,反正是虚构的,随便画。
但相比于没有定式的场景,AI模型其实画人像功力最高,大概也得益于人脸识别技术的广泛应用和美女图片在网上的海量素材,SD模型被训练(学习)得很好,尽管身体构造方面经常有奇怪的缝合(多胳膊多腿,一堆手指头等等),但面部效果通常都还好(如果忽略眼睛,鼻子等的一些细节),几乎可以乱真照片了。
上面这张图毫无特征,无法判断AI CG多大程度套用了真实照片,所以下面这几张用蓝色蓓蕾帽,花朵,项链之类作为参数描述,看起来确实是按语意匹配生成的。
唯一的问题是,因为图像是随机生成的(图像对抗或者图像扩展等过程类似蝴蝶效应,起始状态稍微有点变化,输出结果可能就差很远),所以几乎不可能模拟为同一个人精确的画不同的画像
当然,也还是有些补救的办法的,比如生成图像的随机种子参数可以固定,但描述内容做与核心描述无关的非常小的调整,图像可能就只会受到微小的扰动
比如下图使用与上图同样的Seed参数和描述语,只是描述上的一个单词从slightly smile,改为smile,还有一个加上 eye closed,看起来几乎就类似同一个人换个表情连拍了 (当然,如果你留心,会发现项链和上图比,换了造型。。。毕竟生成过程太随机 )
再比如下面两张, 也使用和上面同样的描述语,但因为随机种子不同,于是就换了个妹子,风格上这两幅也接近油画,不像照片了
左右两张的区别同样是 eye closed和slightly smile,仔细看的话,项链也换了。其他发型,妆容,衣服,帽子也有些许区别,
lexica.art
当然,我忘了说了,实际上面几张图都不是用前面那些小程序生成的,因为小程序基本都没有让你控制种子参数的地方。此外,每天能使用的次数有限,还要看广告,也很烦。最后,手机上敲大段英文描述还是很不方便。
下面这个网站才是键盘艺术家的利器: http://lexica.art 顾名思义,艺术词典。这个网站收集了Stable Diffusion模型内测以来生成的所有图片,和生成这些图片所使用的描述语(Prompt)。随着SD拿到大笔融资,lexica也拿到了数百万美金的融资,因为有钱,所以任性,没有那么多广告等卖流量变现的事,除了做了一些流量控制(你不在短时间内生成上百幅,基本不会被限流),完全不限量自由使用。
这个网站之前只提供了查询的功能,你可以填入关键字,然后搜索相关图片(相当于针对Stable Diffusion的搜索引擎)和下载使用(因为这些图片被定义为免费版权),也可作为如何写Prompt的参考。如果要生成图片,则需要使用Discord(一个类IM的聊天软件),加入群组,通过内测聊天机器人发送指令。
但不知道什么时候起,网站直接提供了生成图片的入口(反正我找到的时候已经可以了,功能还在不断更新迭代中),这就方便多啦,你可以浏览别人生成的图片,然后看看这张图片的参数和prompt是怎么写的,拷贝过来运行就好了,网站甚至直接在原图上提供了再次生成(generate)的快捷按钮和搜索类似图片和描述语的功能。当然,你生成的图片也是公开的。
此外注册过账号后,你所有生成过的图像,和你收藏的图像都能长期保存下来
不过这个网站使用webp作为图像存储格式,一般看图软件和手机都不支持直接存储或查看,可以分享到微信等地方转存,又或者安装个chrome浏览器插件,比如 "Save image as type" 这个chrome插件。
参数调整
Lexica上的参数,大体上除了正向的prompt,剩下的是反向的prompt(不希望出现的对象),主要用来排除一些不希望出现的情况,比如梵高的画像总会出现星空,那么可以吧star night作为Negative prompt输入,比如人像有时候拟合得不好会出现多条手臂之类,可以输入a lots of hands之类稍微控制一下,但总体还是得看运气。
剩下guidance scale,8-16之间比较常用,就是控制图像和描述的相似性,当然越高可能越有机会相似,但太高了,往往会过拟合,出现很奇怪的缝合画面,杂乱的混合体,杂乱的色块(特别是脸部),多手多脚等等,所以基本设在10附件,然后在第一次画面大的内容主体,觉得还不错的情况下,指定上次的Seed,然后调整guidance scale数值,看看上下变化一下,会不会有更好的整体呈现效果,图像内容会不会有些变化等等
比如下面三行图像,就是所有prompt和参数都不变,guidance scale分别设在8,12,16三个数值上的输出图像
说这么多,不如你自己去试试,速成指南完毕,下面是我自己的折腾时间:
开始创(胡)作(闹)
AI绘图,谈不上创作,就是图个有趣吧,所以主题内容还是挺重要的,这篇图片太多,篇幅太长了,以后分开发,先做个预告吧,有兴趣同学,记得三连。
第一个主题可能是:平行世界行者丹妮莉丝和梵高一家三口在阿尔的快乐田园生活