要点初见:AI绘图工具的部署资源、攻略整理(上篇)

开门见山:

推荐使用Stable Diffusion,其在2022年8月23日完全开源了自己的V1版模型,如今AI绘图已经是只要有GPU资源即可免费、快速实现的事了!未来聊天表情包将全由AI自动生成(包括动图),动画制作只需要关键原画其余都由AI自动补全,AI计算绘画师也将成为炙手可热的新职业。

附上开源链接:

项目链接:

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

模型链接:

https://huggingface.co/CompVis/

建议采用其中的stable-diffusion-v1-4模型。详细操作见下文资源指路。

一、概述

遥记得2019年时曾做了一个1000+张图的轮式机器人数据集,用当时火热的WGAN(生成对抗网络GAN的一种模型)在挂载2张1080Ti的服务器上进行了一段时间的训练与推理,最后生成的效果不仅模糊,而且缝合严重。当时的主流研究方向是不断推出新的、效果更好的GAN模型,没想到3年后开启AI绘图商业化时代的并非GAN。

2022年4月DALL·E 2横空出世,效果惊艳,其核心是使用扩散模型以及CLIP模型。

简单来说,扩散模型通过加随机数逐渐增加噪声,而让模型学习如何一点点降噪,逐渐从噪声恢复出图片。在最初的算法中这个过程要迭代1000次,V100显卡大概也要几分钟才能出图,现在优化到50次了。在降噪过程中,给模型提供文本信息,模型就能按照我们想要的方向进行降噪。CLIP则是能将文本和图像关联起来的模型。

最后模型训练好了,只需要随机生成一个噪声图片,就能生成不同的图片了。所以即使输入的文本相同,最初的噪声图片不一样我们还是能够得到不同的结果。

关于DALL·E 2的论文精读可以看:DALL·E 2【论文精读】_哔哩哔哩_bilibili

不过下文提及的所有模型的原理并非都与DALL·E 2相同,效果也各有优劣。

本文主要整理并简单介绍了AI绘图工具的部署资源与攻略,项目多是使用python,通过阅读Readme即可复现,非常的新人友好。

二、AI绘图平台部署资源整理

当下AI绘图平台令人眼花缭乱,本文主要介绍可本地部署的AI绘图平台项目,其他的就一笔带过:

1、Disco Diffusion

简介:用于生成 AI 艺术和动画的笔记本、模型和技术的弗兰肯斯坦式融合(自嘲缝合怪)。

项目链接:https://github.com/alembics/disco-diffusion

运行方法:点击README.md下的Open in Colab进入谷歌远程计算资源运行

注意事项:部署在本地无额度上限,建议使用GPU资源出图较快,可只使用CPU但极慢,目前暂未实现GPU多卡并行(但已经有很多开发者在做了),使用Colab时记得不要挂一晚上,不然会显示

No CUDA GPUs are available

然后就需要等待24小时后才能获得GPU资源了。

实操效果:感觉Disco的NLP语义理解部分较表浅,无法支持图像继续迭代,画面偏缝合,但操作较为简单,适合初学者实践。生成的人脸部分效果很差。对输入描述细节的要求较高。输入需要英文描述。

​ “A digital painting of AI painting tools about to replacing human painters, trending on artstation, V-Ray.” (可以看到图像中将replacing理解为物理感官层面的替换,没有理解本义中功能代替的含义)标题


2、Stable Diffusion

简介:Stable Diffusion是一种潜在的文本到图像的扩散模型,与 Google 的 Imagen 类似,该模型使用冻结的 CLIP ViT-L/14 文本编码器来根据文本提示调整模型。 凭借其 860M UNet 和 123M 文本编码器,该模型相对轻量级,能在具有至少 10GB VRAM 的 GPU 上运行。(实际不需要这么大的显存)

项目链接:

完全开源Alpha版:https://github.com/CompVis/stable-diffusion

Alpha版模型下载:https://huggingface.co/CompVis/stable-diffusion-v1-4

新出需付费Belta版:https://beta.dreamstudio.ai/dream

运行方法:

开源Alpha版见开源Alpha版链接中的README.md,也可参考https://zhuanlan.zhihu.com/p/563875944在colab中远程运行【在Tesla T4(约等于3080)上出一张512x512的图约30s】;

付费Belta版进链接后点击左侧Dream,下方Dream即可,约有200张左右的额度;

注意事项:测试4GB显存的GPU可以生成384x384的图片,512x512的图大概需要6G左右, 1024x1024的图则需要8G+,推理速度根据显卡和图片大小不同,大概需要20-60s;

实操效果:Alpha版在colab中运行效果极好(Tesla T4),为这个项目买一块3080都能保证回本,Belta版出图快又好。Stable Diffusion拥有四种功能:由文字生成图、由选定的图加tag继续生成定向的图、优化图像人脸部分、用超分辨率算法4倍优化低分辨率的图像。可以针对不同的图像生成种类更换推理模型。文字输入需要英文描述。

Futuristic Cyberpunk Mars City,并进行img2img,并用RealESRGAN进行超分辨率计算

3、文心·一格

简介:百度的产品,文心·一格是基于文心大模型的文生图系统实现的产品化创新。

项目链接:https://yige.baidu.com/

运行方法:下一步,有手就行

注意事项:需要申请内测资格,不过审批速度非常快

实操效果:用户界面非常友好,图像下载需要一一申请,图片效果偏向抽象缝合(描述越冲突越缝合),生成的人脸部分效果很差。输入需要中文。

​ 未来的赛博朋克火星城市

4、Midjourney

简介:Midjourney是一个独立的研究实验室,探索新的思想媒介并扩大人类的想象力。作为一个小型自筹资金团队,Midjourney专注于设计、人类基础设施和人工智能,目前有 11 名全职员工和一群令人难以置信的顾问。

注意事项:需要付费,登陆速度感人。Midjourney在7月公布了收费计划,包含10刀/月和30刀/月的套餐,以及企业套餐,30刀/月的套餐最多可以生成900张图,超过需要额外付费。

5、DALL·E2

简介:如文初介绍。

注意事项:大陆地区不提供API。

6、谷歌Imagen

PPT状态

7、Parti

PPT状态

8、NUWA

PPT状态

9、Make A Scene

PPT状态

10、Tiamat

简介:Tiamat是一款模型和算法完全都是国内本土研发的人工智能绘画(AI绘画)工具,输入想要的画面关键词,等待5分钟就可以一幅不错的艺术画作。但需要申请资格。

项目链接:Tiamat - 人工智能创意灵感社区

注意事项:审批速度不快,暂未申请到资格T_T。

11、6pen.art

简介:6pen 基于AI技术,让你的文本描述变成绘画艺术作品,并可将你生成的作品投稿到有奖展览,在社区中展示,以创造更多价值。这个平台在贴吧、论坛上很火很火。

项目链接:6pen Art

注意事项:不需要审批,效果尚可(毕竟是小团队),但免费用户出一张图需要15min(目前商业模式是靠卖给会员GPU计算资源赚钱)。未来随着Stable Diffusion V1的本地化部署、在线封装越来越多,类似的网站将层出不穷,就像虚拟人(Vtuber)公司一样。

在下篇中,笔者将详细整理AI绘图平台部署攻略链接,并畅谈一些随想,譬如画师如何预防自己的出图为经允许被作为AI绘图工具的训练数据、AI绘图工具的下一步发展方向、商业应用场景等等。

你可能感兴趣的:(要点初见,人工智能,python,算法,大数据)