人工智能作画

        在近年来的 AI 领域,随着 NLP 和 CV 的日益融合,多模态学习越来越受到学界和业界的重视,其中文本生成图像更是成为现象级研究方向。输入一段语言描述,AI 即能输出对应的图像,兼具速度与质量。

        在这股以文生图风潮中,AI 底蕴深厚的国外大厂纷纷推出多模态文生图模型,比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。这些 AI 模型生成的图像都给人留下了深刻的印象,在逼真度、趣味性、风格等方面各有特点。

人工智能作画_第1张图片

        国内 AI 巨头在中文多模态特别是文生图这一赛道也颇有建树,尤以百度基于知识增强的文心跨模态大模型语义理解技术为代表,其中的跨模态生成大模型 ERNIE-ViLG 可以根据用户输入的语言描述自动创作不同风格(水彩、粉笔画、卡通、油画、蜡笔画、儿童画)的图像。前段时间,百度数字人度晓晓更是创作出了引发热议的「无界」系列画作,被专业美院教授评价为「已经达到了本科美术生的基本要求」。

文心 · 一格

人工智能作画_第2张图片

 Latent Diffusion

开源地址1:https://github.com/CompVis/stable-diffusion
开源地址2:https://github.com/CompVis/latent-diffusion

人工智能作画_第3张图片

 

PI-REC

开源项目:https://github.com/youyuge34/PI-REC#jump_zh

人工智能作画_第4张图片

 

Disco Diffusion

开源地址:https://github.com/alembics/disco-diffusion

 

DALLE

开源地址1:https://github.com/lucidrains/DALLE2-pytorch
开源地址2:https://github.com/openai/DALL-E
开源地址3:https://github.com/borisdayma/dalle-mini

 

你可能感兴趣的:(深度学习,机器学习,人工智能)