大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第1张图片作者 | 耳洞打三金

大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片!

效果如下所示:

文本提示:一只X射线的猫头鹰:

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第2张图片

这效果真是绝了!三金我又忍不住把它仅根据文字提示就生成的图像翻了一翻。

文本提示:一只X射线的河豚。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第3张图片

文本提示:一只黏土做的狐狸。

AI生成的图像:

文本提示:一只金毛在镜子面前凝视着自己。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第4张图片

文本提示:大卫在镜子面前凝视着自己。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第5张图片

文本提示:俄罗斯娃娃蜗牛。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第6张图片

文本提示:长颈鹿猫头鹰。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第7张图片

文本提示:长颈鹿猛犸象。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第8张图片

文本提示:孔雀橡皮。

AI生成的图像:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第9张图片

更多AI生成图像示例请移步查看 “OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力”  一文。

相信大家都肯定想亲自动手玩一下,比如很多人都想让AI生成一下“五彩斑斓的黑”

可惜啊可惜,OpenAI并不会开放源代码,这个是可以理解的,就算真得开源了我们能跑的起来吗

OpenAI也没开放API,不过哪怕开放API,估计也是排不上队,毕竟GPT-3的API,我到现在都没有申请上

DALL-E的论文目前也还没有公开,只知道也用到了Transformer模型。

想到这里,三金我真的是我心伤悲啊,毕竟没法亲自实现一些自己想要AI生成的图了,比如让它生成一副清明上河图,我看它能厉害到哪里去

伤悲之后,三金我只好继续在上班期间摸鱼划水刷推特......

哇哦(⊙o⊙)!刷着刷着你猜我在推特上看到了什么?

我看到了一只AI生成的“戴着眼镜在咖啡商店里读书的大羊驼”:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第10张图片

呃(⊙o⊙)…这生成的质量肯定没法和财大气粗的DALL.E相比,不过我们这一次却是有机会可以亲自动手尝试啦!

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第11张图片

因为上图是推特上的网友利用AI艺术家Adverb分享的Colab notebook上面的代码跑出来的。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第12张图片

Adverb表示这项使用SIREN和CLIP体系架构和模型从文本生成图像的工作是在Alexander 的“Deep Dream”影响下,使用OpenAI开源的的CLIP模型将SIREN函数学习到的图像与给定的文本描述进行合适的匹配。该工作可以作为一个很好的出发点,为这个方向做一点小启发。

CLIP就是OpenAI在DALL.E之外同时推出的另一个AI模型,CLIP能够将图像映射到文本描述的类别中。

CLIP模型架构:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第13张图片

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第14张图片

关于CLIP的介绍请移步“OpenAI推出CLIP:连接文本与图像,Cover所有视觉分类任务”一文。

在这里的SIREN函数则是指斯坦福大学的一篇有关周期激活函数的隐式神经表示的论文:《Implicit Neural Representations with Periodic Activation Functions》

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第15张图片

论文链接:https://arxiv.org/pdf/2006.09661.pdf

关于这篇论文的更多信息可以查看AI科技评论之前报道过的 “Relu激活函数Out了?正弦周期激活函数在隐式神经表示中大显神威! ”一文。

开源代码是在Colab notebook上面,这意味着大家可以直接在网页端跑代码!

而且不用手动配置环境!不用手动配置环境!不用手动配置环境!

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第16张图片

传送门:https://colab.research.google.com/drive/1FoHdqoqKntliaQKnMoNs3yn5EALqWtvP?usp=sharing 

我们首先来看一下AI开发者Deyan利用上面这个模型代码(32层的网络)生成上面大羊驼(三金我特意查了一下,发现大羊驼和“草泥马”很像,但是是不同的科种)的过程吧:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第17张图片

AI模型150次迭代后的初始草图:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第18张图片

之后随着迭代的不断进行,可以清晰地看到图像背景细节的添加,如在第300步可以看到商店的摆设隐约出现,且在大羊驼的右下方隐约出现了咖啡杯:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第19张图片

在训练的第750步,在大羊驼的右下方咖啡杯完全出现了:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第20张图片

迭代了2100次后,AI完成了一些锐化背景的工作,但是我们不确定它是在看一本书还是爆米花:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第21张图片

经过10000次的迭代之后,模型已经饱和了,Deyan表示也许快速迭代第一个草图可能是个好策略。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第22张图片

之后Deyan同样用了32层的网络、以及用RTX 3090显卡训练AI生成“由瑞士奶酪和樱桃制成的摩天大楼。” 

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第23张图片

初始生成图:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第24张图片

经过40万次的迭代后生成图:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第25张图片

这个效果确实让人难以恭维啊,勉强能看吧

以下还有AI艺术家Adverb以及AI开发者Deyan等人生成的更多图像的成功或失败的样例。

太阳落山前的白杨树:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第26张图片

下面这是?骑着滑板的林肯? 还是拿着电锯的林肯???

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第27张图片

企鹅在镜子前观看自己(一):

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第28张图片

企鹅在镜子前观看自己(二):

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第29张图片

企鹅在镜子前观看自己(三):这会让人做噩梦。。。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第30张图片

立体马里奥:这个,立体是立体,但是很扭曲啊。。。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第31张图片

拿着兔宝宝的猫王照片:

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第32张图片

上帝的脸(一):这上帝可真吓人,这是魔鬼吧

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第33张图片

上帝的脸(二):

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第34张图片

匿名动画人:(好家伙,这不止匿名了,脸也匿了起来)

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第35张图片

Adverb还试图结合GAN生成一只白色金鱼,不过这好像太简单了,金鱼早就被给出了。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第36张图片

Adverb还表示道他想要生成“悟空”,但结果却生成一只狗子。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第37张图片

他对这只“狗子”非常失望,认为它阻塞了神经网络通道。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第38张图片

Adverb说道他尚未在其他任何提示上进行测试,但是受CLIP指导下的BigGAN神经网络模型可以为新世纪福音战士的Asuka制作一些有趣的图像。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第39张图片

之后,三金我还发现了AI艺术家Matio把StyleGAN2模型和CLIP模型的生成图做了对比,左图是StyleGAN2生成的绿头发的悲伤男人,右图是戴着太阳镜的红头发女人。

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第40张图片

抛开DALLE.E不谈,上面的这些生成质量到底如何呢?

还请大家自己评价~~~

最后,关于文本生成图像的过往研究大家可以查看Paperwithcode上面列出的各项数据集上面的Benchmarks。 

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第41张图片

大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!_第42张图片

传送门:https://paperswithcode.com/task/text-to-image-generation

 

参考链接:

https://twitter.com/quasimondo/status/1347956102898606081

https://twitter.com/advadnoun

https://twitter.com/quasimondo

https://twitter.com/dginev/status/1348822689499275265

你可能感兴趣的:(神经网络,人工智能,计算机视觉,深度学习,自然语言处理)