OpenAI新模型---DALL·E

2021年刚到来,AI界就迎来了一场开门红,1月5号OpenAI发布了两个新模型,分别叫DALL·E (据说名字跟艺术家达利有关) 和 CLIP, 其融合了图像识别和NLP,在前任GPT-3的基础上给了AI更大的能力。

DALL·E的具体训练细节OpenAI还没有给出详细介绍,目前能确定的是,DALL·E也是基于Transformer,训练时同时用了海量的文本和图像。

未来的AI如果想更接近人类智慧,应该需要不光能看懂文字,理解文字(NLP的领域),也需要理解图片(CV领域),声音,外界环境等,毕竟我们人类生活在一个立体的世界,这也是这两年越来越多提到多模态学习的原因,这一次OpenAI在此方向上的尝试,开了一个好头。


鳄梨形状的扶手椅,from OpenAI


这个拥有120亿参数的庞然大物能做什么呢?它可以接收一段文本并生成与之匹配的图像,比如上图,告诉它鳄梨形状的扶手椅,它就会生成这么多对应的图片,着实令人震惊。根据官网描述,接收到输入的文本,DALL·E 可以生成很多图片,随后第二个模型CLIP会对这些图片根据其跟文本的匹配程度排序。这样的能力可能会改变今后设计师的工作,大大提高他们的工作效率。

也有很多人会怀疑,因为DALL·E 在训练时看了那么多文字和图片,会不会这些图片就是它记下来的,并不是理解了文本后的创造。为了证明这一点,OpenAI给出了下面例子,作者给DALL·E 这样的文本提示:“长颈鹿和海龟的专业高质量插图。” 

于是得到下面的结果:


from OpenAI


给它这样的提示:“由竖琴制成的蜗牛”, 得到下面结果:


from OpenAI


按理说,训练模型时,不可能有这么多奇怪的图片存在,这也更让人对DALL·E 的能力印象深刻。

根据官网,DALL·E还能做一些zero-shot视觉推理和简单的视觉IQ测试 ,如下图:


zero-shot视觉推理,告诉它“顶部的猫一样,地下是素描”


模型必须按照规律来完成网格的右下角。


由于安全考虑,OpenAI暂时不太会发布模型供人们测试。虽然DALL·E已经很强大,但就像GPT-3一样,找办法愚弄它让它出丑也不难,期待未来能看到更多关于DALL·E细节的东西。

你可能感兴趣的:(OpenAI新模型---DALL·E)