文本一键生成图像?OpenAI新模型打破自然语言与视觉次元壁

文本一键生成图像?OpenAI新模型打破自然语言与视觉次元壁_第1张图片

OpenAI又引燃AI社区!今天,其博客宣布,推出了两个结合计算机视觉和NLP结合的多模态模型:DALL-E和CLIP,它们可以通过文本,直接生成对应图像,堪称图像版「GPT-3」。

2021年新年伊始,OpenAI与1月5日宣布成功地训练了一个能从文字描述生成图像的神经网络。为向Wall-E致敬,OpenAI将这个神经网络命名为DALL-E,我们姑且叫他多莉。

多莉是一个基于GPT-3的神经网络。 它有120亿个参数,仅是GPT-3模型参数的十五分之一。多莉被训练成专门用于根据文字提示生成图片。

Dall-e:我会画画啦

视频:pypyai/com 出品

多莉使用一个专门的文字描述与图片对应的数据集,相对而言,GPT-3的数据集则要庞大得多。多莉还具有相当丰富的地理知识,他能回答诸如关于国旗、具有鲜明地理特征的野生动物、地方特色食品、地标性建筑等很多问题。令人惊奇的是多莉还显示出对三维空间可透视的理解力, 比如通过指定多个连续的视角甚至还可以生成动画。

下图就是它为同一只(不存在的)猫画多幅草图:

文本一键生成图像?OpenAI新模型打破自然语言与视觉次元壁_第2张图片

目前OpenAI并未披露多莉工作方式的细节,以及多莉是如何训练的。他们会继续发表论文解释多莉的工作原理。让我们拭目以待。但,这是美术设计师即将失业的节奏吗?

原文链接:https://openai.com/blog/dall-e/

你可能感兴趣的:(AI观察家,神经网络,自然语言处理)