AI-多模态-2021:DALL-E模型【文本生成图像工具】【OpenAI】

Dall-e:从拟物文字到图片的创造

人类不断地从五种感官接收和整合信息,通过视觉、听觉、触觉、嗅觉和味觉等生物信息来理解文字和图片。然而文字和图片属于符号,Dall-e模型在理解符号的含义时并不能通过生物信息的传递。通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E有力地展示了多模态AI的潜力。

DALL-E生成的图像未曾存在于世界上或任何人的想象中。它们不是对互联网上现有图像进行操作的结果——它们是新颖的效果图,有时因其聪明和独创性而令人惊叹。这些图像是DALL-E的人类创造者在很多情况下没有预料到的,也不可能预料到的。

功能一,创造拟人的器具

它不仅能够准确执行,而且能进行创造,举个例子(其结果的默认排序是越靠前越接近文本描述):

AI-多模态-2021:DALL-E模型【文本生成图像工具】【OpenAI】_第1张图片

功能二,Dall-E能够很聪明地捕捉到每个事物的特性,并且合理地组织在了一起。

比如,“一个用长得像奇美拉的乌龟做的长颈鹿”

AI-多模态-2021:DALL-E模型【文本生成图像工具】【OpenAI】_第2张图片

功能三,根据文本自动渲染真实场景图片,其仿真程度与真实照片十分接近。

举例,“一个写着open ai的广告牌”

你可能感兴趣的:(AI多模态,人工智能)