作者:Ben Dickson
译者:青苹果
因为DALL-E 2,OpenAI最近再次占领新闻头版。
这种ML模型,可以从文本描述生成令人惊叹的图像。DALL-E 2是以其前身DALL-E的成功为基础,并得益于先进的深度学习技术,极大提高了输出图像的质量和分辨率。
在DALL-E 2发布的同时,OpenAI的工程师和首席执行官 Sam Altman 也在社交媒体上发起了一场活动,他在Twitter上分享了由生成机器学习模型创建的精彩照片。
当然,DALL-E 2也揭示了AI研究社区在利用深度学习的力量和解决其局限性等方面所取得的进展。除此之外,它还提供了生成式深度学习模型供个人使用的一些展望,比如如何最实现新的创意应用程序等。
但与此同时,它的问世也提醒着我们,AI研究中仍存留着一些障碍和亟待解决的争议。
DALL-E 2的惊人之处
DALL-E 2已经发布了详细的论文和交互式博客文章,详尽展示了ML模型的工作原理。另外,还附加了概述该技术功能和局限性的视频讲解。
根据这些内容我们都能知道,DALL-E 2不仅是一种“生成模型”,它可以创建复杂的输出,而不是对输入数据执行预测或分类任务。简单来说,只要你为DALL-E 2提供了一段文本描述,那么它便会直接生成符合该描述的图像。
毋庸置疑,生成模型作为热门的研究领域,随着2014年生成式对抗网络(GAN, Generative Adversarial Networks)而备受关注。近年来,该领域取得了巨大的进步,而且目前生成模型已广泛流行于各种各样的任务,包括人脸生成、换脸技术、声音合成等。
然而,DALL-E 2与其他生成模型的不同之处在于,它可以在创建的图像中保持语义的一致性。
例如,以下图片(源自DALL-E 2博客文章)是由描述“宇航员骑马”生成的。其中一份描述以“铅笔画”结尾,另一份以“写实风格”收官。
该模型在绘制坐在马背上的宇航员时,将其手放在前面,保持了一致性。当然,这种一致性也在OpenAI分享的大多数例子中有所体现。
以下示例(也来自OpenAI的网站)展示了DALL-E 2的另一个特性,即生成输入图像的变体。这里,你不是向DALL-E 2提供带有文本描述,而是提供图像,它会尝试生成相同图像的其他形式。而且,DALL-E可以做到保持图片中各个元素之间的关系,包括女孩,笔记本电脑,耳机,猫,背景中的城市灯光以及挂有月亮和云彩的夜空。
其他例子也有力地表明,DALL-E 2似乎能够理解深度和维度的概念,这对于处理2D图像的算法而言,无疑是个巨大的挑战。
即使OpenAI网站的例子是精心挑选的,它们也令人印象深刻。Twitter上分享的例子显示,DALL-E 2似乎已经找到了一种方法来表示和再现图像中出现的元素之间的关系
DALL-E 2背后的学问
DALL-E 2利用了对比学习图像预训练(CLIP, Contrastive Learning-Image Pre-training)和扩散(diffusion)模型,这是过去几年创建的两种先进的深度学习技术。但究其核心,它与所有其他深度神经网络具有相同的概念:表示学习。
考虑一个图像分类模型。神经网络将像素颜色转换成一组表示其特征的数字。此向量有时也被称为输入的“嵌入”。然后将这些特征映射到输出层,该层包含模型应检测的每类图像的概率分数。在训练期间,神经网络会试图学习区分类的最佳特征表示。
理想情况下,ML模型应该能够学习在不同光照条件、角度和背景环境下保持一致的潜在特征。
但正如我们经常看到的那样,深度学习模型经常学习错误的表征。例如,神经网络可能认为绿色像素是“绵羊”类的特征,因为它在训练中看到的所有绵养的图像都包含大量的青草。另一个以夜间拍摄的蝙蝠照片为训练数据的模型,可能会认为黑暗才是所有蝙蝠照片的重要特征,并对白天拍摄的蝙蝠照片产生错误分类。其他模型可能会对位于图像中心并放置在某种类型背景前面的对象变得敏感。
学习错误的表征是神经网络脆弱、对环境变化敏感,并且在训练数据之外泛化能力差的部分原因。这也是为什么针对一个应用程序训练的神经网络需要针对其他应用程序进行微调的原因——神经网络的最后层通常具有高度特定于某些任务的特征,而导致无法推广到其他应用程序。
理论上,你可以创建一个规模庞大的训练数据集,其中包含神经网络应该能够处理的各种数据变体。但是创建和标记这样的数据集需要大量的人力资源,而且几乎是不可能实现的。
这就是CLIP所要解决的问题。CLIP在图像及其标题上并行训练两个神经网络。具体来说,其中一个网络学习图像中的视觉表征,另一个学习相应地文本表征。在训练期间,两个网络尝试不断调整其参数,以便于相似的图像和描述能够产生相似的嵌入。
CLIP的主要优势之一是,它不需要为特定应用程序标记其训练数据。它可以在网络中海量的图像和松散的描述中进行训练。
此外,没有了经典类别的严格边界,CLIP可以学习更灵活的表示,并将其推广到各种各样的任务之中。例如,如果一幅图片被描述为“一个男孩抱着一只小狗”,而另一幅图片被描述为“一个男孩骑着一匹小马”,那么模型将能够更准确地诠释出“男孩”是什么,以及它与图像中其他元素的关系。
CLIP已被证明对于零样本学习(zero-shot learning)和少样本学习(few-shot learning)非常有用,其中一种ML模型可以当场演示,执行其从未接受过训练的任务。
在DALL-E 2中使用的另一种ML技术是“扩散”,这是一种生成模型,通过逐渐对训练示例加噪和去噪来学习创建图像。扩散模型类似于自动编码器,可以将输入数据转换为嵌入表示,然后从嵌入信息中再现原始数据。
DALL-E首先在图像和标题上训练CLIP模型,然后使用CLIP模型训练扩散模型。基本上,扩散模型使用CLIP模型为文本提示及其相应的图像生成嵌入,随后再尝试生成与文本对应的图像。
争议所在
目前,DALL-E 2仅对已注册候补名单的有限数量用户开放。自GPT-2发布以来,OpenAI一直不愿向公众发布其AI模型。可以说,GPT-3是其最前沿的语言模型,但其局限却始终未能打破,只能通过API接口使用,无法访问模型的实际代码和参数。
OpenAI不向公众发布模型的政策并未得到AI社区的好评,甚至还引发了该领域一些知名人士的批评。
下图便是特斯拉AI总监Andrej Karpathy 的调侃:AI API的调用已经从可以在你的电脑运行变成了你需要在推特上让作者帮你运行。
与此同时,DALL-E 2长期以来对通用人工智能(AGI, Artificial General Intelligence)首选方法的分歧也浮出水面。
OpenAI的最新创新无疑已经证明,通过正确的架构和归纳偏见,你仍然可以从神经网络中挤出更多的知识。
纯深度学习方法的支持者抓住这个机会,以对其批评者投向了轻视的目光,包括认知科学家Gary Marcus最近发表的一篇题为 Deep Learning is Hitting a Wall的文章。Marcus支持一种将神经网络与符号系统结合起来的混合方法。
根据OpenAI团队分享的示例,DALL-E 2似乎展示了深度学习系统中长期以来一直缺失的某种常识能力。但这一常识和语义稳定性的深度,以及DALL-E 2及其后继版本将如何处理更复杂的概念,如组合性,仍有待观察。
DALL-E 2论文提到了该模型在生成文本和复杂场景方面的一些局限性。在回应推文时,Marcus曾指出,DALL-E 2论文实际上证明了他在论文和论文中提出的一些观点。
一些科学家指出,尽管DALL-E 2的结果令人着迷,但AI的一些关键挑战仍未解决。
圣达菲研究所(the Santa Fe Institute)复杂性研究教授、《人工智能:人类思考的指南》(Artificial Intelligence: A Guide For Thinking Humans)一书的作者梅拉妮·米歇尔(Melanie Mitchell)在Twitter上列出了一些重要问题。
其中,Mitchell提到了邦加德问题(Bongard problems),这是一组对概念理解的测试挑战,如同一性、邻接性、数量性、凹凸性和封闭性/开放性等等。
Mitchell在推特上写道:“由于我们拥有基本概念的核心知识,以及灵活抽象和类比的能力,人类是能够解决这些视觉难题的。”“如果创建出这样一个AI系统,我会相信该领域正在朝着人类智能水平的方向取得真正的进展。在那之前,我会由衷敬佩ML和大数据的这些令人震撼的产品,而不会将其再误认为是向通用智能的迈进。”
DALL-E 2的商业案例
OpenAI从非营利转向“有限盈利”(capped profit)结构以来,一直在努力寻找科研和产品开发之间的平衡点。该公司与微软的战略合作伙伴关系为其部分技术的变现,包括GPT-3和Codex在内,提供了坚实的渠道。
在一篇博客文章中,Altman建议在夏季推出DALL-E 2产品。许多分析师已经在为DALL-E 2应用提出了建议,比如为文章创建图形和对图像进行基本编辑。DALL-E 2将使更多的人能够表达自己的创造力,而无需再借助工具的特殊技能。
Altman表示,AI的进步正把我们带向“一个崭新的世界,在这个世界里,我们做事的极限取决于创意点,而非特定的技能。”
随着越来越多的用户对DALL-E进行改进升级,相信一批有趣的应用程序也会不断的涌现出来。例如,当用户开始使用GPT-3生成软件源代码时,Copilot和Codex的想法便会应运而生。
如果OpenAI像GPT-3那样发布付费API服务,那么更多地人将会选择用DALL-E 2构建应用程序,或者将该技术集成到现有的应用程序中。但与GPT-3的情况一样,围绕潜在的DALL-E 2产品建立商业模型将会形成独特的挑战。这在很大程度上取决于训练和运行DALL-E 2的成本,具体细节尚未公布。
而且,作为GPT-3技术的独家许可持有者,微软将成为基于DALL-E 2构建创新的主要赢家。原因在于,它可以用更高效且低成本的方式完成这项工作。
与GPT-3一样,DALL-E 2也在给人们敲响了警钟,随着AI社区继续倾向于在更大的训练数据集上创建更大规模的神经网络,那么不可避免地,话语权将继续被少数的资金雄厚的公司所掌控,毕竟这些公司拥有AI研究所需的财政和技术资源。