人工智能2021年度回顾:多模态、大模型、Transformer架构、AI语音生成以及法律监管

2021年年终回顾

在过去的一年里,全球都在与极端天气、经济通胀、供应链中断以及 Covid-19 的达尔文诡计作斗争。 在科技领域,又是虚拟办公室和虚拟会议的一年。 AI 社区正在继续努力弥合着这个世界,并推进机器学习以更多的能力来造福社会各个角落。 我们已经在万圣节特刊中探讨了 2021 年的重要事件,所以本期杂志里,我们主要介绍有望在 2022 年及以后改变人工智能的重要进展。 

多模态人工智能的腾飞

虽然 GPT-3 和 EfficientNet 等分别处理文本和图像的模型是深度学习获得引人注目成功的原因之一,但发现文本和图像之间关系的方法取得了令人印象深刻的进步。

发生了什么:OpenAI 通过 CLIP(匹配图像和文本)和 Dall·E(生成与输入文本对应的图像)开启了多模态学习的重要一年; DeepMind 的 Perceiver IO 对文本、图像、视频和点云进行分类;斯坦福大学的 ConVIRT 为医学 X 射线图像添加了文本标签。

推动事件:虽然最新的多模态系统大多是实验性的,但一些实际应用却取得了突破。

开源社区将 CLIP 与生成对抗网络相结合,制作出引人注目的数字艺术作品。艺术家 Martin O’Leary 使用 Samuel Coleridge 的史诗“忽必烈可汗”作为输入,生成了迷幻滚动视频解释“Sinuous Rills”。

Facebook 表示,它的多模态仇恨言论检测器标记了它从社交网络中删除的 97% 的辱骂和有害内容。该系统根据包括文本、图像和视频在内的 10 种数据类型将模因和其他图像-文本配对分类为良性或有害。

谷歌表示将为其搜索引擎添加多模态(和多语言)功能。它的多任务统一模型返回文本、音频、图像和视频的链接,以响应 75 种语言中的任何一种的查询。

新闻背后:今年的多模态联合势头建立在数十年的研究基础上。 1989 年,约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员开发了一种系统,可以根据人们说话的音频和视觉数据对元音进行分类。在接下来的二十年里,各种团体尝试了多模态应用,例如索引数字视频库和基于视听数据对人类情感进行分类。

现状:图像和文本是如此复杂,以至于在过去,研究人员都忙于专注于其中一个。在这样做的过程中,他们开发了非常不同的技术。然而,在过去十年中,计算机视觉和自然语言处理已经融合到神经网络上,为融合这两种模式的统一模型打开了大门,寻找也集成音频的模型。

数以万亿计的参数

模型越来越大的趋势跨越了从巨大到巨大的门槛。

发生了什么:谷歌以 Switch Transformer 拉开了 2021 年的序幕,这是第一个超过万亿参数的已发表工作,达 1.6 万亿。北京智源人工智能研究院训练了1.75 万亿参数的庞然大物--悟道 2.0,打破了这一纪录。

推动事件:模型参数计数中的零数量没有什么神奇之处。但随着处理能力和数据源的增长,深度学习中曾经的一种趋势已经成为一个原则:越大越好。资金充足的人工智能公司正以狂热的速度堆积参数——既要提高性能,又要锻炼肌肉——尤其是在语言模型方面,互联网为无监督和半监督的预训练提供了大量未标记的数据。 2018 年以来,参数计数游行已经通过 BERT(1.1 亿)、GPT-2(15 亿)、MegatronLM(83 亿)、Turing-NLG(170 亿)和 GPT-3(1750 亿)到最新巨人。

是的,但是:构建越来越大的模型的努力带来了自己的挑战。庞大模型的开发人员必须克服四个巨大的障碍。

数据:大型模型需要大量数据,但网络和数字图书馆等大型来源可能缺乏高质量数据。例如,研究人员发现 BookCorpus 是一个包含 11,000 本电子书的集合,已被用于训练 30 多个大型语言模型。 AI 社区越来越意识到数据质量至关重要,但尚未就编译大规模、高质量数据集的有效方法达成共识。

速度:今天的硬件难以处理庞大的模型,当位反复进出内存时,这些模型可能会陷入困境。为了减少延迟,Switch Transformer 背后的 Google 团队开发了一种方法,可以为每个符号处理模型层的选定子集。他们最好的模型的预测速度比参数数量只有其 1/30 的模型快 66%。同时,微软开发了 DeepSpeed 库,它并行处理数据、单个层和层组,并通过在 CPU 和 GPU 之间划分任务来减少冗余处理。

能源:训练如此庞大的网络会消耗大量的电能。 2019 年的一项研究发现,使用化石燃料,在 8 个 Nvidia P100 GPU 上训练一个 2 亿参数的变换器模型,在五年的驾驶过程中排放的二氧化碳几乎与一辆普通汽车一样多。新一代有望加速人工智能的芯片,如 Cerebras 的 WSE-2 和谷歌最新的 TPU,可能有助于减少排放,同时风能、太阳能和其他清洁能源增加以满足需求。

交付:这些庞大的模型太大而无法在消费者或边缘设备上运行,因此大规模部署它们需要互联网访问(较慢)或精简实施(能力较弱)。

现状:自然语言建模排行榜仍然由参数数量高达数千亿的模型主导——部分原因是处理超过万亿的参数很困难。毫无疑问,他们的万亿富翁的继任者将在适当的时候取代他们。而且看不到尽头:有传言称,OpenAI 即将推出的 GPT-3 继任者将包含一个服务器融合的100 万亿参数。

为无声者发声

音乐家和电影制作人采用人工智能作为音频制作工具箱的标准部分。

发生了什么:专业媒体制造商采用了神经网络,可以产生新的声音并修改旧的声音,这使得配音演员怒火中烧。

推动事件:生成模型可以从现有录音中学习,以创建令人信服的复制品。一些制作人使用该技术生成原始声音,一些制作人模仿现有声音。您可以通过以下链接收听他们的作品。

美国初创公司 Modulate 使用生成对抗网络实时合成人类说话者的新声音。它使游戏玩家和语音聊天者能够居住在一个虚构的角色中,而跨性别者已经用它来调整他们的声音,使其更接近于他们的性别身份。

Sonantic 是一家专门从事合成声音的初创公司,它为演员 Val Kilmer 创造了一种新的声音,他在 2015 年因喉咙手术失去了大部分的声乐能力。该公司根据 Top Gun 明星工作中的音频训练其模型。

电影制片人摩根·内维尔聘请了一家软件公司,为他的纪录片《路行者:一部关于安东尼·布尔登的电影》重新创作已故旅游节目主持人安东尼·布尔登的声音。此举引起了布尔丹的遗孀的愤怒,她说她没有得到她的许可。

是的,但是:Bourdain 的遗孀并不是唯一一个对 AI 模仿已故表演者的能力感到不安的人。配音演员表示担心这项技术会威胁到他们的生计;他们对 2015 年电子游戏《巫师 3:狂猎》的粉丝构建修改感到不安,其中包括原始演员的克隆声音。

新闻背后:最近生成音频的主流化遵循了早期的研究里程碑。

Open AI 的 Jukebox 在 120 万首歌曲的数据库上进行了训练,它采用自动编码器、转换器和解码器的管道来制作完全实现的录音(由公司的工程师共同编写的歌词),风格从猫王到阿姆。

2019 年,一位匿名 AI 开发人员设计了一种技术,允许用户在短短 15 秒内从文本行中克隆动画和视频游戏角色的声音。

现状:生成音频 - 更不用说视频 - 模型使媒体制作人不仅能够增强档案录音,而且能够从头开始创建新的、声音相似的录音。但道德和法律问题正在增加。当AI代替声优时,他们应该如何得到补偿?谁有权将死者的克隆声音商业化?全新的、由 AI 生成的 Nirvana 专辑有市场吗?应该有吗?

一种架构来完成所有任务

Transformer架构将其影响范围扩展到各种新领域。

发生了什么:Transformers 最初是为自然语言处理而开发的,现在正在成为深度学习的瑞士军刀。 2021 年,他们被用来发现药物、识别语音和绘画——等等。

推动事件:变换器已经证明擅长视觉任务、预测地震以及分类和生成蛋白质。在过去的一年里,研究人员将它们推向了广阔的新领域。

TransGAN 是一个生成对抗网络,它结合了转换器以确保每个生成的像素与其之前生成的像素一致。这项工作在测量生成的图像与训练数据的相似程度方面取得了最先进的结果。

Facebook 的 TimeSformer 使用该架构来识别视频剪辑中的动作。它不是文本中通常的单词序列,而是解释视频帧的序列。它的性能优于卷积神经网络,可以在更短的时间内分析更长的剪辑,并使用更少的功率。

Facebook、谷歌和加州大学伯克利分校的研究人员在文本上训练了 GPT-2,然后冻结了它的自注意力和前馈层。他们能够针对各种领域进行微调,包括数学、逻辑问题和计算机视觉。

DeepMind 发布了 AlphaFold 2 的开源版本,它使用转换器根据氨基酸序列找到蛋白质的 3D 形状。该模型激发了医学界的兴趣,因为它具有推动药物发现和揭示生物学见解的潜力。

新闻背后:Transformer 于 2017 年首次亮相,并迅速改变了语言建模。它的自注意力机制跟踪序列中的每个元素与其他每个元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。基于转换器的大型语言模型已成为新兴基础模型品种的示例——在大型未标记语料库上预训练的模型,可以在有限数量的标记示例上针对特定任务进行微调。转换器在各种领域都能很好地工作的事实可能预示着超越语言的基于转换器的基础模型。

现状:深度学习的历史已经见证了一些迅速普及的想法:ReLU 激活函数、Adam 优化器、注意力机制和现在的转换器。过去一年的发展表明,这种架构仍在发挥作用。

政府制定法律

世界各地的立法者制定了新的法律——一些是提议的,一些是颁布的——以控制自动化的社会影响。

发生了什么:随着人工智能对隐私、公平、安全和国际竞争的潜在影响变得越来越明显,各级当局加大了监管压力。

推动事件:与人工智能相关的法律往往反映世界不同政治秩序的价值观,有利于社会公平与个人自由的某种平衡。

  • 欧盟起草了根据风险类别禁止或限制机器学习应用的规则。实时面部识别和社会信用系统将被禁止。控制重要基础设施、协助执法和基于生物识别技术识别人员的系统需要提供详细的文件、证明其安全并接受持续的人工监督。规则草案于 4 月发布,必须经过立法程序,包括修正案,并且可能至少在 12 个月内不会实施。
  • 从明年开始,中国互联网管理机构对可能破坏社会秩序的人工智能系统,比如推荐算法等将加强法律监管,范围包括传播虚假信息、促进成瘾行为和危害国家安全的人工智能系统。公司在部署可能影响公众情绪的算法之前必须获得批准,而那些违反规则的公司将面临禁令。
  • 美国政府提出了一项人工智能权利法案,以保护公民免受侵犯隐私和公民权利的系统的侵害。政府将在 1 月 15 日之前收集对该提案的公众意见。在联邦级别以下,美国一些城市和州限制了人脸识别系统,纽约市通过了一项法律,要求对招聘算法进行偏见审计。
  • 联合国民权高级专员呼吁成员国暂停人工智能的某些用途,包括侵犯个人隐私等。

新闻背后:人工智能社区可能正在就监管达成共识。最近对 534 名机器学习研究人员进行的一项调查发现,68% 的人认为部署应该更加重视可信度和可靠性。受访者对欧盟或联合国等国际机构的信任度普遍高于对国家政府的信任度。


现状:中国以外,大多数与人工智能相关的法规正在等待批准。但是,目前的迹象表明,人工智能从业者必须使他们的工作能适应未来的各种国家制度。

你可能感兴趣的:(神经网络模型,自然语言处理,深度学习,transformer,人工智能,nlp)