作者:@KYLE_L_WIGGERS
编译:徐九
原文链接:https://venturebeat.com/2020/...
2019 年 7 月,微软宣布对总部位于旧金山的人工智能非营利组织 OpenAI 投资 10 亿美元,将与 OpenAI 长期合作构建新的 Azure AI 超级计算技术,进一步扩展大规模 AI 能力,兑现其通用人工智能(AGI)的承诺。
作为交换,OpenAI 同意将其部分知识产权授权给微软,微软随后将把这些知识产权商业化并出售给合作伙伴,并在 OpenAI 开发下一代计算硬件的过程中,在 Azure 上训练运行 AI 模型。
几个月后的微软 Build 2020开发者大会上,双方合作的第一个成果被揭晓,是一台专为 OpenAI 的 AI 模型而设计的超级计算机。
OpenAI 的最大赌注 —— AGI
微软宣称它是世界上排名前五的超级计算机。根据最新的排名,它的性能仅次于中国国家超级计算机中心的天河 - 2A,这意味着它在峰值时可以执行每秒 38.7 - 100.7 万亿次浮点运算(即 petaflops)。
长期以来,OpenAI 一直断言,巨大的计算能力是通往通用人工智能(AGI),或者说能够学习人类所能完成的任何任务的 AI 的必经之路。虽然像 Mila 创始人 Yoshua Bengio 和 Facebook 副总裁、首席人工智能科学家 Yann LeCun 等知名人士认为 AGI 不可能存在,但 OpenAI 的联合创始人和支持者 -- 其中包括 Greg Brockman、首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和前 Y Combinator 总裁 Sam Altman 都相信强大的计算机与强化学习等技术相结合,可以实现改变范式的人工智能进步。
这台超级计算机的亮相代表了 OpenAI 对这一愿景的最大赌注。
大型模型的好处
这款由 Azure 托管、OpenAI-co 设计的新机器包含了超过 28.5 万个处理器内核、1 万块显卡,每个显卡服务器的连接速度为每秒 400 Gbps。它是为了训练单个海量 AI 模型而设计的,这些模型是通过摄取自出版的书籍、说明书、历史课、人力资源指南和其他公开资料中的数十亿页的文本来学习。
其中的资料包括 Nvidia 公司的自然语言处理(NLP)模型,该模型包含 83 亿个参数,或者说是模型内部的可配置变量,这些变量的值被用来进行预测;微软的图灵 NLG(170亿个参数),它在一些语言基准上取得了最先进的结果;Facebook 最近开源的 Blender 聊天机器人框架(94 亿个参数);以及 OpenAI 自己的 GPT-2 模型(15 亿个参数),它在给出简短的提示后,生成的文本令人印象深刻。
"随着我们越来越了解到我们需要什么,以及组成超级计算机的所有组件的不同极限,我们真的能够说,'如果我们能设计出我们梦想中的系统,它会是什么样子的?" OpenAI CEO Sam Altman 在一份声明中说。"然后微软就能够构建它了。我们看到,更大规模的系统是训练更强大的模型的重要组成部分。"
研究表明,这些大型模型表现出色,因为它们能够深入吸收语言、语法、知识、概念和上下文的细微差别,使它们能够总结演讲、在游戏直播聊天中节制内容、解析复杂的法律文档,甚至从 GitHub 上搜刮代码生成代码。微软已经使用其图灵模型 -- 这些模型很快就会以开源的形式提供 -- 来增强 Bing、Office、Dynamics 及其他生产力产品的语言理解能力。微软称,在 Bing 中,这些模型在某些市场上提高了标题生成和问题回答的效率,最高可达 125%。在 Office 中,它们表面上推动了 Word 的 Smart Lookup 和 Key Insights 工具的进步。Outlook 将它们用于建议回复,自动生成可能的邮件回复。而在 Dynamics 365 Sales Insights 中,它们可以根据与客户的互动向销售人员提出行动建议。
从技术的角度来看,大型模型比它们的前辈们更胜一筹,因为它们是自我监督的,这意味着它们可以通过暴露数据的各个部分之间的关系从数据中生成标签 -- 这一步被认为是实现人类智能的关键。这与监督式学习算法不同,监督式学习算法是在人类标签化的数据集上进行训练,很难针对行业、公司或感兴趣的主题进行微调。
"微软首席技术官 Kevin Scott 在一份声明中说:"这些模型令人振奋的是,这些模型所能实现的事情的广度。"这是关于能够同时在自然语言处理和计算机视觉中做一百个令人兴奋的事情,当你开始看到这些感知领域的组合时,你将会有新的应用,这甚至是现在难以想象的。"
规模化的人工智能
像图灵家族中的那些模型与 AGI 相差甚远,但微软表示,它正在利用超级计算机探索可以跨文本、图像和视频数据进行泛化学习的大型模型。OpenAI 也是如此。正如《麻省理工学院技术评论》今年早些时候报道的那样,OpenAI 内部的一个名为 Foresight 的团队正在运行实验,以测试他们通过使用越来越多的海量数据和计算量来训练算法,可以在多大程度上推动 AI 能力。另外,根据那篇爆炸性的报道,OpenAI 正在开发一个使用海量计算资源训练图像、文本和其他数据的系统,该公司领导层认为这是最有前途的 AGI 之路。
事实上,Brockman 和 Altman 特别相信 AGI 将比任何一个人都能掌握更多的领域,主要是通过识别人类专家所无法掌握的复杂的跨学科联系。此外,他们还预测,负责任地部署 AGI---换句话说,与社会科学等相关领域的研究人员 "紧密合作 "部署 AGI,可能有助于解决气候变化、医疗保健和教育等领域的长期挑战。
目前还不清楚新的超级计算机是否强大到足以实现任何接近 AGI 的东西,无论它可能采取什么形式;去年,Brockman 告诉《金融时报》,OpenAI 预计到 2025 年,微软将花费 10 亿美元的投资全部用于构建一个可以运行 "人脑大小的 AI 模型 "的系统。2018 年,OpenAI 自己的研究人员发布的一份分析报告显示,从 2012 年到 2018 年,最大的人工智能训练运行的计算量以美 3.5 个月翻一倍的速度增长了 30 多万次,远远超过了摩尔定律的速度。上周,与此同步,IBM 详细介绍了 Neural Computer,它使用数百个定制设计的芯片在创纪录的时间内训练 Atari 游戏的 AI,而 Nvidia 宣布了基于其 A100 Tensor Core 显卡配音的 5-petaflop 服务器。
有证据表明,效率的提高可能会抵消日益增长的计算需求。最近的一项单独的 OpenAI 调查发现,自 2012 年以来,在一个流行的基准(ImageNet)中,训练一个 AI 模型达到相同性能的图像分类所需的计算量每 16 个月减少 2 倍。但与新颖的算法方法相比,计算量对性能的贡献程度仍然是一个有待商榷的问题。
当然,需要指出的是,OpenAI 在游戏和媒体合成方面,以较少的资源,在游戏和媒体合成方面取得了显著的 AI 收益。在谷歌云平台上,该公司的 OpenAI Five 系统每天在 256 块 Nvidia Tesla P100 显卡和 12.8 万个处理器内核的基础上,在 V 社的 Dota 2 比赛中,每天都能打出 180 年的游戏,击败职业玩家(以及 99.4% 的玩家在公开赛中击败了职业玩家)。最近,该公司还在至少 64 块 Nvidia V100 显卡和 920台 工人机上训练了一套系统,每台机器手操作一个魔方,每台机器手拥有32个处理器核心,尽管成功率相对较低。而 OpenAI 的 Jukebox 模型则在 896 块 V100 显卡上运行模拟,以学习从头开始生成任何风格的音乐,并附上完整的歌词。
新的市场机会
无论超级计算机变成了一块小小的垫脚石,还是迈向 AGI 的一大飞跃,用于设计它的软件工具都有可能为微软打开新的市场机会。通过其 AI at Scale 计划,这家科技巨头正在提供资源,以优化的方式在 Azure AI 加速器和网络上训练大型模型。它将训练数据分成若干批次,用于训练跨集群的多个模型实例,并定期进行平均,以产生单一模型。
这些资源包括新版本的 DeepSpeed,这是一个用于 Facebook 的 PyTorch 机器学习框架的 AI 库,它可以在相同的基础设施上训练超过 15 倍以上的模型,训练速度是原来的 10 倍,还支持 ONNX Runtime 上的分布式训练。微软称,当与 DeepSpeed 配合使用时,ONNX 上的分布式训练可以使模型跨硬件和操作系统的性能提升高达 17 倍,微软称。
"通过开发这种用于训练大型 AI 模型的前沿基础设施,我们正在让所有 Azure 变得更好,"微软首席技术官 Kevin Scott 在一份声明中说。"我们正在构建更好的计算机,更好的分布式系统,更好的网络,更好的数据中心。所有这些都让整个 Azure 云的性能、成本和灵活性变得更好。"