【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3

01 行业大事件

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述部署秘籍(免费书)

这是一本正在写作的新书,目前前四章已经放出了草稿。

过去几年,GPT-3 等几个大模型展示了大数据、大算力的力量,它们的效果毋庸置疑,但在现实世界中训练和部署这些模型是非常昂贵的,这阻碍了大模型在现实世界中的广泛应用,比如很多效果很好的大模型根本无法在手机上运行。因此,我们需要想办法把模型做得更加高效(在尽量不损失性能的前提下把模型做得更小)。

那么,具体该怎么做呢?

为了解答这个问题,谷歌机器学习工程师 Gaurav Menghani 和独立研究者 Naresh Singh 正在撰写一本新书。这本书将涵盖谷歌研究院、Facebook AI 研究院(FAIR,现 Meta AI)及其他著名人工智能实验室的研究员和工程师在各种设备(从大型服务器到小型控制器)上训练和部署模型时所使用的算法和技术,如量化、剪枝、蒸馏等。

目前,他们已经发布了该书前四章的 PDF 草稿。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第1张图片

 

新书链接:

https://efficientdlbook.com/

代码链接:

book/codelabs at main · EfficientDL/book · GitHub

发布日志记录、公开所有代码,Meta开放1750亿参数大模型,媲美GPT-3

OPT-175B,使人工智能更加开放和可复制。

Meta AI 在昨天公布的一篇论文可谓是炸开了锅,论文网站 paperswithcode 热搜榜第一,众多 AI 大佬推荐:

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第2张图片

LSTM 提出者和奠基者,奥地利人工智能高级研究所(IARAI)创始人 Sepp Hochreiter 教授就在推特上进行了宣传:

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第3张图片

 

社交及新闻网站 reddit 讨论量也爆表:

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第4张图片

有研究者表示这是将大型 LM 研究引入学术界的重大一步。用一句话总结就是:Meta AI 正在开放用于人工智能研究的大型语言模型访问权限,并表示这个具有 1750 亿参数的模型,是第一个可供更广泛的人工智能研究社区使用的模型。值得注意的是,OpenAI 提出的 GPT-3 也具有 1750 亿参数,不知道这一数字是巧合还是其他。

下面我们介绍一下这项研究的主要内容。

Meta AI 开放 1750 亿参数的模型

大型语言模型,即具有超过 1000 亿个参数的自然语言处理 (NLP) 系统,在过去几年中改变了 NLP 和 AI 研究。这些模型经过大量文本训练,在生成创意文本、解决数学问题、回答阅读理解等方面表现出令人惊讶的能力。

虽然在某些情况下,公众可以通过付费 API 与这些模型进行交互,但完整的研究访问权限仍然仅限于少数资源丰富的实验室。这种受限访问限制了研究人员理解这些大型语言模型如何以及为什么工作的能力,阻碍了提高其鲁棒性和减轻偏见等已知问题的进展。

根据 Meta AI 对开放科学的承诺,他们正在共享 Open Pretrained Transformer (OPT-175B),这是一个具有 1750 亿参数的模型,在公共数据集上训练而成,之所以共享这个模型,Meta AI 希望更多的社区参与理解关于大模型的基本技术。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第5张图片

 

论文地址:https://arxiv.org/pdf/2205.01068.pdf

对于这种规模的语言技术系统,该版本首次包括预训练模型以及训练和使用它们所需的代码。为了保持完整性并防止滥用,Meta AI 将在非商业许可下发布该模型,以专注于研究用例。该模型的访问权限将授予学术研究人员;隶属于政府、民间团体和学术界组织的人员;以及世界各地的工业研究实验室。

Meta AI 希望整个人工智能社区,包括学术研究人员、民间团体、政策制定者等研究者共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型制定明确的指导方针,因为它们在许多下游语言应用程序中处于中心地位。人工智能社区更需要访问这些模型,以便进行可重复的研究并共同推动该领域的发展。随着 OPT-175B 和小规模基线的发布,Meta AI 也希望增加伦理方面的考虑。

根据 AI 合作伙伴关系(Partnership on AI)为研究人员制定的出版指南,以及 NIST 在 2022 年 3 月概述的治理指南(第 3.4 节),Meta AI 将发布开发过程的所有记录文档,包括详细说明日常训练过程的完整 logbook,因此其他研究人员可以更轻松地在此工作基础上继续研究。此外,这些细节还揭示了用于训练 OPT-175B 的计算量以及当底层基础设施或训练过程本身大规模变得不稳定时所需的人力开销。

对此有研究者表示:研究团队的 logbook 是一个隐藏的宝石,突出了自 Lua torch 以来就存在且尚未解决的 ML 研究中的痛点 / 更广泛的问题:

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第6张图片

 

Meta AI 仅使用 16 个 NVIDIA V100 GPU 来训练和部署模型的代码库,以增加这些模型的可访问性,达到专门用于研究目的。Meta AI 还全面发布了一套更小规模的基线模型,使用的数据集和 OPT-175B 相同 ,设置也和 OPT-175B 类似,这样一来研究人员能够单独研究模型规模的影响。这些小规模模型的参数包括 1.25 亿、3.5 亿、13 亿、27 亿、67 亿、130 亿和 300 亿(660 亿即将发布)。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第7张图片

人工智能研究的最新发展消耗了大量的计算能力。虽然行业实验室已经开始报告这些模型的碳足迹,但大多数不包括与实验研发阶段相关的计算成本,在某些情况下,这可能比训练最终模型更耗费一个数量级的资源。

Meta AI 在开发 OPT-175B 时考虑到了能源效率,其碳足迹仅为 GPT-3 的 1/7。这是通过在 Megatron-LM 中结合 Meta 的开源全分片数据并行 (FSDP) API 和 NVIDIA 的张量并行抽象来实现的。Meta AI 在 NVIDIA 的 80 GB A100 GPU 上实现了约 147 TFLOP/s/GPU 利用率,比 NVIDIA 研究人员在类似硬件上公布的数据高出大约 17%。

通过与代码库共享这些基线以有效地训练 175B 模型,Meta AI 正在减少碳足迹,同时还允许以一致的方式衡量该领域的新成果和进展。

代尔夫特理工大学助理教师 Luís Cruz 表示:很高兴看到新的人工智能论文讨论他们模型的碳足迹。尽管有非常粗略的估计,但 OPT-175B 是作为 GPT-3 的替代品提出的,其碳足迹是 GPT-3 的 1/7。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第8张图片

Meta AI 希望 OPT-175B 能够为大语言模型创建的前沿带来更多声音,帮助社区集体设计负责任的发布策略,为该领域的大语言模型开发增加前所未有的透明度和开放性。

访问开源代码和小规模预训练模型:https://github.com/facebookresearch/metaseq

OPT-175B:https://docs.google.com/forms/d/e/1FAIpQLSe4IP4N6JkCEMpCP-yY71dIUPHngVReuOmQKDEI1oHFUaVg7w/viewform

OPT-175B 许可协议:metaseq/MODEL_LICENSE.md at main · facebookresearch/metaseq · GitHub

有人声称「解决了」MNIST与CIFAR 10,实现了100%准确率

MNIST 识别的准确率已经卷上 100% 了?近日,预印版平台 arXiv 中的一篇论文《Learning with Signatures》引起了人们的关注。

在这项工作中,作者研究了在学习环境中使用 Signature Transform。该论文提出了一个监督框架,使用很少的标签提供了最先进的分类准确性,无需信用分配(credit assignment),几乎没有过拟合。作者通过使用 Signature 和对数 Signature 来利用谐波分析工具,并将其用作评分函数 RMSE 和 MAE Signature 和对数 Signature。

研究人员使用一个封闭式方程来计算可能的最佳比例因子。最终实现的分类结果在 CPU 上的执行速度比其他方法快几个数量级。作者报告了在 AFHQ 数据集、Four Shapes、MNIST 和 CIFAR10 的结果,在所有任务上都实现了 100% 的准确率。

MNIST 被认为是机器学习的 Hello World,是大家入门时都会用到的数据集,其包含 7 万张手写数字图像,其中 6 万张用于训练,1 万用于测试。MNIST 中的图像是灰度的,分辨率仅 28×28 像素。尽管问题「简单」,但实现 100% 识别准确度的算法总是让人感觉不靠谱。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第9张图片

 

论文链接:

https://arxiv.org/abs/2204.07953v1

代码:

https://github.com/decurtoydiaz/learning_with_signatures

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第10张图片

02 程序员专区

Anaconda发布PyScript 在浏览器中运行Python应用

在PyCon US 2022 上,Python开发商Anaconda发布了PyScript,该框架允许开发者在HTML中嵌入编写Python代码,从而使Python代码与JavaScript实现双向通信。该框架已实现的功能特征有:在浏览器中运行Python、Python生态系统,可以运行众多流行的Python包与科学堆栈(如numpy、pandas、scikit-learn等)、Python与JavaScript实现双向通信、环境管理,运行用户定义包和文件等、可视化应用开发,灵活性强,可以使用它在Python中直接创建和分享新的可插拔和可扩展的组件。

【AI周报】谷歌、Meta如何给大模型瘦身?;Meta开放1750亿参数大模型,媲美GPT-3_第11张图片

你可能感兴趣的:(AI周报,深度学习,人工智能)