马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?

一个名叫 EleutherAI 的团队开源了语言模型代码库 GPT-neo,其模型利用 mesh-tensorflow 库扩展到完整的 GPT-3 尺寸,官方预计可能会更大,不过该模型的名字还没完全确定,或许叫 GPT-HAHAHA 也说不好。有网友甚至说,它可以改名字叫做 realOpenAI,顺便还 Cue 了一下马斯克。

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第1张图片

作者 | 八宝粥
出品 | CSDN(id:CSDNnews)
马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第2张图片
这里还包括替代模型体系结构和线性注意实现以扩展到更大的模型大小和上下文长度,包括:1.局部注意力模型;2.专家混合模型;3.轴向位置嵌入模型;4掩盖语言模型等。预训练的模型将在完成训练后发布。

GPT-3 这么强了,为什么还要重新造一个呢?此前,我们曾经提到,GPT-3 并不是 OpenAI 造出来的语言模型这么简单,它既不是开源的,也不是开放的,而是被微软签下了"独占协议"的模型,仅仅开放了 API 供大家使用而已,而且还能对使用者使用的方式进行管理。既然这样,那其他厂家肯定就心有余悸,毕竟微软是嫡系,我们都是旁支,于是就有很多人想着去自成一家。这个组织的名字也挺有意思的,跟 OpenAI 遥相呼应, 古希腊语 eleutheria 的意思是自由。

GPT-neo 也是一系列基于 transformer 的语言模型,计划围绕 GPT 进行训练并开源,初步计划是复制一个 GPT-3 那么大的模型并开源。当然,所有的版本也都会在博客当中图书发布。目前基于 mesh-Tensorflow (进行 TPU 训练)和 Deepspeed(进行 GPU 训练)。二者都可以实现 GPT-3+ 的大小,团队目前应该还缺少 TPU 来训练 175b 的模型,毕竟那是 Google 家的,不过 GPU 应该是管够的。不久团队就会发布一个更小规模的模型,然后还会有 GPT-neox,就像 GPT-X 一样。

由于项目还没有完全完成,只是完成了部分文件和简单的训练展示,更新配置方案和 TPU 训练等还需要进一步的补充,并且由于数据集实在是太庞大了,以至于我们只能简单了解一下它的展示效果。

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第3张图片

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第4张图片

马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第5张图片

项目还专门设置了一个语言数据库 “The Pile” 数据大小为 835 GB,通过 22 个小型数据库的组合,可以保证有效的泛化能力。团队希望能够和 GPT-3 相同的参数下表现出相当的性能,未来可能还会降低参数的数量级来减轻重量。巧妇难为无米之炊,高端的数据集,往往只需要最简单的烹饪方式处理办法。作者表示,通过对该数据集进行预训练,能够有效改善下游的评估性能。
马斯克抱怨 GPT-3 不够 Open,开源的语言模型库来了你要不要学?_第6张图片



提问时间

该团队也是玩的一手好梗,QA 里面有这样的问题:『这么大的模型你们打算怎么训练呢?』 结果人家回答:『我们申请了 TensorFlow 的研究云计划,我们的规划是“问问 Google 老哥能不能多给一点”。。。如果不给,再想想办法。在其他的 QA 当中,团队依然在问各位大大有没有大量可以访问的 TPU 和 GPU 可以用。。。

【提问】:GPT-neo 是什么?

【回答】:用于训练大量语言模型的代码库,我们计划开源,不过模型名字还没确定


【提问】:像 Folding@Home 和 hivemind 这种分布式计算怎么办?

【回答】:我们考虑了合并 GPU 进行训练,当前问题是 a.考虑到密集和敏感的感


【提问】:您训练的模型有多大?

【回答】:写这篇问答的时候(2020-10.27),我们已经在许多配置下训练和很多模型,最大的 100B 参数。全部训练的话,我们最大的是 1.3B 参数,大概是 GPT-2XL 那么大,OpenWebText 是它的主体。不久我们还会在 Pile 和 Common Crawl上训练一组小的模型(Pile 和 Common Crawl 分别是两组数据集)。


【提问】:模型怎么样?

【回答】:不错哦!如果您感兴趣的话可以看看他们在 可爱的 Foomborad 上的的训练情况


【提问】:有没有考虑过更有效的架构?

【回答】:是的,我们在探索设计空间、线性缩放机制、专家混合和其他的设计。一般来说,我们发现全局和局部的混合对于性能的稳健型十分重要


【提问】:GPT-neo 是免费软件吗?

【回答】:它是一款基于 MIT 协议的开源软件


【提问】:模型是免费的吗?

【回答】:我们还没有确定模型的许可类型


祝他们好运,希望不久的将来这个“寨版” GPT 能真正的在语言模型界发光。

【参考资料】
1.https://www.eleuther.ai/gpt-neo
2.https://github.com/EleutherAI/gpt-neo
3.https://github.com/tensorflow/mesh
4.https://kevinwatkins.github.io/foomboard/
5.https://arxiv.org/abs/2101.00027

你可能感兴趣的:(综合资讯,人工智能)