有人预测GPT-4长这样:比GPT-3略大、纯文本、更注重最优计算与对齐

#今日论文推荐# 有人预测GPT-4长这样:比GPT-3略大、纯文本、更注重最优计算与对齐

本文介绍了关于GPT-4的5大预测。
不久前,谷歌发布基于他们最新一代人工智能架构Pathways研发的 5400 亿参数大模型——PaLM,具备标记因果关系、上下文理解、推理、代码生成等等多项功能,其中常识推理能力更是较以往的语言模型有较大提升。
但同时,大家也一如既往地注意到 PaLM 的计算成本:用了6144块TPU。如果租显卡训练,最高花费可能达到1700万美元(人民币超过1个亿,“一个小目标”)。
显然,这很烧钱,不符合“经济可用”的原则。难怪业内人士常常吐槽:苦大模型久矣。
如果模型往大走,一个劲地砸钱,何时是个尽头?有学者也向AI科技评论表示:类似PaLM这样的大模型在结果上确实取得了不错的突破,但训练与计算的成本非常高,没必要将许多任务拼在一起。
对于大模型的未来发展,GPT系列或许能提供一些新的见解。
近日,Cambrian AI的分析师Alberto Romero便发表了一篇文章,基于OpenAI首席执行官Sam Altman在数月前的说法,推测GPT-4即将在今年7月到8月发布,并基于Altman在去年的一场问答,对GPT-4的特征进行了预测。
可以肯定的是,Altman称,GPT-4的参数不会达到100T。
Alberto Romero也猜测,或许GPT-4的规模会比GPT-3略大,但“大”不会像GPT-3一样成为GPT-4的“卖点”。相反,OpenAI更致力于如何让规模较小的模型发挥更大的性能。
预测1:GPT-4不会太大
首先,Alberto判断,GPT-4不会是最大的语言模型。Altman也称它不会比GPT-3大很多。与前几代的神经网络相比,GPT-4肯定会很大,但大小不会是它的显著特征。GPT-4可能介于GPT-3和Gopher (175B-280B)之间。
接着,Alberto给出了他预测的理由:
去年由英伟达和微软开发的Megatron-Turing NLG有530B参数,一直是最大的密集神经网络——其大小已是GPT-3的3倍——直到最近出现了谷歌的PaLM,其大小为540B。但值得注意的是,MT-NLG之后的一些较小的模型达到了更高的性能水平。
也就是说,更大 ≠ 更好。小型模型的存在有两个意义。
其一是,企业已经意识到,要改善性能,扩大模型的规模不是唯一的方法,也不是最好的方法。2020年,OpenAI的Jared Kaplan和同事得出结论,当增加的计算预算主要分配到增加参数的数量上时,性能的提高是最显著的,并且遵循幂律关系。谷歌、英伟达、微软、OpenAI、DeepMind和其他开发语言模型的公司从表面上看接受了这一指导原则。

论文题目:Scaling Laws for Neural Language Models
详细解读:https://www.aminer.cn/research_report/6260ba747cb68b460fa4bc17?f=csAMiner利用数据挖掘和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别等众多功能。https://www.aminer.cn/research_report/6260ba747cb68b460fa4bc17?
AMiner链接:https://www.aminer.cn/?f=cs

你可能感兴趣的:(深度学习,数据结构)