为什么现在的大语言模型(LLM)都是Decoder-only的架构?

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第1张图片

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

LLM 是“Large Language Model”的简写,目前一般指百亿参数以上的语言模型,主要面向文本生成任务。跟小尺度模型(10 亿或以内量级)的“百花齐放”不同,目前 LLM 的一个现状是 Decoder-only 架构的研究居多,像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了,即便是 Google 这样的并非全部押注在 Decoder-only 的公司,也确实投入了不少的精力去研究 Decoder-only 的模型,如 PaLM 就是其中之一。那么,为什么 Decoder-only 架构会成为 LLM 的主流选择呢? 

知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构?》[1],上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势,那么它有没有理论上的优势呢?本文试图从这个角度进行简单的分析。

117bc30a0d200e534bc29b456ba71e92.png

统一视角

需要指出的是,笔者目前训练过的模型,最大也就是 10 亿级别的,所以从 LLM 的一般概念来看是没资格回答这个问题的,下面的内容只是笔者根据一些研究经验,从偏理论的角度强行回答一波。

我们知道,一般的 NLP 任务都是根据给定的输入来预测输出,完全无条件的随机生成是很少的,换句话说,任何 NLP 任务都可以分解为“输入”跟“输出”两部分,我们可以把处理“输入”的模型叫做 Encoder,生成“输出”的模型叫做 Decoder,那么所有任务都可以从“Encoder-Decoder”的视角来理解,而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数:

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第2张图片

这里的 GPT 就是 Decoder-only 的代表作;UniLM 则是跟 GPT 相似的 Decoder 架构,但它是混合的注意力模式;T5 则是 Encoder-Decoder 架构的代表作,主要是 Google 比较感兴趣。

Google 在 T5 [2] 和 UL2 [3] 两篇论文中做了较为充分的对比实验,结果均体现出了 Encoder-Decoder 架构相比于 Decoder-only 的优势,但由于从 LLM 的角度看这两篇论文的模型尺度都还不算大,以及多数的 LLM 确实都是在做 Decoder-only 的,所以这个优势能否延续到更大尺度的 LLM 以及这个优势本身的缘由,依然都还没有答案。

efb7140e9a01e57ae2eac0de5f5123bd.png

对比实验

从上表可以看出,其实 GPT 跟 UniLM 相比才算是严格控制变量的,如果 GPT 直接跟 T5 相比,那实际上产生了两个变量:输入部分的注意力改为双向以及参数翻了一倍。而之所以会将它们三个一起对比,是因为它们的推理成本大致是相同的。

相比 GPT,既然 T5 有两个变量,那么我们就无法确定刚才说的 Encoder-Decoder 架构的优势,究竟是输入部分改为双向注意力导致的,还是参数翻倍导致的。为此,笔者在 10 亿参数规模的模型上做了 GPT 和 UniLM 的对比实验,结果显示对于同样输入输出进行从零训练(Loss 都是只对输出部分算,唯一的区别就是输入部分的注意力模式不同),UniLM 相比 GPT 并无任何优势,甚至某些任务更差。

假设这个结论具有代表性,那么我们就可以初步得到结论:

输入部分的注意力改为双向不会带来收益,Encoder-Decoder 架构的优势很可能只是源于参数翻倍。

换句话说,在同等参数量、同等推理成本下,Decoder-only 架构很可能是最优选择。当然,要充分验证这个猜测,还需要补做一些实验,比如 Encoder 和 Decoder 依然不共享参数,但 Encoder 也改为单向注意力,或者改为下一节介绍的正反向混合注意力,然后再对比常规的 Encoder-Decoder 架构。但笔者的算力有限,这些实验就留给有兴趣的读者了。

e32da862acb81fa292b6bf5482811423.png

低秩问题

为什么“输入部分的注意力改为双向不会带来收益”呢?明明输入部分不需要考虑自回归生成,直觉上应该完整的注意力矩阵更好呀?笔者猜测,这很可能是因为双向注意力的低秩问题带来的效果下降。 

众所周知,Attention 矩阵一般是由一个低秩分解的矩阵加 softmax 而来,具体来说是一个 的矩阵与 的矩阵相乘后再加 softmax(),这种形式的 Attention 的矩阵因为低秩问题而带来表达能力的下降,具体分析可以参考《Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth》[4]。

而 Decoder-only 架构的 Attention 矩阵是一个下三角阵,注意三角阵的行列式等于它对角线元素之积,由于 softmax 的存在,对角线必然都是正数,所以它的行列式必然是正数,即 Decoder-only 架构的 Attention 矩阵一定是满秩的!满秩意味着理论上有更强的表达能力,也就是说,Decoder-only 架构的 Attention 矩阵在理论上具有更强的表达能力,改为双向注意力反而会变得不足。

还有个间接支持这一观点的现象,那就是线性 Attention 在语言模型任务上(单向注意力)与标准 Attention 的差距,小于它在 MLM 任务上(双向注意力)与标准 Attention 的差距,也就是说,线性 Attention 在双向注意力任务上的效果相对更差。

这是因为线性 Attention 在做语言模型任务时,它的 Attention 矩阵跟标准 Attention 一样都是满秩的下三角阵;在做 MLM 任务时,线性 Attention 矩阵的秩比标准 Attention 矩阵更低(线性 Attention 是 的矩阵与 的矩阵相乘,秩一定不超过 d,标准 Attention 是 的矩阵与 的矩阵相乘后加 softmax,softmax 会有一定的升秩作用)。

反过来,这个结论能不能用来改进像 BERT 这样的双向注意力模型呢?思路并不难想,比如在 Multi-Head Attention 中,一半 Head 的 Attention 矩阵截断为下三角阵(正向注意力),另一半 Head 的 Attention 矩阵截断为上三角阵(反向注意力);又或者说奇数层的 Attention 矩阵截断为下三角阵(正向注意力),偶数层的 Attention 矩阵截断为上三角阵(反向注意力)。

这两种设计都可以既保持模型整体交互的双向性(而不是像 GPT 一样,前一个 token 无法跟后一个 token 交互),又融合单向注意力的满秩优点。笔者也简单做了对比实验,发现正反向混合的注意力在 MLM 任务上是比像 BERT 这样的全双向注意力模型效果稍微要好点的:

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第3张图片

▲ 全双向注意力与正反向混合注意力的训练曲线比较

坏消息是这实验的只是一个 base 版本(1 亿参数)的模型,更大模型的效果尚未清楚。

079e90d0088177fabd5e2546a2661633.png

文章小结

所以,笔者作出的回答是:LLM 之所以主要都用 Decoder-only 架构,除了训练效率和工程实现上的优势外,在理论上是因为 Encoder 的双向注意力会存在低秩问题,这可能会削弱模型表达能力,就生成任务而言,引入双向注意力并无实质好处。而 Encoder-Decoder 架构之所以能够在某些场景下表现更好,大概只是因为它多了一倍参数。所以,在同等参数量、同等推理成本下,Decoder-only 架构就是最优选择了。

outside_default.png

参考文献

outside_default.png

[1] https://www.zhihu.com/question/588325646

[2] https://arxiv.org/abs/1910.10683

[3] https://arxiv.org/abs/2205.05131

[4] https://arxiv.org/abs/2103.03404

更多阅读

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第4张图片

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第5张图片

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第6张图片

0e6dd0f8ee7fa97774db61a319d8a593.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

为什么现在的大语言模型(LLM)都是Decoder-only的架构?_第7张图片

△长按添加PaperWeekly小编

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

a68bd8b981c8389b1be7b80e9ac5662b.jpeg

你可能感兴趣的:(语言模型,人工智能,自然语言处理,机器学习,深度学习)