Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

Abstract & Introduction & Related Work

  • 研究任务
    • 预训练语言模型
  • 已有方法和相关工作
    • BERT, RoBERTa
  • 面临挑战
  • 创新思路
    • disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。
    • enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号
    • 此外,一个新的虚拟对抗训练方法被用来进行微调,以提高模型的泛化能力
  • 实验结论
    sota,大DeBERTa在superGLUE上首次超越了人类的宏平均分数

THE DEBERTA ARCHITECTURE

DISENTANGLED ATTENTION: A TWO-VECTOR APPROACH TO CONTENT AND POSITION EMBEDDING

token之间的注意力分数计算:
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第1张图片
标准注意力机制,相当于用公式2的内容-内容,内容-位置两项,我们认为,位置-内容项也很重要,因为一个词对的注意权重不仅取决于它们的内容,还取决于它们的相对位置,这只能用内容-位置项和位置-内容项来完全建模。由于我们使用的是相对位置嵌入,位置到位置项并没有提供太多额外的信息,因此在我们的实施中从方程2中删除
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第2张图片
用k来表示最大相对距离
在这里插入图片描述
DeBERTa注意力计算公式:
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第3张图片
参数的一些解释
A i , j ~ \tilde{A_{i,j}} Ai,j~ 是注意力矩阵的一个元素,代表token i 到token j 的注意力分数
Q c i Q_c^i Qci 上标代表第i行, K j c K_j^c Kjc 上标代表第c行
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第4张图片
训练过程,总体来说没有什么复杂的地方

EFFICIENT IMPLEMENTATION

预训练中,使用512作为最大相对距离
一些减少复杂度的操作,通过这种方式不需要我们不需要分配内存来存储每个查询的相对位置嵌入
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第5张图片

训练过程,总体来说没有什么复杂的地方
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第6张图片

ENHANCED MASK DECODER ACCOUNTS FOR ABSOLUTE WORD POSITIONS

给出一个句子 “新商场旁边开了一家新店”,其中的 "店 "和 "商场 "两个词被掩盖起来进行预测。仅仅使用局部语境(如相对位置和周围的词)不足以让模型区分这个句子中的商店和商场,因为两者都在新词后面,相对位置相同。为了解决这一局限性,该模型需要考虑绝对位置,作为相对位置的补充信息。例如,该句的主语是 "商店 "而不是 “商场”。这些句法上的细微差别在很大程度上取决于这些词在句子中的绝对位置

有两种纳入绝对位置的方法。BERT模型在输入层中加入了绝对位置。在DeBERTa中,我们在所有Transformer层之后,但在用于mask token预测的softmax层之前纳入它们,如图2所示。通过这种方式,DeBERTa抓住了所有Transformer层中的相对位置,而在解码被掩盖的单词时只使用绝对位置作为补充信息。因此,我们称DeBERTa的解码组件为增强型屏蔽解码器(EMD)。在实证研究中,我们比较了这两种纳入绝对位置的方法,观察到EMD的效果要好得多。我们猜想,BERT使用的早期纳入绝对位置的方法可能会不适当地妨碍模型学习足够的相对位置信息

Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第7张图片

SCALE INVARIANT FINE-TUNING

本节介绍了一种新的虚拟对抗训练算法Scale-invariant-Fine-Tuning(SiFT),是Miyato等人(2018);Jiang等人(2020)中描述的算法的变体,用于微调。

虚拟对抗训练是一种提高模型泛化能力的正则化方法。它通过提高模型对对抗性例子的鲁棒性来实现,对抗性例子是通过对输入进行小幅扰动而产生的。模型被正则化,以便当给定一个特定任务的例子时,模型产生的输出分布与它在该例子的对抗性扰动中产生的输出分布相同。

对于NLP任务,扰动被应用于单词嵌入而不是原始单词序列。然而,嵌入向量的值范围(规范)在不同的词和模型中是不同的。对于具有数十亿参数的大型模型来说,方差会变大,从而导致对抗性训练的一些不稳定性

EXPERIMENT

Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第8张图片
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第9张图片
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第10张图片
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第11张图片
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION_第12张图片

CONCLUSIONS

本文提出了一个新的模型架构DeBERTa(Decoding-enhanced BERT with disentangled attention),它利用两种新技术改进了BERT和RoBERTa模型。第一个是分解注意力机制,每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。第二种是增强型掩码解码器,它在解码层中加入了绝对位置,以预测模型预训练中的掩码标记。此外,一种新的虚拟对抗训练方法被用来进行微调,以提高模型在下游任务中的泛化能力。

我们通过全面的实证研究表明,这些技术大大改善了模型预训练的效率和下游任务的性能。拥有15亿个参数的DeBERTa模型在SuperGLUE基准测试中的宏观平均得分方面首次超过了人类的表现

DeBERTa在SuperGLUE上的表现超过了人类的表现,标志着走向通用人工智能的一个重要里程碑。尽管在SuperGLUE上取得了可喜的成绩,但该模型绝没有达到人类水平的NLU智能。人类非常善于利用从不同任务中学到的知识来解决一个新的任务,而不需要或很少需要特定任务的演示。这被称为成分泛化,即对熟悉的成分(子任务或基本问题解决技能)的新成分(新任务)进行泛化的能力。展望未来,值得探索的是如何使DeBERTa以更明确的方式纳入组成结构,这可以使自然语言的神经和符号计算相结合,类似于人类的做法

Remark

我的评价是建议RoBERTa,XLNet,Electra,DeBERTa融合一起用成为超级无敌模型!

你可能感兴趣的:(NLP,读paper,bert,自然语言处理,深度学习,人工智能,神经网络)