Albert: A lite bert for self-supervised learning of language representations (Albert)

Albert 历史意义:

1、Albert 各层之间采用参数共享和embedding因式分解减少参数量

2、在nlp预训练模型中正式采用轻量级bert模型

nlp领域(各个下游任务都有自身的模型)    <--------  2020(ALbert)  -----------> nlp领域(采用轻量级bert模型Albert)

 

论文主要结构:

一、Abstract

        介绍背景及提出Albert模型在多个数据集上的效果都表现优异

        1、增加model size提高模型在下游任务中的表现,但是同时会增加训练时间且受限于内存限制

         2、提出两种减少参数的策略来降低内存消耗和提高训练bert的速度

         3、用一种句子间连贯性自监督loss,并且有助于下游任务的输入

         4、实验证明模型效果较好且参数少很多

二、Introduction

        介绍现在的预训练模型都面临着参数量比较大的问题,因此提出轻量级bert模型

三、Related Work

        介绍目前参数共享和sentence ordered objectives的工作

四、Architecture

         AlBert 网络结构及其内部细节,1、Factorized embedding parameterization    2、Cross-layer parameter sharing    3、inter-sentence coherence loss

     1、Factorized embedding parameterization

        在bert系列的模型中,wordEmbedding的维度E设置和Hidden Layer的维度H相等,存在的问题

        1)WordEmbedding学习到的是context-independent的representation. Hidden Layer Embedding学习到的是context dependent 的 representation,把 E和H分开可以更高效的利用参数存储context信息H要远大于E

        2)  NLP任务中的vocab size很大,如果E==H模型参数量就很大,而embedding在实际的训练过程就会过于稀疏       

       O(V * H) >> O(V*E + E*H)  注: V-30w,H-768

     2、Cross-layer parameter sharing

        不同layer参数共享问题,主要包含三个部分,1)只共享attention相关参数   2)只共享FFN相关参数  3)共享所有参数

     3、Inter-sentence coherence loss

        NSP(next-sentece prediction) 正样本上下相邻两个句子,负样本随机从训练集中抽取两个句子

        NSP效果不佳的原因:将主题预测和连贯性预测结合在一起,但主题预测比连续性预测简单的多,并且与MLM损失的学习到的内容有重合

        SOP: 正样本正常顺序的两个相邻的句子,负样本调换顺序的两个相邻句子

五、Experiments

        AlBert在各个nlp下游任务中结果对比

        Bert:为了加速训练,前90%的steps使用128个token短句,最后10%才使用512个token的长句来训练position embedding

        ALBERT: 在90%的情况下,输入的segment取512个token,从数据上来看,更长的数据能够提供更多的上下文信息       

六、Discussion

         讨论模型未来方向

七、ConClusion

        关键点:

         1、减少参数量的两个细节 - Factorized embedding parameterization 和 cross-layer parameter sharing

         2、句子连贯性 - Inter-sentence coherence loss

      启发点:

         1、参数量过大,可以参考参数共享的方式

八、Code

        参考代码:https://github.com/brightmart/albert_zh

 

 

 

你可能感兴趣的:(NLP,Paper)