ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好

引言

自从Bert被提出来后,后续的研究者大多基于bert进行改造,提升预训练语言模型性能,从而提高下游任务的性能。比如ERINE、BERT_WWM、MASS、MT-DNN、RoBERT等等。从GLUE榜上我们可以看到,似乎现在的语言模型有越来越大的趋势,虽然我们的训练资源也是从GPU单卡到GPU多卡,到现在TPU,但不是每个公司都这么有钱,特别对个人,有可能就是一块卡,怎么样在资源有限的情况下,玩起来这些高大上的模型了?我们知道bert的base版本12层,参数量接近110M,这样大的模型在线上部署的时候效果是怎么样的?下表是在linux环境下基于GTX 1080运行结果。

环境 序列长度 请求次数 总时间(s) 平均耗时(ms)
GPU+checkpoint 128 10000 135.6 13.56
GPU+checkpoint 12 1000 10.3 10.3
CPU+checkpoint 128 1000 212 212
CPU+checkpoint 12 1000 83 83
CPU+tfserving 128 1000 351 351
  • 我们可以看到序列长度越短,推断时间也越短;
  • GPU的推断性能远大于cpu;
  • 基于tfserving的推断,因为是基于grpc远程调用,在服务启动和调用上会带来一定的耗时。那么有没有一种压缩版的bert,可以提高线下训练和线上推断的性能呢?下面这篇论文可以提供一种解决方案。

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Google 201909发表

目录

  • 1. 摘要
  • 2. Bert简介
  • 3. ALBERT论文细节以及实验结果
    • 3.1 参数缩减方法
    • 3.2 SOP预训练任务
    • 3.3 实验结果
  • 4. 总结与问题

1. 摘要

Bert在2018一经提出,提高了很多nlp任务的baseline,但是Bert模型参数量大,在推断资源有限的情况下,我们应该怎么样用bert这种好的预训练模型。为了解决问题,本文提出了两种参数简化的方法,加速Bert的预训练和推断;并且我们提出了一个新的自监督的loss函数,SOP学习到句子间的内部特征。我们提出的模型,参数量更小,并且在GLUE,RACE等NLP 任务上达到最佳性能。

2. Bert简介

BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,这是真正基于self attention实现双向。模型的主要创新点都在预训练模型上,即用了Masked LM和Next Sentence Prediction(NSP),两种loss直接相加,优化的话可以加权相加,两种方法分别捕捉词语和句子级别的representation。

Bert一经提出,迅速火遍NLP,GLUE毫无悬念获得第一名,高于基于ELMO,gpt等语言模型的一大截,一时间打开了迁移学习两阶段的大门,第一步基于无监督的语料训练自己的MLM,然后基于自己的一些数据进行finetune,从而获得很好的效果。

3. ALBERT论文细节以及实验结果

3.1 参数缩减方法

本文提出两种模型参数缩减的方法,具体如下:

  • 从模型角度来讲,wordPiece embedding是学习上下文独立的表征维度为E,而隐藏层embedding是学习上下文相关的表征维度为H。为了应用的方便,原始的bert的向量维度E=H,这样一旦增加了H,E也就增大了。ALBert提出向量参数分解法,将一个非常大的词汇向量矩阵分解为两个小矩阵,例如词汇量大小是V,向量维度是E,隐藏层向量为H,则原始词汇向量参数大小为V*H,ALBert想将原始embedding映射到V*E(低纬度的向量),然后映射到隐藏空间H,这样参数量从 V*H下降到V*E+E*H,参数量大大下降。但是要注意这样做的损失确保矩阵分解后的两个小矩阵的乘积损失,是一个有损的操作。
  • 层之间参数共享。base的bert总共由12层的transformer的encoder部分组成,层参数共享方法避免了随着深度的加深带来的参数量的增大。具体的共享参数有这几种,attention参数共享、ffn残差网络参数共享。

3.2 SOP预训练任务

我们知道原始的Bert预训练的loss由两个任务组成,maskLM和NSP(Next Sentence Prediction),maskLM通过预测mask掉的词语来实现真正的双向transformer,NSP类似于语义匹配的任务,预测句子A和句子B是否匹配,是一个二分类的任务,其中正样本从原始语料获得,负样本随机负采样。NSP任务可以提高下游任务的性能,比如句子对的关系预测。但是也有论文指出NSP任务其实可以去掉,反而可以提高性能,比如RoBert。

本文以为NSP任务相对于MLM任务太简单了,学习到的东西也有限,因此本文提出了一个新的loss,sentence-order prediction(SOP),SOP关注于句子间的连贯性,而非句子间的匹配性。SOP正样本也是从原始语料中获得,负样本是原始语料的句子A和句子B交换顺序。举个例子说明NSP和SOP的区别,原始语料句子 A和B, NSP任务正样本是 AB,负样本是AC;SOP任务正样本是AB,负样本是BA。可以看出SOP任务更加难,学习到的东西更多了(句子内部排序)。

3.3 实验结果

本文提出了2种参数压缩的方法以及1个新的loss,下面主要对这几种方法进行实验,实验结果如下:

下图2展示了BERT-large和ALBERT-large两个模型的输入和输出embedding的L2以及余弦距离,我们可以看出ALBERT模型的距离比BERT模型
更层距离更加平滑,这说明权重共享有助于稳定网络的参数。


ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好_第1张图片
dis_layers.png

其中BERT和ALBERT模型的参数配置如下,我们可以看到当减小embedding的维度以及使用了参数共享的方法,模型的参数量大大减小。


ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好_第2张图片
param_sharing_result.png

Bert和ALBert的模型性能比较如下,我们可以看到总体来说,ALBERT的性能优于Bert,并且参数量较小接近5倍,性能也是最优的。


ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好_第3张图片
model_result.png

4. 总结与问题

  • 本文提出了2种模型参数压缩的方法,即embedding矩阵分解法以及层参数共享法,并通过实验证明词方法的有效性;
  • 同时本文也提出了一个新的预训练任务,SOP,是一个比NSP任务更难并且学习到的东西更多的任务,可以学习到句子内部的顺序。
  • 通过实验证明了这3个创新方案的有效性,目前排在GLUE排行榜第一名。

几个思考问题如下:

  • 论文提及到下游任务性能提高,并且参数量大大减小,训练速度也极大提高,推断速度是不是也是同步的提高,这是需要实验证明;
  • 论文采用矩阵分解来将大矩阵变成两个小矩阵,是不是也会带来损失;

参考文献

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

你可能感兴趣的:(ALBert论文阅读笔记-缩减版的bert,模型参数更少,性能更好)