Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT算是带领NLP全面进入预训练时代的一篇paper,NLPer必读神作

模型

首先我们要知道bert是一个双向的语言模型,写在标题里面了

文中说到,bert模型是直接基于transformer的encoder,并没有做改动
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第1张图片
为了让BERT处理各种下游任务,我们的输入表示能够明确地表示一个句子和一对句子

使用wordpiece embedding

每个序列的一个词永远是一个特殊标记 [CLS],bert是希望它最后的输出代表整个序列的信息

当需要学习句子对的时候,会加入一个标记 [SEP],代表两个句子之间的分隔,或者去学一个embedding,代表每个token是属于第一个句子还是属于第二句子
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第2张图片
一个句子输入到bert之后,它的embedding表示将由如下表示:

自身的embedding,表示在哪个句子的embedding,位置embedding
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第3张图片
接下来来到最重要的部分:bert的训练

bert的训练分为两种任务,分别是Masked language model 和 next sentence prediction

Masked LM :15%的概率替换成mask,在这15%被选中成为mask的词中,80%概率真的被替换成[mask],10%的概率替换成一个随机的token,10%的概率什么都不干

NSP:有句子a和b,50%的概率b真的在a之后,50%的概率b是随机从别的地方选取出来的句子

实验

Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第4张图片
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第5张图片
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第6张图片

Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第7张图片
Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding_第8张图片

评价

没什么好说的,BERT yyds!

你可能感兴趣的:(NLP,读paper,自然语言处理,bert,深度学习,机器学习,人工智能)