BERT疑惑记录

1、单个句子的任务,我们拿第一个cls向量,上面接一些全连接层,做一个分类,标注的数据 fine-tuningbert参数也包括全连接的一个参数,为什么选择第一个?


bert任务还是预测这个词,预测的时候会参考其他的词,如eat本身还是吃的语义,直接根据eat去分类,显然是不可以的,cls没有太多其他词的语义,所以它的语义完全来自其他的语义 来自整个句子,编码了整个句子的语义,用它做可以,当然也可以得出所有结果进行拼接后,再来进行预测。

2、为什么说BERT使用的是双向Transformer?

这个问题不是很明确答案,但是个人感觉,BERT和openAI发布的GPT一个很大的不同在于预训练方式,BERT是通过上下文来预测mask的词语,GPT则是通过上文来预测mask的词语,这从一方面表明了单向与双向的差别。

3、BERT中的Transformer block与 Transformer区别?

看过BERT源码的应该都很清楚,BERT中的Transformer block的结构如下所示(画的有点丑):

BERT疑惑记录_第1张图片

而并非Attention is all you need 论文中的结构,如下所示:

BERT疑惑记录_第2张图片

你可能感兴趣的:(深度学习,BERT,Transformer)