机器学习笔记: ELMO BERT

Embeddings from Language Model (ELMO)

1.1 Contextualized Word Embedding

在之前的word embedding中,同一个单词(同样type的内容),会被表示成相同的embedding。

但是一个单词会有很多的意思(token),比如下图中的”bank“,就有不同的含义 

机器学习笔记: ELMO BERT_第1张图片

 所以我们需要给不同的token,以不同的embedding

 机器学习笔记: ELMO BERT_第2张图片

 1.2 ELMO

基于RNN的language model

给这个RNN-based model 很多个句子,让他学。

中间的这个蓝色的hidden layer,就是考虑了前文的 embedding

机器学习笔记: ELMO BERT_第3张图片

当然可以不止学习前向顺序,还可以学习反向顺序,将二者的embedding拼起来 

机器学习笔记: ELMO BERT_第4张图片

 这种基于RNN的模型也可以叠很多层,那么就会有很多的中间hidden state,那么,如何选择/如何合理利用这些hidden state呢机器学习笔记: ELMO BERT_第5张图片

 ELMO的做法是,学一组加权系数,将这些hidden 都考虑进来

机器学习笔记: ELMO BERT_第6张图片

 右下方是一个例子,Token表示没有经过一层RNN,也就是原始的embedding,LSTM 1表示经过了一层RNN,LSTM2表示经过了2层RNN。加权的系数α1和α2是根据下游任务学出来的

2  Bidirectional Encoder Representations from Transformers (BERT)

2.0 简单的理解

简单但不严谨的理解,可以把Bert看成是Transformer的encoder部分机器学习笔记: ELMO BERT_第7张图片

 我喂入Bert一句句子,输出的是句子中每个单词的embedding机器学习笔记: ELMO BERT_第8张图片

2.0.1 BERT的输入 机器学习笔记: ELMO BERT_第9张图片

 2.0.2 BERT的特点

  • Pre-train:这是个预训练的语言模型
  • Deep
  • Bidirectional Transformer:Transformer的encoder部分
  • Language Understanding:Contextualized Word Embedding

2.1 Bert的训练

2.1.1 Masked LM 

        把输入句子中一定比例(论文中是15%)的词汇替换为MASK(也就是被遮住),让BERT猜测被盖住的地方是一个什么词汇【注:原论文中,这些被选中的单词80%的概率被替换成MASK,10%的概率替换成随机别的单词,10%的概率不变】

 机器学习笔记: ELMO BERT_第10张图片

         每一个词经过BERT得到一个相应的embedding。把被遮住部分的embedding未入一个线性分类器,预测被MASK掉的词是哪个词。

        由于线性的分类器能力非常有限,所以需要BERT学出非常好的embedding(分类预测的词和实际遮住的词是一样/相近的)

机器学习笔记: ELMO BERT_第11张图片

 

2.1.2 Next Sentence Prediction

给两个句子,判断这两个句子是接在一起的还是不接在一起的

机器学习笔记: ELMO BERT_第12张图片

CLS表示特殊的token,代表要做分类

【注:原始论文中,50%的是相邻的两句话,50%的不是相邻的两句话】

为什么CLS在开头呢?

如果是正向RNN,那CLS确实应该放在末尾,这样才能看到整个句子的内容

但是BERT的内部是transformer的encoder,也就是self-attention。不考虑positional encoding的话, CLS无论放在开头还是结尾,差别都不会很大。

2.2 BERT应用

 BERT+downstream task BERT参数微调,downstream从零开始训练

——》由于大部分参数BERT都学过了,所以实际上要学的参数非常少

2.2.1 句子分类

 机器学习笔记: ELMO BERT_第13张图片

这边的CLS代表分类的符号

2.2.2 每个单词属于那个类

机器学习笔记: ELMO BERT_第14张图片

 2.2.3 根据前提,是否能得到某个假设

机器学习笔记: ELMO BERT_第15张图片

 2.2.4 Extraction-based Question Answering (QA)

给出文本回答问题(问题的答案一定在文本中出现过)机器学习笔记: ELMO BERT_第16张图片

 输入文本和问题,输出两个整数s,e,表示答案就在qs到qe之间

机器学习笔记: ELMO BERT_第17张图片

 那么怎么实现呢?除了BERT之外,我们还需要学习两个向量(一红一蓝)

机器学习笔记: ELMO BERT_第18张图片

红色的向量和BERT输出的embedding 分别做内积,然后进行softmax,选择结果最大的,作为s

蓝色的向量做的事情和红色的向量做的是一致的,不过蓝色向量学习的是e

 机器学习笔记: ELMO BERT_第19张图片

 这里会存在一个问题,如果学出来的s在e后面咋办?那么说明这个问题无解

3 GPT

可以在一定程度上看成是Transformer的 Decoder

在完全没有训练资料的情况下硬做

给定一些词汇,预测接下来的词汇。

和已经看到过的词汇做attention机器学习笔记: ELMO BERT_第20张图片

 机器学习笔记: ELMO BERT_第21张图片

 3.1 GPT应用

3.1.1 Reading Comprehension

将如下内容送入GPT中,获得输出 

机器学习笔记: ELMO BERT_第22张图片

3.1.2 summarization

3.1.3 Translation

 机器学习笔记: ELMO BERT_第23张图片

参考文献:干货丨Bert算法:语言模型-BERT详细介绍 (baidu.com) 

ELMO, BERT, GPT - YouTube

你可能感兴趣的:(机器学习,机器学习,bert,人工智能)