NLP发展

一、Word Embedding

1.Word2Vec(2013)

分布式假设:假设两个词上下文相似,则它们的语义也相似。

NLP发展_第1张图片 

2.GloVe

(1)词向量学习算法有两个主要的模型族:

  基于全局矩阵分解的方法,如:latent semantic analysis:LSA 。

    优点:能够有效的利用全局的统计信息。

    缺点:在单词类比任务(如:国王 vs 王后 类比于男人 vs 女人)中表现相对较差。

  基于局部上下文窗口的方法,如:word2vec。

    优点:在单词类比任务中表现较好。

    缺点:因为word2vec 在独立的局部上下文窗口上训练,因此难以利用单词的全局统计信息。

  Global Vectors for Word Representation:GloVe 结合了LSA 算法和Word2Vec 算法的优点,既考虑了全局统计信息,又利用了局部上下文。

  Cbow/Skip-Gram 是一个local context window的方法,缺乏了整体的词和词的关系,负样本采用sample的方式会缺失词的关系信息。
另外,直接训练Skip-Gram类型的算法,很容易使得高曝光词汇得到过多的权重

  Global Vector融合了矩阵分解Latent Semantic Analysis (LSA)的全局统计信息和local context window优势。融入全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重。

 

(2)原理

NLP发展_第2张图片

 

 NLP发展_第3张图片

 

 NLP发展_第4张图片

 

NLP发展_第5张图片

 

 

 

 

 

二、RNN改进和扩展

问题:词向量不考虑上下文,无法解决“一词多义”

解决方案:RNN具有“记忆”能力

1.RNN

NLP发展_第6张图片

 

NLP发展_第7张图片

 

RNN的问题:顺序依赖,无法并行。(单向信息流)

2.LSTM/GRU

2.1 LSTM

NLP发展_第8张图片

 

 

2.2 GRU

NLP发展_第9张图片

 

 

3.Seq2Seq

可用于翻译、摘要、问答和对话系统

NLP发展_第10张图片

 

问题:定长的context向量

 

4.Attention/Self Attention

NLP发展_第11张图片

NLP发展_第12张图片

 

 

NLP发展_第13张图片

 

5.Transformer结构

解决:RNN单向数据流的问题

NLP发展_第14张图片

三、Contextual Word Embedding

问题:监督数据量不足,难以学到复杂的上下文表示;

解决方案:无监督的contextual word embedding:ELMo、OpenAI GPT、BERT

1.ELMo

NLP发展_第15张图片

2.OpenAI GPT

NLP发展_第16张图片

 

NLP发展_第17张图片

 

NLP发展_第18张图片

 

NLP发展_第19张图片

3.BERT

NLP发展_第20张图片

 

 

Masked LM:masked language model

NLP发展_第21张图片

 

 

NLP发展_第22张图片

 

 NLP发展_第23张图片

举例:意图分类

问题:给定一个句子,判断其意图分类,几万训练数据,几百个类别,数据不平衡

结果:BERT分类器比BaseLine分类器F1值得分提高3%

NLP发展_第24张图片

 

 

NLP发展_第25张图片

 

 

 

 

 

 

 

 

 

参考文献:

【1】60分钟带你掌握NLP BERT理论与实战_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

【2】详解Transformer (Attention Is All You Need) - 知乎

你可能感兴趣的:(NLP发展)