2018 · NAACL · BP · Deep Contextualized Word Representations

2018 · NAACL · BP · Deep Contextualized Word Representations

问题:以往的词向量表示的语义信息并不丰富,没有挖掘到深层的语义和语法信息。

价值:通过丰富词向量表示,在downstream中提升各种表现性能

方法:非常简单的想法,利用多层的RNN表示网络,表示出深层的上下文依赖的词向量,之前是只使用embedding,这次直接把RNN一起搬过来了。

缺点:参数太多,计算量很大。

详细方案

  • 有监督的downstream NLP task
2018 · NAACL · BP · Deep Contextualized Word Representations_第1张图片
-c350

表示正向第j层rnn/cnn的第k个单词表示, 是经过char rnn/char cnn的word embedding。然后经过整合降维:

-c350

其中
中的w是一个独立的可训练的参数shape = (num_layers, ),用来加权各个layer的分布,毕竟layer所表示的东西不同。同样的
也是一个可以训练的常量。

  • 对于无监督学习
    使用了CNN-BIG-LSTM结构,和一个层之间的残差链接,利用语言模型进行预训练模型。然后downstream接在后面可以finetune


    2018 · NAACL · BP · Deep Contextualized Word Representations_第2张图片
    -c350

trick : 模型最后加入了一个正则项,防止s变大

数据集
1. SQUAD
2. Stanford Natural Language Inference (SNLI) corpus
3. Reuters RCV1 corpus (NER)
4. Stanford Sentiment Tree- bank (SST-5)

实验
首先是证明ELMo的有效性,在分类,推理,SQUAD上产生的结果提升

2018 · NAACL · BP · Deep Contextualized Word Representations_第3张图片
-c400

模型内部对比,集中接入方式和的取值对结果的影响

2018 · NAACL · BP · Deep Contextualized Word Representations_第4张图片
-c350

不清楚有什么用


2018 · NAACL · BP · Deep Contextualized Word Representations_第5张图片
-c350

看了一个邻近词结果显示,理解的层次更深了。


2018 · NAACL · BP · Deep Contextualized Word Representations_第6张图片
-c400

后面两个实验,意义不大


2018 · NAACL · BP · Deep Contextualized Word Representations_第7张图片
-c500

你可能感兴趣的:(2018 · NAACL · BP · Deep Contextualized Word Representations)