cs224n-笔记-lecture12-subwords

目录

  • 字符级模型介绍
  • Subword-models: Byte Pair Encoding and friends
  • 混合了字符和单词的模型(介于二者之间)
  • fasttext

字符级模型介绍

  • 一个用于句子级分类的字符级模型:
    非常深的卷积网络,用于文本分类
    Conneau, Schwenk, Lecun, Barrault. EACL 2017
  • 通过卷积层的堆叠,可以实现很好的结果

字符级的NMT模型

1.一开始,效果一般
(Vilar et al., 2007; Neubig et al., 2013)
2.只有解码层
(Junyoung Chung, Kyunghyun Cho, Yoshua Bengio. arXiv

3.更好的效果
(Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv

(Thang Luong, Christopher Manning, ACL 2016)
(Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)

English-Czech WMT 2015 Results

  • Luong 和 Manning验证了一个纯字符级的seq2seq(LSTM)NMT系统的baseline
  • 在单词级的baseline上运行不错
  • 速度太慢

Fully Character-Level Neural Machine Translation without Explicit Segmentation

Jason Lee, Kyunghyun Cho, Thomas Hoffmann. 2017.
Encoder层如下;Decoder是一个字符级的GRU


更强大的字符级的成果:深度的LSTM seq2seq model

Revisiting Character-Based Neural Machine Translation with Capacity and Compression. 2018.
Cherry, Foster, Bapna, Firat, Macherey, Google AI


  • 在捷克语这种比较复杂的语言中,字符级模型的效果提升明显;但在英语和法语中效果一般
  • 模型较小时,word-level效果更好;模型较大时,character-level效果更好

sub-word模型的两个趋势

1.和word-level相似的结构:

  • 使用“word pieces”作为更小的单元
  • [Sennrich, Haddow, Birch, ACL’16a], [Chung, Cho, Bengio, ACL’16].
    2.混合结构:
  • 主要部分使用单词级的;特定的地方使用字符级
  • [Costa-Jussà & Fonollosa, ACL’16], [Luong & Manning, ACL’16].

Subword-models: Byte Pair Encoding and friends

BPE不算是深度学习的模型,但是已经成为了一个标准的用法,获得了广泛的成功

最初的压缩算法:

  • 通过许多的高频字节生成新的字节

分词算法word-segmentation

1.类似于一种自下而上的短序列聚类
2.将数据中的所有Unicode字符组成一个unigram的词典
3.最常见的ngram paris视作一个新的ngram






在这个过程中:
1.有一个目标词汇数,如果表中数量达到就停止;
2.做确定性的最长分词分割;
3.分词只在先前的tokenizer上进行;
4.自动为系统添加词汇;

Wordpiece/Sentencepiece model

  • 谷歌NMT(GNMT)使用了一个它的变体
    v1:wordpiece model
    v2:sentencepiece model
  • 不再使用字符的ngram count,而是使用贪心近似来最大化语言模型的对数似然函数值,选择对应的pieces(最大限度地减少了ngram带来的复杂性)
  • wordpiece模型标记内部单词
  • sentencepiece模型使用原始文本
    1.空格被保留成特殊的“_”,并正常分组
    2.可以将片段连接起来重新编码到空格中,在末尾将内容反转
  • bert使用了一个wordpiece的一个变体

混合了字符和单词的模型(介于二者之间)

(待补充)

fasttext

用subword信息丰富单词向量
Bojanowski, Grave, Joulin and Mikolov. FAIR. 2016.
https://arxiv.org/pdf/1607.04606.pdf • https://fasttext.cc

  • 目标:下一代强大的类似于word2vec的单词表示库,更适合于具有大量形态学的罕见单词和语言
  • 带有字符的n-grams的w2v的skip-gram模型的扩展
  • 将单词表示为用边界符号和整词扩充的字符n-grams
  • where = , (在这里,(her)和(her是不同于her的,因为前后缀)
  • 将word表示为这些表示的和。上下文单词的得分是:


你可能感兴趣的:(cs224n-笔记-lecture12-subwords)