CS224n学习笔记 12_Subword Models

CS224n学习笔记 12

    • Human language sounds: Phonetics and phonology
      • Character-Level Models
      • Below the word: Writing systems
    • Purely character-level models
      • Purely character-level NMT models
      • Fully Character-Level Neural Machine Translation without Explicit Segmentation
    • Sub-word models: two trends
      • Byte Pair Encoding
      • Character-Aware Neural Language Models
      • Hybrid NMT

Human language sounds: Phonetics and phonology

Phonetics 语音学是一种音流——物理学或生物学。 Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme音素或者是独特的特征;这也许是一种普遍的类型学,但却是一种特殊的语言实现。
CS224n学习笔记 12_Subword Models_第1张图片

Character-Level Models

词嵌入可以由字符嵌入组成

  • 为未知单词生成嵌入
  • 相似的拼写共享相似的嵌入
  • 解决OOV问题

连续语言可以作为字符处理:即所有的语言处理均建立在字符序列上,不考虑 word-level

Below the word: Writing systems

大多数深度学习NLP的工作都是从语言的书面形式开始的——这是一种容易处理的、现成的数据

但是人类语言书写系统不是一回事!各种语言的字符是不同的!

CS224n学习笔记 12_Subword Models_第2张图片

Purely character-level models

Purely character-level NMT models

  • 以字符作为输入和输出的机器翻译系统
  • 最初,效果不令人满意 (Vilaret al., 2007; Neubiget al., 2013)
  • 只有decoder(成功的)(JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016)
  • 然后有前景的结果
    • (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
    • (Thang Luong, Christopher Manning, ACL 2016)
    • (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)

Fully Character-Level Neural Machine Translation without Explicit Segmentation

Jason Lee, KyunghyunCho, Thomas Hoffmann. 2017.

编码器结构如下图所示,而解码器是一个字符级的GRU:
CS224n学习笔记 12_Subword Models_第3张图片

Sub-word models: two trends

Character-Level model大体可以分为两个趋势:一种是与word-level model相同的架构
但是使用更小的单元——word pieces,只不过是输入不同,另一种是hybrid模型,主模型使用word-level model,其他模型使用character-level model。

Byte Pair Encoding

  • 有一个目标词汇量,当你达到它的时候就停止
  • 做确定性的最长分词分割 分割只在某些先前标记器(通常MT使用的 Moses tokenizer)标识的单词中进行
  • 自动为系统添加词汇 不再是基于传统方式的 strongly “word”
  • 2016年WMT排名第第一,仍然广泛应用于2018年WMT

CS224n学习笔记 12_Subword Models_第4张图片CS224n学习笔记 12_Subword Models_第5张图片

Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. 2015

  • 一个更复杂/精密的方法
  • 动机
    • 派生一个强大的、健壮的语言模型,该模型在多种语言中都有效
    • 编码子单词关联性:eventful, eventfully, uneventful…
    • 解决现有模型的罕见字问题
    • 用更少的参数获得可比较的表达性
      模型结构如下:
      CS224n学习笔记 12_Subword Models_第6张图片
      CS224n学习笔记 12_Subword Models_第7张图片

Hybrid NMT

  • Abest-of-both-worlds architecture
    • 翻译大部分是单词级别的
    • 只在需要的时候进入字符级别
  • 使用一个复制机制,试图填充罕见的单词,产生了超过 2 BLEU的改进

结构如下图所示:
CS224n学习笔记 12_Subword Models_第8张图片

你可能感兴趣的:(CS224n,学习笔记,python,深度学习,人工智能,自然语言处理)