Task 3: Subword Models

1.人类语言的声音:语音和语音学


  • 语音是声音流–毫无争议的“物理”
  • 语音学假设一小部分或几组独特的类别单元:音素或独特特征
  • 也许是普遍的类型学,但特定语言的实现
  • 类别感知的最佳证据来自语音学
    • 音素内差异缩小;音素间放大

Task 3: Subword Models_第1张图片

形态:词的一部分


  • 传统上,我们把语素作为最小的语义单元
  • [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
  • 深度学习:形态学研究很少;
    一次尝试递归神经网络是(Luong,Socher,&Manning 2013)

Task 3: Subword Models_第2张图片

<一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式(或数字)>

形态学


  • 一个简单的替代方法是使用字符n-gram
  • Wickelphones(Rumelhart&McClelland 1986)
  • 微软的DSSM(Huang,He,Gao,Deng,Acero和Hect 2013)
  • 有关使用卷积层的想法
  • 可以更轻松地提供语素的许多好处吗?

Task 3: Subword Models_第3张图片

书写系统中的单词


写作系统在表达单词的方式上有所不同-或不

  • 没有分词 例:美国关岛国际机场及其办公室均接获
  • 单词(主要)分为:This is a sentence with words
    • 批评家?

      • 分开的 Je vous ai apporté des bonbons
      • 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
    • 化合物?

      • 分开的 life insurance company employee
      • 已加入 Lebensversicherungsgesellschaftsangestellter

单词级别下的模型


  • 需要处理 large,openvocabulary
    • 丰富的形态:nejneobhospodařovávatelnějšímu
      (“to the worst farmable one”)

    • 音译:Christopher Kryštof

    • 非正式拼写:

Task 3: Subword Models_第4张图片

字符级别下的模型


1.单词嵌入可以由字符嵌入组成

  • 为未知单词生成嵌入
  • 相似的拼写共享相似的嵌入
  • 解决OOV问题

2.可以将连接的语言当作字符来处理两种方法都已证明非常成功!

  • 令人惊讶的是-传统上,音素/字母不是语义单位-但是DL模型组成了组

文字下方:书写系统


大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据
但是人类语言写作系统不是一回事!

     
音位(也许有字) jiyawu ngabulu Wambaya
僵化音素 thorough failure English
音节/摩拉 ᑐᖑᔪᐊᖓᔪᖅ Inuktitut
表意文字(音节符号) 去年太空船二号坠毁 Chinese
结合以上 インド洋の島 Japanese

2. 纯字符级模型


  • Wesawone很好的例子,用于句子分类的字符级模型
  • 非常深的卷积网络用于文本分类
  • Conneau,Schwenk,Lecun,Barrault,EACL 2017
  • 通过深度卷积堆栈获得强大结果

纯字符级NMT模型


-最初表现不理想•(Vilar等,2007; Neubig等,2013)

  • 仅解码器
  • (钟俊英,赵庆gh,Yoshua Bengio。arXiv
    2016)。
  • 有希望的结果
  • (Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)
  • (Thang Luong,Christopher Manning,ACL 2016)
  • (Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)

英语-捷克语WMT 2015成绩


  • LuongandManning测试了基准基线纯字符级seq2seq(LSTM)NMT系统
  • 针对关键字级别的基准进行了有效处理
  • Butitwasssllooooww
    • 3个星期的训练...在运行时不是那么快

Task 3: Subword Models_第5张图片

英语-捷克语WMT 2015示例


Task 3: Subword Models_第6张图片

Task 3: Subword Models_第7张图片

无需显式细分的全字符级神经机器翻译


Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.编码器如下; 解码器是字符级GRU

Task 3: Subword Models_第8张图片

在LSTM seq2seq模型中具有深度的更强字符结果


回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI

Task 3: Subword Models_第9张图片

3. 子词模型:两种趋势


  • 与词级模型相同的体系结构:
  • 但是使用较小的单位:“单词”
  • [Sennrich,Haddow,Birch,ACL’16a],[Chung,Cho,Bengio,ACL’16]。
  • 混合架构:
  • 主模型有文字; 角色的其他东西
  • [Costa-Jussà&Fonollosa,ACL’16],[Luong&Manning,ACL’16]。

字节对编码


  • 最初是压缩算法:
    • 最频繁的字节对一个新字节。

Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子词单位的稀有词的神经机器翻译。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus


  • 分词算法:
  • 虽然是自底向上的聚类
  • 以数据中所有(Unicode)字符的字母组合词表开头
  • 最常见的ngram对一个新的ngram

  • 分词算法:
  • 从字符词汇开始
  • 最常见的ngram对一个新的ngram

     

    Task 3: Subword Models_第10张图片


Task 3: Subword Models_第11张图片


Task 3: Subword Models_第12张图片


Task 3: Subword Models_第13张图片


  • 达到目标词汇量大小并在您到达时停止
  • 确定性最长的单词分段
  • 使用某些先前的标记器(通常是用于MT的Moses标记器)识别的单词进行细分
  • 自动决定vocabforsystem
    • 不再以传统方式强烈“用词”
      https://github.com/rsennrich/nematus

字词/句子模型


  • GoogleNMT(GNMT)使用以下版本
    • V1:字词模型
    • V2:句子模型
  • Ratherthancharn-gramcount,使用贪婪近似来最大化语言模型的对数可能性以选择片段
    • 添加最大程度减少困惑的n-gram
  • 单词模型对内单词进行标记
  • 句子模型来自原始文本
    • 空格保留为特殊标记(_)并正常分组
    • 您可以通过连接片段并将它们重新编码为空格来结束事物
    • https://github.com/google/sentencepiece
    • https://arxiv.org/pdf/1804.10959.pdf
  • BERT使用字词模型的变体
  • (相对)常用词在词汇表中:
    • 1910年代,费尔法克斯
  • 其他单词是由单词构成的:
    • hypatia = h ## yp ## ati ## a
      如果您以其他方式使用BERT
      基于模型,您必须处理

4. 字符级以构建词级学习词级表示形式


语音标记(Dos Santos和Zadrozny 2014)

  • 卷积字符以生成单词嵌入
  • 修复了用于PoS标记的词嵌入窗口

Task 3: Subword Models_第14张图片

基于字符的LSTM构建单词表示


Task 3: Subword Models_第15张图片

基于字符的LSTM


Task 3: Subword Models_第16张图片

技术方法


Task 3: Subword Models_第17张图片

字符感知神经语言模型

Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年
更为复杂/复杂的方法

  • 推导适用于多种语言的强大而强大的语言模型。
  • 编码子词相关性:事件,事件,事件...
  • 解决现有模型的稀有字问题。
  • 以更少的参数获得可比的表现力。

卷积层


  • 在字符级输入上进行卷积。
  • 随时间变化的最大池化(有效地选择n-gram)。

Task 3: Subword Models_第18张图片

公路网(Srivastava et al.2015)


  • 模拟n-gram交互。
  • 在保留原始信息的同时进行转换。
  • 功能类似于LSTM存储单元。

Task 3: Subword Models_第19张图片

长短期记忆网络


Task 3: Subword Models_第20张图片

  • 分层Softmax,用于处理大量输出词汇。
  • 通过截断的反向传播进行训练。

定量结果


Task 3: Subword Models_第21张图片

定性见解


Task 3: Subword Models_第22张图片

Task 3: Subword Models_第23张图片

外卖


  • 论文质疑使用词嵌入作为神经语言建模输入的必要性。
  • 字符上方的CNN +高速公路网络可以提取丰富的语义和结构信息。
  • 关键思想:您可以构成“构建基块”以获得细微而强大的模型!

混合NMT


  • 两全其美的架构:
  • 主要在单词级别进行翻译
  • 仅在需要时进入角色级别
  • 对复制机制进行了超过2种BLEU改进,以尝试填写稀有词

Task 3: Subword Models_第24张图片

2级解码


  • 单词级光束搜索

Task 3: Subword Models_第25张图片

  • 单词级光束搜索
  • 字符级光束搜索

Task 3: Subword Models_第26张图片

英语和捷克语的结果


  • 训练WMT’15数据(1200万个句子对)
    • newstest2015

Task 3: Subword Models_第27张图片

样本英语-捷克语翻译

Task 3: Subword Models_第28张图片

Task 3: Subword Models_第29张图片

  • Char-based:错误的名字翻译

Task 3: Subword Models_第30张图片

  • Word-based:不正确的对齐

     

    Task 3: Subword Models_第31张图片

  • Char-based&hybrid:diagnózen的正确翻译

     

    Task 3: Subword Models_第32张图片

  • 基于单词:身份复制失败

Task 3: Subword Models_第33张图片

  • hybrid:正确,11-year-old – jedenáctiletá
  • 错误:Shani Bartová

5. 单词嵌入的字符


Task 3: Subword Models_第34张图片

词嵌入和词形态的联合模型
(Cao and Rei 2016)

  • 与w2v相同的目标,但使用字符
  • 双向LSTM计算嵌入
  • 模型尝试捕获形态
  • 模型可以推断出词根

FastText embeddings


使用子词信息Bojanowski,Grave,Joulin和Mikolov丰富词向量。 公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

  • 目标:高效的类似于word2vec的单词表示库,但更适合具有多种形态的稀有单词和语言
  • w2v跳过语法模型的扩展,包含字符n-gram
  • 用边界符号和整个单词表示的单词表示为charcharn-gram:
  • where =
    • 请注意,
    • 前缀,后缀和整个单词都很特殊
  • 代表这些表示的词。
    上下文分数中的单词为:
    • 细节:不是共享所有n-gram的表示,而是使用“哈希技巧”来固定向量个数
  • 单词相似性数据集得分(相关性)

    Task 3: Subword Models_第35张图片

    • 稀有词的差别收益

    Task 3: Subword Models_第36张图片




    Reference:https://www.jianshu.com/p/57eef6923aef

    你可能感兴趣的:(CS224N,--,斯坦福自然语言处理课程笔记)