神经翻译笔记3扩展e第2部分. Subword

文章目录

  • NMT Tutorial 3扩展e第2部分. Subword
    • 序言
    • 分词方法介绍
      • BPE
        • 原理与算法
        • 使用
      • Morfessor
        • 术语
        • 方法
          • 模型与损失函数
            • 似然
            • 先验
          • 训练与解码算法
            • 参数初始化
            • 全局维特比算法
            • 局部维特比算法
            • 递归算法
            • 似然权重与半监督学习
    • fastText
      • 算法原理
      • 实现
    • 参考文献
    • 附录
      • MAP估计
      • HMM模型
        • 马尔可夫模型
        • 马尔可夫链
        • 隐马尔可夫模型
          • 求解似然问题:前向算法
          • 求解解码问题:维特比算法
          • 求解学习问题:前向-后向算法(Baum-Welch算法)
      • 参考文献

NMT Tutorial 3扩展e第2部分. Subword

序言

按照布隆菲尔德的理论,词被认为是人类语言中能自行独立存在的最小单位,是“最小自由形式”。因此,对西方语言做NLP时,以词为基石是一个很自然的想法(甚至对于汉语这种没有明显词界限的语言来说,分词也成为了一个重要的工作)

但是,将某个语言的词穷举出来是不太现实的。首先,名词、动词、形容词、副词这四种属于开放词类,总会有新的词加入进来。其次,网络用语会创造出更多新词,或者为某个词给出不规则的变形。最后,以德语为代表的语言通常会将几个基本词组合起来,形成一个复合词,例如Abwasserbehandlungsanlage “污水处理厂”可以被细分为Abwasser、behandlungs和Anlage三个部分。韩语、日语等黏着语里这种现象更加明显(需要说明的是,尽管德语里存在着这种黏着语构词的方法,但是传统意义上不把德语看作是黏着语的一种)。即便是存在某个语言能获得其完整词表,词表的数量也会非常庞大,使得模型复杂度很高,训练起来很难。对于以德语、西班牙语、俄语为代表的屈折语,也会存在类似的问题(例如西班牙语动词可能有80种变化)。因此,在机器翻译等任务中,从训练语料构造词表时,通常会过滤掉出现频率很低的单词,并将这些单词统一标记为UNK。根据Zipf定律,这种做法能筛掉很多不常见词,简化模型结构,而且可以起到部分防止过拟合的作用。此外,模型上线做推断时,也有很大概率会遇到在训练语料里没见过的词,这些词也会被标为UNK。所有不在词表里被标记为UNK的词,通常被称作集外词(OOV)或者未登录词

对未登录词的处理是机器翻译领域里一个十分重要的问题。[Sennrich2016]认为,对于某些未登录词的翻译可能是”透明“的,包括

  • 命名实体,例如人名、地名等。对于这些词,如果目标语言和源语言的字母体系相同,可能可以直接抄写;如果不同,需要做些转写。例如将英语的Barack Obama转写成俄语的Барак Обама
  • 借词,可以通过字母级别的翻译做到,例如将claustrophobia翻译成德语的Klaustrophobie和俄语的Клаустрофобия
  • 词素复杂的词,例如通过组合或者屈折变化得到的词,可以将其进一步拆分为词素,通过分别翻译各个词素的得到结果。例如将英语的solar system翻译成德语的Sonnensystem或者匈牙利语的Naprendszer

因此,将词拆分为更细粒度的subword(有时被译为“子词”),可以有助于机器翻译效果的提升。文章同时指出使用一种称为“比特对编码”(Byte Pair Encoding——BPE)的算法可以将词进一步划分,但是BPE对单词的划分是纯基于统计的,得到的subword所蕴含的词素,或者说形态学信息,并不明显。因此,本文对一种基于形态学的分词器Morfessor也做了一个介绍。Morfessor使用的是无监督学习的方法,能达到不错的准确率。最后,本文会重点介绍2016年FAIR提出的一种基于subword的词嵌入表示方法fastText

除去subword方法以外,还可以将词拆成字符,为每个字符训练一个字符向量。这种方法很直观,也很有效,不过无需太费笔墨来描述。关于字符向量的优秀工作,可以参考[Bojanowski2015]的“相关工作”部分。

分词方法介绍

BPE

原理与算法

BPE算法[Gage1994]的本质实际上是一种数据压缩算法。数据压缩的一般做法都是将常见比特串替换为更短的表示方法,而BPE也不例外。更具体地说,BPE是找出最常出现的相邻字节对,将其替换成一个在原始数据里没有出现的字节,一直循环下去,直到找不到最常出现的字节对或者所有字节都用光了为止。打包数据之前,算法会写出字节对的替换表。例如,对"lwlwlwlwrr"使用BPE算法,会先把lw替换为a,得到"aaaarr",然后把"aa"替换为"b",得到"bbrr"。此时所有相邻字节对"bb"、“br”、"rr"的出现次数相等,迭代结束,输出替换表{“b” -> “aa”, “a” -> “lw”}

对于压缩算法而言,这种做法还不够,需要考虑更多细节。但是对于分词而言,上述流程已经足够了(实际上,真正使用时也没有什么替换表之类的)。将BPE用作分词时,先将词表里的所有单词展开成字符序列,并在末尾加一个特殊标记,以恢复成原有的标识符。然后,也是对所有字符对做计数,找到出现最频繁的(例如(“A”, “B”)),将其合并得到新的符号"AB",看做一个“字符”,如此往复。因此,最后词表大小是原始词表大小+合并操作的次数。为了效率起见,BPE不考虑跨词的字符组合。BPE算法的核心学习过程可以写做如下Python代码

import re
import collections


def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq
    return pairs


def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(? + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out


def main():
    vocab = {'l o w': 5, 'l o w e r': 2,
             'n e w e s t': 6, 'w i d e s t': 3}
    num_merges = 10
    for i in range(num_merges):
        pairs = get_stats(vocab)
        best = max(pairs, key=pairs.get)
        vocab = merge_vocab(best, vocab)
        print(best)


if __name__ == '__main__':
    main()

测试阶段,对未登录词,可以将其先拆分成字符序列,然后用前面学到的组合方式将字符组成更大的,已知的符号。核心算法如下:

def encode(word, bpe_codes):
    pairs = get_pairs(word)  # went -> {('w', 'e'), ('e', 'n'), ('n', 't')}
    while True:
        获取频率最低的二元组。如果所有二元组都不在bpe_codes里,跳出循环
        将pairs中对应的二元组合并,得到new_word # 如果('e', 'n') -> 'en',则得到('w', 'en', 't')
        如果new_word是一元组(所有单词合并到一起),跳出循环。否则更新pairs

由于未登录词通常会被这种方法拆成若干个subword,因此通常会向不在原来词尾的subword后面写明一个分隔符,通常是@@。例如,假如said这个词不在词表里,encode以后得到('sa', 'i', 'd'),那么输出会是sa@@ i@@ d

使用

可以用命令pip install subword-nmt安装包subword-nmt以后,可以使用如下代码得到BPE的分词结果,以及将BPE的分词方法用到测试语料上

from subword_nmt import apply_bpe, learn_bpe


with open('../data/toy_vocab.txt', 'r', encoding='utf-8') as in_file, \
        open('../data/toy_bpe.txt', 'w+', encoding='utf-8') as out_file:
    # 得到分词结果,写到../data/toy_bpe.txt这个文件中
    # 1500是最后BPE词表大小,is_dict说明输入文件是个词表文件,格式为"<单词> <次数>"
    learn_bpe.learn_bpe(in_file, out_file, 1500, verbose=True, is_dict=True)

with open('../data/bpe_test_raw.txt', 'r', encoding='utf-8') as in_file, \
        open('../data/bpe_test_processed.txt', 'w+', encoding='utf-8') as out_file, \
        open('../data/toy_bpe.txt', 'r', encoding='utf-8') as code_file:
    # 构造BPE词表
    bpe = apply_bpe.BPE(code_file)
    for line in in_file:
        # 使用BPE分词
        out_file.write(bpe.process_line(line))

Morfessor

BPE是一套很经典也很常用的获取subword的方法,但是美中不足的是该方法完全基于频率统计,因此分出来的subword可能不太包含语法含义。可以考虑将词从语法角度做进一步划分,拆成语素。由于语素是最小的语法单位,是最小的语音语义结合体,因此它们本身比字符承载了更多的语法含义,同时比词更灵活。很多工作,例如[Botha2014] [Cui2015] [Luong2013] [Qiu2014]都采取了这样的思路,这些工作在划分语素时都使用了Morfessor [Creutz2007] 这个工具,因此本节主要讨论Morfessor的原理。本文主要遵从2.0版本文档[Virpioja2013]的脉络,而非原始论文,因此这里主要讨论Morfessor Baseline的2.0实现,没有涵盖Morfessor Categories-MAP的内容。

术语

原文提了三个基本概念,分别是compounds, constructions和atoms。考虑到这三个词比较抽象,不太好找到中文里对应的词,本文所关注的又只是词语划分到词素的过程,因此下文使用的是原文里提供的对应关系:

  • compounds,对应于原始词
  • constructions,对应于划分得到的词素
  • atoms,对应于字母

需要注意的是,Morfessor能做的不只是将词划分为词素,还可以从句子中得到短语,所以compounds等概念在别的任务中,会有不同的具体含义

方法

所有Morfessor的模型包括两个部分,有词典(lexicon)和语法(grammar)。前者存储词素的属性,后者确定如何将词素组成词。Morfessor有两个基本假设

  • 词由一个或多个词素构成,单个词中所含词素的上限是该词包含的字母个数
  • 组成词的词素是独立出现的。这个假设虽然与事实相悖而且是可能的改进点,但是会使算法变得简单

模型的损失函数来自于对模型的最大后验概率估计(MAP估计),分为两个部分:模型似然(来自于前面的基本假设)和先验概率(决定模型中词典的概率)。训练算法总体上来讲是使用贪婪算法和局部搜索策略,而解码使用了维特比(Viterbi)算法

模型与损失函数

Morfessor使用的是生成概率模型,对给定的参数 θ ​ \boldsymbol{\theta}​ θ,产生词 W ​ W​ W和分解结果 A ​ A​ A(原文称为analysis)。对词 w ​ w​ w,其分解结果 a ​ \boldsymbol{a}​ a可以通过分词函数 ϕ ​ \phi​ ϕ获得
a = ϕ ( w ; θ ) \boldsymbol{a} = \phi(w;\boldsymbol{\theta}) a=ϕ(w;θ)
此时 a \boldsymbol{a} a可以看作是一串词素组成的序列 a = ( m 1 , ⋯   , m n ) \boldsymbol{a} = (m_1, \cdots, m_n) a=(m1,,mn) w w w可以通过对 a \boldsymbol{a} a做合词操作 ϕ − 1 \phi^{-1} ϕ1重新获得。一般情况下, ϕ − 1 \phi^{-1} ϕ1只是一个简单的连接操作,不需要模型

模型的目标是要对观察到的训练数据 D W \boldsymbol{D}_W DW寻找最可能的参数 θ \boldsymbol{\theta} θ
θ M A P = a r g max ⁡ θ p ( θ ∣ D W ) = a r g max ⁡ θ p ( θ ) p ( D W ∣ θ ) \boldsymbol{\theta}_{\rm MAP} = \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} p(\boldsymbol{\theta}|\boldsymbol{D}_W) = \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} p(\boldsymbol{\theta})p(\boldsymbol{D}_W|\boldsymbol{\theta}) θMAP=argmaxθp(θDW)=argmaxθp(θ)p(DWθ)

似然

假设 D W \boldsymbol{D}_W DW 是训练数据,包含 N N N个单词和单词之间的分界( # w \#w #w)。假设每个词出现的概率是独立的,则对数似然为
log ⁡ p ( D W ∣ θ ) = ∑ j = 1 N log ⁡ p ( W = w j ∣ θ ) = ∑ j = 1 N log ⁡ ∑ a ∈ Φ ( w j ) p ( A = a ∣ θ ) \begin{aligned} \log p(\boldsymbol{D}_W|\boldsymbol{\theta}) &= \sum_{j=1}^N \log p(W=w_j|\boldsymbol{\theta}) \\ &= \sum_{j=1}^N \log \sum_{\boldsymbol{a} \in \Phi(w_j)} p(A=\boldsymbol{a}|\boldsymbol{\theta}) \end{aligned} logp(DWθ)=j=1Nlogp(W=wjθ)=j=1NlogaΦ(wj)p(A=aθ)
其中 Φ ( w ) = { a : ϕ − 1 ( a ) = w } \Phi(w) = \{\boldsymbol{a} : \phi^{-1}(\boldsymbol{a}) = w\} Φ(w)={a:ϕ1(a)=w}。假设变量 Y \boldsymbol{Y} Y为训练数据中的每个单词 w j w_j wj分配一个 Φ ( w j ) \Phi(w_j) Φ(wj)中的分词序列,即 Y = ( y 1 , ⋯   , y N ) \boldsymbol{Y}= (\boldsymbol{y}_1, \cdots, \boldsymbol{y}_N) Y=(y1,,yN),则目标函数变为
log ⁡ p ( D W ∣ θ , Y ) = ∑ j = 1 N log ⁡ p ( y j ∣ θ ) = ∑ j = 1 N log ⁡ p ( m j 1 , ⋯   , m j ∣ y j ∣ , # w ∣ θ ) \log p(\boldsymbol{D}_W|\boldsymbol{\theta}, \boldsymbol{Y}) = \sum_{j=1}^N \log p(\boldsymbol{y}_j|\boldsymbol{\theta}) = \sum_{j=1}^N \log p(m_{j1}, \cdots, m_{j|\boldsymbol{y}_j|}, \#_w|\boldsymbol{\theta}) logp(DWθ,Y)=j=1Nlogp(yjθ)=j=1Nlogp(mj1,,mjyj,#wθ)
由前面的基本假设2,上式可以简化为
log ⁡ p ( D W ∣ θ , Y ) = ∑ j = 1 N ( log ⁡ p ( # w ∣ θ ) + ∑ i = 1 ∣ y j ∣ log ⁡ p ( m j i ∣ θ ) ) \log p(\boldsymbol{D}_W|\boldsymbol{\theta},\boldsymbol{Y}) = \sum_{j=1}^N \left(\log p(\#_w|\boldsymbol{\theta}) + \sum_{i=1}^{|\boldsymbol{y}_j|}\log p(m_{ji}|\boldsymbol{\theta})\right) logp(DWθ,Y)=j=1Nlogp(#wθ)+i=1yjlogp(mjiθ)

先验

原始的Morfessor实现将模型参数分为两部分,就是前面说的词典 L ​ \mathcal{L}​ L和语法 G ​ \mathcal{G}​ G。本文介绍的Morfessor Baseline没有语法参数,所以参数先验 p ( θ ) = p ( L ) ​ p(\boldsymbol{\theta}) = p(\mathcal{L})​ p(θ)=p(L)。先验概率影响的结果是,对于某个词典,它存储的词素越短越少,则概率越高。对于词素 m i ​ m_i​ mi,如果 p ( m i ∣ θ ) > 0 ​ p(m_i|\boldsymbol{\theta}) > 0​ p(miθ)>0,那么说它是被存储了的。有 μ ​ \mu​ μ个词素的词典的概率是
p ( L ) = p ( μ ) × p ( p r o p e r t i e s ( m 1 ) , … , p r o p e r t i e s ( m μ ) ) × μ ! p(\mathcal{L}) = p(\mu) \times p({\rm properties}(m_1), \ldots, {\rm properties}(m_\mu)) \times \mu ! p(L)=p(μ)×p(properties(m1),,properties(mμ))×μ!
使用阶乘项的原因是 μ \mu μ个词素有 μ ! \mu ! μ!种排列方式,而对词典来说相同内容的不同排列都是等价的。 p ( μ ) p(\mu) p(μ)可以忽略掉

上式中的“属性”properties可以进一步划分为“形式”form和用法usage

  • “形式”指的是词素由哪些字母组成,被认为是独立的。词素 m i m_i mi的“形式”的概率分为两个部分,一个是长度分布 p ( L ) p(L) p(L),一个是字母序列 σ i \boldsymbol{\sigma}_i σi的类别分布 p ( C ) p(C) p(C)
    p ( σ i ) = p ( L = ∣ σ i ∣ ) ∏ j = 1 ∣ σ i ∣ p ( C = σ i j ) p(\boldsymbol{\sigma}_i) = p(L=|\boldsymbol{\sigma}_i|)\prod_{j=1}^{|\boldsymbol{\sigma}_i|}p(C=\boldsymbol{\sigma}_{ij}) p(σi)=p(L=σi)j=1σip(C=σij)

  • “用法”指的是每个词素的数量 τ i \tau_i τi ν = ∑ i τ i \nu = \sum_i \tau_i ν=iτi是所有词素的总数。可以通过 ν \nu ν来计算每个词素的最大似然估计: p ( m i ∣ θ ) = τ i / ( N + ν ) p(m_i|\boldsymbol{\theta}) = \tau_i / (N+\nu) p(miθ)=τi/(N+ν)。给定 μ \mu μ ν \nu ν,词素数量的先验为
    p ( τ 1 , … , τ μ ∣ μ , ν ) = 1 / ( ν − 1 μ − 1 ) p(\tau_1, \ldots, \tau_\mu | \mu, \nu) = 1/{\nu-1 \choose \mu-1} p(τ1,,τμμ,ν)=1/(μ1ν1)
    也就是说,每个词素序列的先验都相同

训练与解码算法

Morfessor使用了无监督/半监督学习方法来训练模型,支持批量训练和在线训练。批量训练可以使用全局搜索算法和局部搜索算法,而在线训练只能使用局部搜索算法

参数初始化

Morfessor 2.0的初始化方法是对每个单词的字母之间随机插入空格,将得到的词素放入词典,并对应地初始化 Y \boldsymbol{Y} Y

全局维特比算法

Morfessor没有使用HMM常用的前向-后向算法来求解,主要是因为可能的划分方式太多,计算量太大,而且没有封闭解析解。因此工具首先为每个单词找到最可能的分解结果 ϕ b e s t ( w ; θ ( t − 1 ) ) ​ \phi_{\rm best}(w;\boldsymbol{\theta}^{(t-1)})​ ϕbest(w;θ(t1)),然后更新参数来最小化损失函数
θ ( t ) = a r g min ⁡ θ { − log ⁡ p ( θ ) − log ⁡ ∏ j = 1 ∣ D W ∣ p ( ϕ b e s t ( w j ; θ ( t − 1 ) ) ∣ θ ) } \boldsymbol{\theta}^{(t)} = \mathop{ {\rm arg}\min}_{\boldsymbol{\theta}}\left\{-\log p(\boldsymbol{\theta}) - \log \prod_{j=1}^{|\boldsymbol{D}_W|}p\left(\phi_{\rm best}(w_j;\boldsymbol{\theta}^{(t-1)})|\boldsymbol{\theta}\right)\right\} θ(t)=argminθlogp(θ)logj=1DWp(ϕbest(wj;θ(t1))θ)
这里
ϕ b e s t ( w ; θ ) = a r g max ⁡ a p ( a ∣ w , θ ) = a r g max ⁡ m 1 , … , m n : w = m 1 … m n p ( m 1 , … , m n , # w ∣ θ ) \phi_{\rm best}(w;\boldsymbol{\theta}) = \mathop{ {\rm arg}\max}_{\boldsymbol{a}}p(\boldsymbol{a}|w,\boldsymbol{\theta}) = \mathop{ {\rm arg}\max}_{m1,\ldots,m_n: \\ w=m1\ldots m_n}p(m_1,\ldots,m_n,\#_w|\boldsymbol{\theta}) ϕbest(w;θ)=argmaxap(aw,θ)=argmaxm1,,mn:w=m1mnp(m1,,mn,#wθ)
可以进一步使用HMM的维特比算法求解,这里可观察序列是组成单词w的字母序列,隐藏状态是单词的词素。与传统维特比算法的不同在于,一个状态(即一个词素)可以覆盖多个观察值(多个字母)。选出到第 i i i个观察值的最优路径时,这条路径可能来自于第一到第 i − 1 i-1 i1个观察值中的任意一个,因此算法时间复杂度是 O ( ∣ w ∣ 2 ) O(|w|^2) O(w2)

维特比算法的最大问题是,对于未在之前词典中出现的词素,算法总会把它的概率置为0。由于词素词典总是在缩小的,因此初始化对结果的影响很大。维特比算法也被用来对新词划分词素

此外,全局维特比算法还被Morfessor用作分词算法。Morfessor还支持n-best维特比解码

局部维特比算法

也可以使用在线算法一次处理一条数据,此时对给定单词先得出最优分词方式 ϕ b e s t ​ \phi_{\rm best}​ ϕbest,再根据分词结果更新参数。为了处理非零概率问题,需要加入一些平滑手段。设平滑参数为 λ > 0 ​ \lambda > 0​ λ>0,则已经存在的词素概率估计为
p o l d ( m i ∣ θ ) = τ i + λ ν + λ μ p_{\rm old}(m_i|\boldsymbol{\theta}) = \frac{\tau_i + \lambda}{\nu + \lambda \mu} pold(miθ)=ν+λμτi+λ
没有在词典里的词素概率为
p n e w ( m ∣ θ ) ≈ λ ν + λ μ × p ( θ ~ ) p ( D W ∣ θ ~ ) p ( θ ) p ( D W ∣ θ ) p_{\rm new}(m|\boldsymbol{\theta}) \approx \frac{\lambda}{\nu + \lambda \mu}\times \frac{p(\tilde{\boldsymbol{\theta}})p(\boldsymbol{D}_W|\tilde{\boldsymbol{\theta}})}{p(\boldsymbol{\theta})p(\boldsymbol{D}_W|\boldsymbol{\theta})} pnew(mθ)ν+λμλ×p(θ)p(DWθ)p(θ~)p(DWθ~)
其中 p ( θ ~ ) p(\tilde{\boldsymbol{\theta}}) p(θ~) p ( D W ∣ θ ~ ) p(\boldsymbol{D}_W|\tilde{\boldsymbol{\theta}}) p(DWθ~) m m m加入到词典里以后得到的近似先验概率和似然概率。假设在训练数据里没有见到过专有名词Matthew,那么标准维特比算法会倾向将其拆分成几个很小的词素。如果 p n e w ( M a t t h e w ∣ θ ) p_{\rm new}({\rm Matthew}|\boldsymbol{\theta}) pnew(Matthewθ)高于分词的似然,那么这个词就会被整体保留。注意平滑维特比算法尽管能引入新的词素,但总体而言它还是一种保守的算法

递归算法

Morfessor Baseline所使用的标准训练算法是一种递归的、贪婪的搜索方法,每一步只考虑修改一小部分参数,选取的修改方法代价最小。递归算法每次只考虑一个可能的单词分解方式 y j ∈ Φ ( w j ) \boldsymbol{y}_j \in \Phi(w_j) yjΦ(wj),将大部分可能的词素的概率设为0,不将它们存进词典,因此不太耗费内存

最简单的情况下,优化算法每次只看一个单词 w j w_j wj,使用参数找到最小化损失函数的分词序列
y j ( t ) = a r g min ⁡ y j ∈ Y j { min ⁡ θ L ( θ , Y ( t − 1 ) , D W ) } \boldsymbol{y}_j^{(t)} = \mathop{ {\rm arg}\min}_{ \boldsymbol{y}_j \in \mathcal{Y}_j}\left\{\min_{\boldsymbol{\theta}} L(\boldsymbol{\theta}, \boldsymbol{Y}^{(t-1)}, \boldsymbol{D}_W)\right\} yj(t)=argminyjYj{θminL(θ,Y(t1),DW)}
然后更新参数
θ ( t ) = a r g min ⁡ θ { L ( θ , Y ( t ) , D W ) } \boldsymbol{\theta}^{(t)} = \mathop{ {\rm arg}\min}_{\boldsymbol{\theta}}\left\{L(\boldsymbol{\theta}, \boldsymbol{Y}^{(t)}, \boldsymbol{D}_W)\right\} θ(t)=argminθ{L(θ,Y(t),DW)}
这两部都会减小损失函数,因此算法最后肯定会收敛到某个局部极小值

由于一个单词的分词结果是上下文无关的,因此可以把 Y \boldsymbol{Y} Y存储在一个二分DAG中,叶子节点是词素,其它节点称为“虚拟词素”。顶层节点总是单词

图中的每个节点存储两个数:根节点数量和总数量。前者说明该节点作为单词出现了多少次,后者给出指向该节点的引用数量。对任意节点,该节点的“总数量”是其根节点数量与其直接祖先“总数量”的加和。叶子节点的“总数量”则说明该词素在训练数据中出现了多少次( τ i \tau_i τi

递归搜索时,每次局部优化都会修改图的节点,考虑所有将该节点分成两个词素的分法(以及不划分的情况)。如果节点最后被划分,就递归在其孩子节点中搜索。下图给出了算法的逻辑

神经翻译笔记3扩展e第2部分. Subword_第1张图片

实践过程中可以通过图中的词素数同时更新图 Y \boldsymbol{Y} Y和参数 θ \boldsymbol{\theta} θ。如果词素数超过0,就将其加入词典,否则从词典中删除。此外,由于似然的计算很频繁也很耗时,因此每当图的内容变化时都会实时计算对数似然中重要的那部分。继续使用前面的记号, N N N为单词总数, μ \mu μ为词表大小, ν \nu ν为词素总数, τ i \tau_i τi为词素 m i m_i mi的数量,有
log ⁡ p ( D W ∣ θ , Y ) = ∑ i = 1 μ τ i log ⁡ τ i N + ν + N log ⁡ N N + ν = ∑ i = 1 μ τ i ( log ⁡ τ i − log ⁡ ( N + ν ) ) + N ( log ⁡ N − log ⁡ ( N + ν ) ) = ∑ i = 1 μ τ i log ⁡ τ i − ∑ i = 1 μ τ i log ⁡ ( N + ν ) + N log ⁡ N − N log ⁡ ( N + ν ) = ∑ i = 1 μ τ i log ⁡ τ i + N log ⁡ N − ( N + ν ) log ⁡ ( N + ν ) \begin{aligned} \log p(\boldsymbol{D}_W|\boldsymbol{\theta},\boldsymbol{Y}) &= \sum_{i=1}^\mu \tau_i\log\frac{\tau_i}{N+\nu} + N\log \frac{N}{N+\nu} \\ &= \sum_{i=1}^\mu \tau_i(\log \tau_i -\log(N+\nu)) + N(\log N - \log(N+\nu)) \\ &= \sum_{i=1}^\mu \tau_i \log \tau_i - \sum_{i=1}^\mu \tau_i \log(N+\nu) + N\log N - N \log (N+\nu) \\ &= \sum_{i=1}^\mu \tau_i \log \tau_i + N\log N - (N+\nu)\log (N+\nu) \end{aligned} logp(DWθ,Y)=i=1μτilogN+ντi+NlogN+νN=i=1μτi(logτilog(N+ν))+N(logNlog(N+ν))=i=1μτilogτii=1μτilog(N+ν)+NlogNNlog(N+ν)=i=1μτilogτi+NlogN(N+ν)log(N+ν)
因此只需要实时更新第一项和 ν \nu ν,就能快速算出对数似然

由于算法的递归性质,它会经常检测一些频繁出现的词素。由于常见单词和词素的划分方式通常不会频繁变化,因此可以统计每个虚拟词素被检验过了多少次,对被检验太多的词素,以一定的概率跳过递归搜索,提高效率。令 s ( w ) s(w) s(w) w w w被搜索过的次数,则跳过该词的概率设置为
p ( s k i p ∣ w ) = 1 − 1 max ⁡ ( 1 , s ( w ) ) p({\rm skip}|w) = 1 - \frac{1}{\max(1,s(w))} p(skipw)=1max(1,s(w))1
为了避免其对优化造成影响, s ( w ) s(w) s(w)会被定期更新。全局搜索一般是每个training epoch以后重置一次 s ( w ) s(w) s(w),局部搜索则是设置一个迭代样本数量,通常是10000

似然权重与半监督学习

可以通过为似然项加一个权重参数 α > 0 \alpha > 0 α>0来控制模型是倾向将单词分词还是不分
L ( θ , D W ) = − log ⁡ p ( θ ) − α log ⁡ p ( D W ∣ θ ) L(\boldsymbol{\theta}, \boldsymbol{D}_W) = -\log p(\boldsymbol{\theta}) - \alpha \log p(\boldsymbol{D}_W|\boldsymbol{\theta}) L(θ,DW)=logp(θ)αlogp(DWθ)
小的 α \alpha α使模型尽量细分单词,而大的倾向于保留完整词

fastText

前面介绍的方法主要是如何将词进一步拆分的方法,而fastText(GitHub)本质上并非一种分词方法,它的目的还是要给出每个单词的词向量,只不过在学习词向量的过程中用到了一些subword的信息。这样,对于未登录词,fastText也可以给出一个比较合理的向量表示,而不是用一个统一的unk词向量

fastText可以看作是在word2vec/GloVe之后,ElMo之前最主流,效果最好的词向量训练方法,其最大的改进就是使用了subword来做辅助训练。在fastText提出之前,有很多工作也曾试图向词向量中加入subword信息(更准确地说,主要是加入词素信息),例如[Botha2014] [Cui2015] [Luong2013] [Qiu2014]等。不过这些工作,如前面所述,都需要一个分词器来给出词素信息(更多工作介绍,可以参看[Bojanowski2017]的“相关工作”部分),因此并没有得到特别广泛的应用

算法原理

fastText继承了word2vec里skip-gram的思想,不过引入了一些subword信息。与原始skip-gram不同的是,fastText对每个给定的输入只预测一个输出。训练时使用了负采样的思想:对窗口内的单词,将其认定为正样本,否则认定为负样本。因此,对位置为 t t t的输入,假设上下文单词的位置为c,可以得到如下负对数似然
log ⁡ ( 1 + e − s ( w t , w c ) ) + ∑ n ∈ N t , c log ⁡ ( 1 + e s ( w t , n ) ) \log \left(1+e^{-s(w_t, w_c)}\right) + \sum_{n \in \mathcal{N}_{t,c}}\log\left(1+e^{s(w_t,n)}\right) log(1+es(wt,wc))+nNt,clog(1+es(wt,n))
这里 N t , c \mathcal{N}_{t,c} Nt,c是从词表中抽样得到的负样本, s s s是一个打分函数,在后文介绍。假设输入是一个有 T T T个单词的单词序列,对单词 w t w_t wt其上下文单词构成的集合为 C t \mathcal{C}_t Ct,logistic损失函数 ℓ   :   x ↦ log ⁡ ( 1 + e − x ) \ell\ :\ x \mapsto \log(1+e^{-x})  : xlog(1+ex),则目标函数为
∑ t = 1 T [ ∑ c ∈ C t ℓ ( s ( w t , w c ) ) + ∑ n ∈ N t , c ℓ ( − s ( w t , n ) ) ] \sum_{t=1}^T \left[\sum_{c\in \mathcal{C}_t} \ell(s(w_t, w_c)) + \sum_{n\in \mathcal{N}_{t,c}} \ell (-s(w_t, n))\right] t=1TcCt(s(wt,wc))+nNt,c(s(wt,n))
如前文所述,fastText并没有只将单词看作是一个整体,而是将每个单词看作是一个包含了若干n元字符的“字组袋”(这个字组袋同时包含了单词本身),并引入分界符<和>。例如,对于单词where,令n=3,则该单词被表示为{, }。注意由于分界符的存在,单词her与这里的三元字组her的表示方法不同,前者会被表示为。实践中,fastText提取了所有3、4、5、6元字组

假设包含了所有n-gram的词典大小为 G G G,对于给定单词 w w w,记 G w ⊂ { 1 , … , G } \mathcal{G}_w \subset \{1,\ldots, G\} Gw{1,,G}是出现在 w w w中的n-gram,每个n-gram有一个向量表示 z g \boldsymbol{z}_g zg,则前面提到的打分函数为
s ( w , c ) = ∑ g ∈ G w z g T v c s(w,c) = \sum_{g\in \mathcal{G}_w} \boldsymbol{z}_g^\mathsf{T}\boldsymbol{v}_c s(w,c)=gGwzgTvc
对比原始skip-gram的打分函数 s ( w t , w c ) = u w t T v w c s(w_t, w_c) = \boldsymbol{u}_{w_t}^\mathsf{T}\boldsymbol{v}_{w_c} s(wt,wc)=uwtTvwc,可以看出fastText虽然保留了单词的输出向量,但是单词的输入向量不再是一个单个向量,而是组成它的若干n-gram向量(包括一个自身向量)的加和。这种做法可以共享不同词间相同字组的表示,因此可以为罕见词学到比较可靠的向量

为了减小内存使用量,fastText使用Fowler-Noll-Vo哈希函数(确切说是FNV-1a变体)将字符序列映射到一个1到 2 × 1 0 6 2\times 10^6 2×106的整数,每个单词由其在字典中的索引号和所包含字组的哈希值集合共同表示

对于未登录词,fastText将组成它的所有n-gram字组向量求和,得出该词的向量表示

实现

fastText使用了梯度下降来求解最优化问题,学习率线性递减。假设训练集有 T T T个单词,训练过程在整个训练集上迭代 P P P次,则在时刻 t t t的学习率为 γ 0 ( 1 − t T P ) \gamma_0 (1-\frac{t}{TP}) γ0(1TPt),其中 γ 0 \gamma_0 γ0是一个固定的超参数。词向量维度设为300,对每个正样本随机采样5个负样本,随机概率正比于单词出现频率的平方根。窗口大小 c ​ c​ c是一个随机变量,来自于1到5的均匀分布。使用的训练集是wiki数据集

参考文献

[Sennrich2016] Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (ACL) (Vol. 1, pp. 1715-1725).

[Gage1994] Gage, P. (1994). A New Algorithm for Data Compression. In C User Journal

[Botha2014] Botha, J., & Blunsom, P. (2014, January). Compositional morphology for word representations and language modelling. In International Conference on Machine Learning (ICML) (pp. 1899-1907).

[Cui2015] Cui, Q., Gao, B., Bian, J., Qiu, S., Dai, H., & Liu, T. Y. (2015). Knet: A general framework for learning word embedding using morphological knowledge. ACM Transactions on Information Systems (TOIS), 34(1), 4. (pp. 1-25)

[Luong2013] Luong, T., Socher, R., & Manning, C. (2013). Better word representations with recursive neural networks for morphology. In Proceedings of the Seventeenth Conference on Computational Natural Language Learning (CoNLL) (pp. 104-113).

[Qiu2014] Qiu, S., Cui, Q., Bian, J., Gao, B., & Liu, T. Y. (2014). Co-learning of word representations and morpheme representations. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers (COLING) (pp. 141-150).

[Creutz2007] Creutz, M., & Lagus, K. (2007). Unsupervised models for morpheme segmentation and morphology learning. ACM Transactions on Speech and Language Processing (TSLP), 4(1), 3. (pp. 13-34)

[Virpioja2013] Virpioja, S., Smit, P., Grönroos, S. A., & Kurimo, M. (2013). Morfessor 2.0: Python implementation and extensions for Morfessor Baseline.

[Bojanowski2017] Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, (TACL) (pp. 135-146)

附录

Morfessor中使用的模型实质上是一个隐马尔可夫模型(HMM),该模型与其中用到的算法和思想并非深度学习的范畴,而是统计学习的范畴。为了保证文章的完整性和自涵盖性,同时减少正文的长度,这部分知识放在本部分“附录”中做一介绍。尽管当下(2018年末2019年初)深度学习已经大行其道,然而笔者还是认为统计学习的方法仍然有存在的意义和借鉴的价值

MAP估计

自从概率被数学家用来研究博弈游戏以来,对“概率值的意义是什么”这个问题,一直有两种不同的看法

  • 频率学派(frequentist)认为,概率度量的是某个事情发生的频率,是一个“客观”值,这个频率由一个背后客观存在的参数 θ \boldsymbol{\theta} θ决定。因此,频率学派解决问题的一个常见思路,就是要求出 θ \boldsymbol{\theta} θ最可能的取值,也就是要求出 θ \boldsymbol{\theta} θ最大似然:设数据集为 X \mathbb{X} X,由某个未知的真实数据分布 p d a t a ( x ) p_{\rm data}({\bf x}) pdata(x)产生; p m o d e l ( x ; θ ) p_{\rm model}({\bf x};\boldsymbol{\theta}) pmodel(x;θ)这一概率分布的参数为 θ \boldsymbol{\theta} θ p m o d e l ( x ; θ ) p_{\rm model}(\boldsymbol{x};\boldsymbol{\theta}) pmodel(x;θ)将输入 x \boldsymbol{x} x映射到实数来估计真实概率 p d a t a ( x ) p_{\rm data}(\boldsymbol{x}) pdata(x),则 θ M L = a r g max ⁡ θ p m o d e l ( X ; θ ) \boldsymbol{\theta}_{\rm ML} = \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} p_{\rm model}(\mathbb{X}; \boldsymbol{\theta}) θML=argmaxθpmodel(X;θ)。这种方法是最大似然估计法(MLE)
    对于有监督学习,似然可以理解为,在给定参数 θ \boldsymbol{\theta} θ和数据 x \boldsymbol{x} x下,得到结果 y \boldsymbol{y} y的概率。假设 X \boldsymbol{X} X表示所有输入, Y \boldsymbol{Y} Y是观察到的目标,则最大似然估计有 θ M L = a r g max ⁡ θ p ( Y ∣ X ; θ ) \boldsymbol{\theta}_{\rm ML} = \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}}p(\boldsymbol{Y}|\boldsymbol{X};\boldsymbol{\theta}) θML=argmaxθp(YX;θ)
  • 贝叶斯学派(Bayesian)认为,概率度量的是观察者对事情发生的把握程度,是一种信念值的体现,是“主观倾向”。尽管贝叶斯学派在建模时也会引入一个参数 θ \boldsymbol{\theta} θ,但是此时这个参数已经不是一个确定的客观值,而是未知或者不确定的,因此可以表示成一个随机变量。在这种解释下,解决问题的目的是要根据观察到的数据,推测出 θ \boldsymbol{\theta} θ的分布,即求出后验概率 p ( θ ∣ x ) p(\boldsymbol{\theta}|\boldsymbol{x}) p(θx)。最好的估计 θ ^ \hat{\boldsymbol{\theta}} θ^使得其对应的后验概率最大,因此贝叶斯学派常用的解决问题方法称为最大后验概率(MAP)法,得到的估计值是最大后验概率估计(MAP估计, MAPE)
    由于根据贝叶斯定律有 p ( θ ∣ x ) ∝ p ( x ∣ θ ) p ( θ ) p(\boldsymbol{\theta}|\boldsymbol{x}) \propto p(\boldsymbol{x}|\boldsymbol{\theta})p(\boldsymbol{\theta}) p(θx)p(xθ)p(θ),以及对数函数不改变最大值,因此有 θ M A P = a r g max ⁡ θ log ⁡ p ( x ∣ θ ) + log ⁡ p ( θ ) \boldsymbol{\theta}_{\rm MAP} = \mathop{ {\rm arg}\max}_{\boldsymbol{\theta}} \log p(\boldsymbol{x}|\boldsymbol{\theta}) + \log p(\boldsymbol{\theta}) θMAP=argmaxθlogp(xθ)+logp(θ)。其中 p ( x ∣ θ ) p(\boldsymbol{x}|\boldsymbol{\theta}) p(xθ)称为“似然”(可以参考前述“最大似然”的部分), p ( θ ) p(\boldsymbol{\theta}) p(θ)称为“先验概率”,可以理解为在观察到数据前对 θ \boldsymbol{\theta} θ的已知知识或者预先判断。这里可以注意到的是,如果假设先验概率是均匀分布,那么MAPE的结果与MLE的结果等价;如果假设先验概率是高斯分布,得到的结果等价于采用了L2正则化的MLE

最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。

知乎用户Xiangyu Wang对问题“贝叶斯学派与频率学派有何不同?”的回答

HMM模型

马尔可夫模型

在概率论中,马尔可夫模型是用来对随机变化的系统建模的随机模型,其假设在给定某个当前时刻的状态时,系统未来的状态不依赖于当前时刻之前的状态。即假设该随机过程满足马尔可夫性质。用数学语言描述,如果 X ( t ) , t > 0 X(t), t > 0 X(t),t>0是一个随机过程,且
p [ X ( t + h ) = y ∣ X ( s ) = x ( s ) , s ≤ t ] = p [ X ( t + h ) = y ∣ X ( t ) = x ( t ) ] , ∀ h > 0 p[X(t+h) = y | X(s) = x(s), s \le t] = p[X(t+h)=y|X(t) = x(t)], \forall h > 0 p[X(t+h)=yX(s)=x(s),st]=p[X(t+h)=yX(t)=x(t)],h>0

马尔可夫链

假设一个系统有 N N N个有限的状态 Q = { q 1 , q 2 , ⋯   , q N } Q = \{q_1, q_2, \cdots, q_N\} Q={q1,q2,,qN},系统在时刻 t t t所处的状态是一个随机变量 s t , s t ∈ Q s_t, s_t \in Q st,stQ,一般情况下 s t s_t st的具体取值由系统在前 t − 1 t-1 t1个时刻下的状态共同决定,即
p ( s t = q i ) = p ( s t = q i ∣ s t − 1 , ⋯   , s 1 ) p(s_t=q_i) = p(s_t=q_i|s_{t-1},\cdots, s_1) p(st=qi)=p(st=qist1,,s1)
假设 s t s_t st的具体取值仅由 t − 1 t-1 t1个时刻系统的状态 s t − 1 s_{t-1} st1决定,那么有
p ( s t = q i ) = p ( s t = q i ∣ s t − 1 , ⋯   , s 1 ) = p ( s t = q i ∣ s t − 1 ) p ( s 1 , ⋯   , s T ) = p ( s 1 ) ∏ t = 2 T p ( s t ∣ s t − 1 ) \begin{aligned} p(s_t = q_i) &= p(s_t = q_i|s_{t-1},\cdots, s_1) = p(s_t = q_i|s_{t-1}) \\ p(s_1, \cdots, s_T) &= p(s_1)\prod_{t=2}^Tp(s_t|s_{t-1}) \end{aligned} p(st=qi)p(s1,,sT)=p(st=qist1,,s1)=p(st=qist1)=p(s1)t=2Tp(stst1)
这时该系统称为离散时间的一阶马尔可夫链。该系统是一种最简单的马尔可夫模型。对于离散时间的k阶马尔可夫链, s t ​ s_t​ st的具体取值是由第 t − 1 , t − 2 , … , t − k ​ t-1, t-2, \ldots, t-k​ t1,t2,,tk个时刻的状态决定

马尔可夫链可以记为一个三元组 ( Q , A , π ) (Q, A, \pi) (Q,A,π),除了状态集合 Q Q Q以外,还有

  • 一个转移矩阵 A A A来描述从任意状态 q i q_i qi转移到状态 q j q_j qj的概率,该矩阵满足两个条件:
    • 任意元素均不小于零
    • 每行元素的和均为1
  • 一个初始概率分布 π \pi π来描述系统初始状态为 q i q_i qi的概率

以下图所示的马尔可夫链为例

神经翻译笔记3扩展e第2部分. Subword_第2张图片

假设三个状态 q 0 = s u n n y , q 1 = c l o u d y , q 2 = r a i n y q_0 = {\rm sunny}, q_1 = {\rm cloudy}, q_2 = {\rm rainy} q0=sunny,q1=cloudy,q2=rainy,则对应的转移矩阵 A A A
A = [ 0.6 0.3 0.1 0.3 0.2 0.5 0.4 0.1 0.5 ] A = \left[\begin{matrix} 0.6 & 0.3 & 0.1 \\ 0.3 & 0.2 & 0.5 \\ 0.4 & 0.1 & 0.5 \end{matrix}\right] A=0.60.30.40.30.20.10.10.50.5
进一步假设初始概率分布 π = [ 0.4 0.2 0.4 ] \pi = \left[\begin{matrix}0.4 & 0.2 & 0.4\end{matrix}\right] π=[0.40.20.4]

则系统接连出现出现“云、雨、晴”的概率分别为
p ( s 0 = q 1 , s 1 = q 2 , s 2 = q 0 ) = p ( s 0 = q 1 ) p ( s 1 = q 2 ∣ s 0 = q 1 ) p ( s 2 = q 0 ∣ s 1 = q 2 ) = π 1 × A 12 × A 20 = 0.4 × 0.5 × 0.4 = 0.08 \begin{aligned} &p(s_0 = q_1, s_1=q_2, s_2=q_0) \\ =& p(s_0=q_1)p(s_1=q_2|s_0=q_1)p(s_2=q_0|s_1=q_2) \\ =& \pi_1 \times A_{12} \times A_{20} \\ =& 0.4 \times 0.5 \times 0.4 = 0.08 \end{aligned} ===p(s0=q1,s1=q2,s2=q0)p(s0=q1)p(s1=q2s0=q1)p(s2=q0s1=q2)π1×A12×A200.4×0.5×0.4=0.08

隐马尔可夫模型

在隐马尔可夫模型(Hidden Markov Model, HMM)中,系统在任意时刻所处的状态 q i q_i qi不再能被外界直接观察到,而是会以一个概率分布向外界展示一个可观察的状态 o i o_i oi。这样,系统的实际状态就是“隐藏的”。在自然语言处理中,HMM可以用来对词性标注(POS tag)问题建模,此时系统的隐藏状态是各个单词的词性标注(例如动词、名词、形容词……),可观察状态是单词本身

HMM可以记为一个五元组 ( Q , O , A , B , π ) (Q,O,A,B,\pi) (Q,O,A,B,π),其中

  • Q = { q 1 , q 2 , ⋯   , q T } ​ Q = \{q_1, q_2, \cdots, q_T\}​ Q={q1,q2,,qT}是长度为 T ​ T​ T的隐藏序列,每个 q i ​ q_i​ qi都来自于状态表 S = { s 1 , s 2 , ⋯   , s N } ​ S = \{s_1, s_2, \cdots, s_N\}​ S={s1,s2,,sN}

  • O = { o 1 , o 2 , ⋯   , o T } ​ O = \{o_1, o_2, \cdots, o_T\}​ O={o1,o2,,oT}是长度为 T ​ T​ T的观察序列,每个 o i ​ o_i​ oi都来自于单词表 V = { v 1 , v 2 , ⋯   , v V } ​ V =\{ v_1, v_2, \cdots, v_V\}​ V={v1,v2,,vV}

  • A A A是状态转移矩阵,元素 a i j a_{ij} aij表示隐藏状态从 s i s_i si迁移到 s j s_j sj的概率

  • B B B是发射矩阵,定义当系统处于隐藏状态 s i s_i si时,表现为观察值 v j v_j vj的概率,即
    B = [ b 1 ( v 1 ) b 1 ( v 2 ) ⋯ b 1 ( v V ) b 2 ( v 1 ) b 2 ( v 2 ) ⋯ b 2 ( v V ) ⋮ ⋮ ⋱ ⋮ b N ( v 1 ) b N ( v 2 ) ⋯ b N ( v V ) ] b i ( v k ) = p ( o t = v k ∣ q t = s i ) \begin{aligned} B &= \left[\begin{matrix}b_1(v_1) & b_1(v_2) & \cdots & b_1(v_V) \\ b_2(v_1) & b_2(v_2) & \cdots & b_2(v_V) \\ \vdots & \vdots & \ddots & \vdots \\ b_N(v_1) & b_N(v_2) & \cdots & b_N(v_V)\end{matrix}\right] \\ b_i(v_k) &= p(o_t= v_k|q_t = s_i) \end{aligned} Bbi(vk)=b1(v1)b2(v1)bN(v1)b1(v2)b2(v2)bN(v2)b1(vV)b2(vV)bN(vV)=p(ot=vkqt=si)

  • π \pi π为初始概率分布

也可以简化为一个三元组表示 ( A , B , π ) (A, B, \pi) (A,B,π)

HMM也做出了两个假设。除了前面介绍的一阶马尔可夫假设(当前隐藏状态只由前一时刻的隐藏状态决定)以外,还有一个输出独立性假设,即当前观察状态只由当前时刻的隐藏状态决定,数学表述为
p ( o i ∣ q 1 , … , q i , … , q T , o 1 , … , o i , … , o T ) = p ( o i ∣ q i ) p(o_i|q_1,\ldots, q_i,\ldots ,q_T, o_1,\ldots, o_i,\ldots,o_T ) = p(o_i|q_i) p(oiq1,,qi,,qT,o1,,oi,,oT)=p(oiqi)
下图给出了一个HMM的例子:假设你的一个朋友生活在某个不同的城市,你每天可以跟ta聊天知道ta当天做了什么,而且你知道ta每天的行为由天气决定,但是你不能直接得知那个城市的天气。该城市天气的转移图和天气——行为的发射关系由下图决定

神经翻译笔记3扩展e第2部分. Subword_第3张图片

s 0 = r a i n y , s 1 = s u n n y , v 0 = w a l k , v 1 = s h o p , v 2 = c l e a n s_0 = {\rm rainy}, s_1 = {\rm sunny}, v_0 = {\rm walk}, v_1 = {\rm shop}, v_2 = {\rm clean} s0=rainy,s1=sunny,v0=walk,v1=shop,v2=clean,则系统的转移矩阵 A A A、发射矩阵 B B B和初始概率分布 π \pi π对应为
A = [ 0.7 0.3 0.4 0.6 ] B = [ 0.1 0.4 0.5 0.6 0.3 0.1 ] π = [ 0.6 0.4 ] \begin{aligned} A &= \left[\begin{matrix}0.7 & 0.3 \\ 0.4 & 0.6\end{matrix}\right] \\ B &= \left[\begin{matrix}0.1 & 0.4 & 0.5 \\ 0.6 & 0.3 & 0.1\end{matrix}\right] \\ \pi &= \left[\begin{matrix}0.6 & 0.4\end{matrix}\right] \end{aligned} ABπ=[0.70.40.30.6]=[0.10.60.40.30.50.1]=[0.60.4]
对于一个HMM,有三个常见问题

  • 似然问题:给定HMM λ = ( A , B , π ) \lambda = (A, B, \pi) λ=(A,B,π)和观察序列 O O O,确定似然 P ( O ∣ λ ) P(O|\lambda) P(Oλ)
  • 解码问题:给定观察序列 O O O和HMM λ = ( A , B , π ) \lambda = (A, B, \pi) λ=(A,B,π),确定最有可能的隐藏序列 Q Q Q
  • 学习问题:给定观察序列 O O O和HMM的状态集合,学习 A A A B B B

以下将分别介绍三个问题对应的算法

求解似然问题:前向算法

似然问题是要计算一个给定观察序列 O O O的概率。以上图给出的模型为例,可以计算模型产生观察状态 { w a l k , s h o p , w a l k } \rm \{walk, shop, walk\} {walk,shop,walk}的概率。这里的一个难点是,每个观察状态都可能由若干个(可能会是所有 N N N个)隐藏状态生成。由于前面提到的输出独立性假设, p ( O ∣ Q ) = ∏ i = 1 T p ( o i ∣ q i ) p(O|Q) = \prod_{i=1}^Tp(o_i|q_i) p(OQ)=i=1Tp(oiqi),理论上可以通过穷举所有可能的隐藏状态序列来计算 O O O的概率,但是由于每个时刻 o i o_i oi背后都有 N N N个可能状态,所以这个计算量是 O ( N T ) O(N^T) O(NT)指数时间的,实际不可行

可以使用动态规划思想来存储中间状态,将算法时间复杂度降低到 O ( N 2 T ) O(N^2T) O(N2T)。记 α t ( j ) = p ( o 1 , o 2 , … , o t , q j = s j ∣ λ ) \alpha_t(j) = p(o_1, o_2, \ldots, o_t, q_j = s_j|\lambda) αt(j)=p(o1,o2,,ot,qj=sjλ),则有如下的递推关系(假设 o t = v k o_t = v_k ot=vk
α t ( j ) = ∑ i = 1 N α t − 1 ( i ) a i j b j ( v k ) \alpha_t(j) = \sum_{i=1}^N\alpha_{t-1}(i)a_{ij}b_j(v_k) αt(j)=i=1Nαt1(i)aijbj(vk)
即对 t t t时刻的隐藏状态 s j s_j sj,要计算出其展示出 o 1 , o 2 , … , o t o_1,o_2,\ldots, o_{t} o1,o2,,ot的概率,有三步

  • 求出 t − 1 t-1 t1时刻任意隐藏状态 s i s_i si展示出 o 1 , o 2 , … , o t − 1 o_1, o_2, \ldots, o_{t-1} o1,o2,,ot1的概率 α t − 1 ( i ) \alpha_{t-1}(i) αt1(i)(上一步的结果)
  • 求出 t − 1 t-1 t1时刻隐藏状态 s i s_{i} si转移到 t t t时刻 s t s_t st的状态 a i j a_{ij} aij(直接查表可得)
  • 求出 t t t时刻隐藏状态 s j s_j sj展示出 v k v_k vk的概率 b j ( v k ) b_j(v_k) bj(vk)(直接查表可得)

三者相乘即可。由于 t − 1 t-1 t1时刻可能的隐藏状态有 N N N个,因此需要将这 N N N个概率相加

神经翻译笔记3扩展e第2部分. Subword_第4张图片

上图给出了前向算法的示意图,具体实现代码如下

def forward(obs, hmm):
    if not obs:
        return 0.
    transitions = hmm.get_transition_matrix()
    emissions = hmm.get_emission_matrix()
    initial_prob = hmm.get_initial_prob()
    alpha = []
    for i, p in enumerate(initial_prob):
        alpha.append(p * emissions[i][obs[0]])
    t = 1
    while t < len(obs):
        old_alpha = alpha
        alpha = [0.] * len(initial_prob)
        for j, _ in enumerate(initial_prob):
            # alpha_t(j) = sum(alpha_{t-1}(i)a_{ij}b_j(o_t))
            for i, _ in enumerate(old_alpha):
                alpha[j] += old_alpha[i] * transitions[i][j] * emissions[j][obs[t]]
        t += 1
    return sum(alpha)
求解解码问题:维特比算法

解码问题是要对给定的观察序列,找出最可能产生这个观察序列的隐藏序列。尽管理论上也可以穷举所有隐藏序列,计算该序列产生给定观察序列的概率,进而找到最优隐藏序列,但是由前文易知这种方法不可行。应对方法也是使用动态规划算法,并引入一个中间变量 ψ t ( j ) \psi_t(j) ψt(j),表示在经历了隐藏状态 q 1 , … , q t − 1 q_1, \ldots, q_{t-1} q1,,qt1以后,系统在第 t t t时刻位于隐藏状态 s j s_j sj的概率,即
ψ t ( j ) = max ⁡ q 1 , ⋯   , q t − 1 p ( q 1 , ⋯   , q t − 1 , o 1 , ⋯   , o t , q t = s j ∣ λ ) \psi_t(j) = \max_{q_1, \cdots, q_{t-1}}p(q_1, \cdots, q_{t-1}, o_1, \cdots, o_t, q_t=s_j|\lambda) ψt(j)=q1,,qt1maxp(q1,,qt1,o1,,ot,qt=sjλ)
这里也存在一个递推关系(同样假设 o t = v k o_t = v_k ot=vk):
ψ t ( j ) = max ⁡ i = 1 N ψ t − 1 ( i ) a i j b j ( v k ) \psi_t(j) = \max_{i=1}^N \psi_{t-1}(i)a_{ij}b_{j}(v_k) ψt(j)=i=1maxNψt1(i)aijbj(vk)
可以看出维特比算法与前向算法类似,区别主要在于两点。其一是维特比算法每一步都是求最大值,而前向算法是求累加值;其二是由于维特比算法需要给出最可能的隐藏状态序列,因此需要维护一个指针(或一个列表),来得出最后的序列结果

神经翻译笔记3扩展e第2部分. Subword_第5张图片

上图给出了维特比算法的示意图,具体实现代码如下

def viterbi(observations, hmm):
    if not obs:
        return []
    transitions = hmm.get_transition_matrix()
    emissions = hmm.get_emission_matrix()
    initial_prob = hmm.get_initial_prob()
    psi = []
    
    best_state = None
    max_psi = 0.
    for i, p in enumerate(initial_prob):
        psi.append(p * emissions[i][obs[0]])
        if psi[i] > max_psi:
            best_state = i
    best_hidden_states = [best_state]

    t = 1
    while t < len(obs):
        old_psi = psi
        psi = [0.] * len(initial_prob)
        max_psi = 0.
        best_state = None
        for j, _ in enumerate(initial_prob):
            max_prob = 0.
            for i, _ in enumerate(old_psi):
                cur_prob = old_psi[i] * transitions[i][j] * emissions[j][obs[t]]
                if cur_prob > max_prob:
                    max_prob = cur_prob
            psi[j] = max_prob
            if psi[j] > max_psi:
                best_state = j
        best_hidden_states.append(best_state)
        t += 1
    return best_hidden_states
求解学习问题:前向-后向算法(Baum-Welch算法)

学习问题是如何根据一个给定的观察序列学习HMM的状态转移矩阵 A ​ A​ A和发射矩阵 B ​ B​ B。使用的算法Baum-Welch算法是“期望最大算法”(Expectation-Maximization, EM算法)的一种特例情况。在介绍算法之前,需要先引入一个与前面介绍的“前向概率” α t ( j ) ​ \alpha_t(j)​ αt(j)相对应的概率——“后向概率” β t ( i ) ​ \beta_t(i)​ βt(i)。前向概率指的模型展现出 o 1 , ⋯   , o t − 1 ​ o_1, \cdots, o_{t-1}​ o1,,ot1 t − 1 ​ t-1​ t1个观察状态,并在第 t ​ t​ t时刻落在隐藏状态 s j ​ s_j​ sj的概率,而后向概率指的是模型在第 t ​ t​ t时刻落在隐藏状态 s i ​ s_i​ si的条件下,展现出 o t + 1 , ⋯   , o T ​ o_{t+1}, \cdots, o_T​ ot+1,,oT T − t ​ T-t​ Tt个观察状态的概率,即 β t ( i ) = p ( o t + 1 , o t + 2 , … , o T ∣ q t = i , λ ) ​ \beta_t(i) = p(o_{t+1}, o_{t+2}, \ldots, o_T|q_t = i, \lambda)​ βt(i)=p(ot+1,ot+2,,oTqt=i,λ)。递推关系为

β t ( i ) = ∑ j = 1 N a i j b j ( o t + 1 ) β t + 1 ( j ) \beta_t(i) = \sum_{j=1}^N a_{ij}b_j(o_{t+1})\beta_{t+1}(j) βt(i)=j=1Naijbj(ot+1)βt+1(j)
接下来利用 α t ( i ) \alpha_t(i) αt(i) β t + 1 t ( j ) \beta_{t+1}t(j) βt+1t(j)估计状态转移矩阵中的每个元素 a i j a_{ij} aij。最直观的做法是使用最大似然法,有
a ^ i j = 从 状 态 i 到 状 态 j 这 一 转 换 的 期 望 数 量 从 状 态 i 发 出 的 转 换 的 期 望 数 量 \hat{a}_{ij} = \frac{从状态i到状态j这一转换的期望数量}{从状态i发出的转换的期望数量} a^ij=iij
如何计算分子呢?假设能估计出时刻 t t t发生转换 i → j i\rightarrow j ij的概率,那么将它们累加起来就可以估计出转换 i → j i\rightarrow j ij的总数。形式化地,可以定义给定模型 λ \lambda λ和观察序列 O O O时,模型在 t t t时刻位于隐藏状态 s i s_i si且在 t + 1 t+1 t+1时刻位于隐藏状态 s j s_j sj的概率 ξ t ( i , j ) ​ \xi_t(i, j)​ ξt(i,j)
ξ t ( i , j ) = p ( q t = s i , q t + 1 = s j ∣ O , λ ) \xi_t(i, j) = p(q_t=s_i, q_{t+1}=s_j|O, \lambda) ξt(i,j)=p(qt=si,qt+1=sjO,λ)
修改一下条件概率,可以得到一个类似的概率值 ζ t ( i , j ) \zeta_t(i,j) ζt(i,j)
ζ t ( i , j ) = p ( q t = s i , q t + 1 = j , O ∣ λ ) \zeta_t(i, j) = p(q_t = s_i, q_{t+1}=j, O|\lambda) ζt(i,j)=p(qt=si,qt+1=j,Oλ)
ζ t ( i , j ) \zeta_t(i,j) ζt(i,j)的值相对容易计算:
ζ t ( i , j ) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j ) \zeta_t(i,j) = \alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j) ζt(i,j)=αt(i)aijbj(ot+1)βt+1(j)
又由于
p ( X ∣ Y , Z ) = p ( X , Y ∣ Z ) p ( Y ∣ Z ) p(X|Y,Z) = \frac{p(X, Y|Z)}{p(Y|Z)} p(XY,Z)=p(YZ)p(X,YZ)
所以只需求出 p ( O ∣ λ ) p(O|\lambda) p(Oλ)
p ( O ∣ λ ) = ∑ j = 1 N α t ( j ) β t ( j ) p(O|\lambda) = \sum_{j=1}^N\alpha_t(j)\beta_t(j) p(Oλ)=j=1Nαt(j)βt(j)
因此
ξ t ( i , j ) = ζ t ( i , j ) p ( O ∣ λ ) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j ) ∑ j = 1 N α t ( j ) β t ( j ) \xi_t(i,j) = \frac{\zeta_t(i,j)}{p(O|\lambda)} = \frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum_{j=1}^N \alpha_t(j)\beta_t(j)} ξt(i,j)=p(Oλ)ζt(i,j)=j=1Nαt(j)βt(j)αt(i)aijbj(ot+1)βt+1(j)
累加可得(注意模型有 N N N个隐藏状态)
a ^ i j = ∑ t = 1 T − 1 ξ t ( i , j ) ∑ t = 1 T − 1 ∑ k = 1 N ξ t ( i , k ) \hat{a}_{ij} = \frac{\sum_{t=1}^{T-1}\xi_t(i,j)}{\sum_{t=1}^{T-1}\sum_{k=1}^N \xi_t(i, k)} a^ij=t=1T1k=1Nξt(i,k)t=1T1ξt(i,j)
类似地可以求出发射矩阵中的每个元素:由最大似然法有
b ^ j ( v k ) = 系 统 在 隐 藏 状 态 j 展 现 出 观 察 状 态 k 的 期 望 次 数 系 统 处 于 隐 藏 状 态 j 的 期 望 次 数 \hat{b}_j(v_k) = \frac{系统在隐藏状态j展现出观察状态k的期望次数}{系统处于隐藏状态j的期望次数} b^j(vk)=jjk
先定义给定模型为 λ \lambda λ和观察序列 O O O时,系统处于隐藏状态 s j s_j sj的概率 γ t ( j ) = p ( q t = s j ∣ O , λ ) \gamma_t(j) = p(q_t =s_j|O,\lambda) γt(j)=p(qt=sjO,λ)。相同地,有
γ t ( j ) = p ( q t = j , O ∣ λ ) p ( O ∣ λ ) \gamma_t(j) = \frac{p(q_t=j,O|\lambda)}{p(O|\lambda)} γt(j)=p(Oλ)p(qt=j,Oλ)
其中 p ( q t = j , O ∣ λ ) = α t ( j ) β t ( j ) p(q_t = j, O|\lambda) = \alpha_t(j)\beta_t(j) p(qt=j,Oλ)=αt(j)βt(j)。最后有
b ^ j ( v k ) = ∑ t = 1   s . t .   o t = v k T γ t ( j ) ∑ t = 1 T γ t ( j ) \hat{b}_j(v_k) = \frac{\sum_{t=1\ {\rm s.t.\ }o_t=v_k}^T \gamma_t(j)}{\sum_{t=1}^T \gamma_t(j)} b^j(vk)=t=1Tγt(j)t=1 s.t. ot=vkTγt(j)
整个Baum-Welch算法/前向-后向算法的过程因此可以简单描述为:

  1. 初始化 A A A B B B
  2. 迭代如下过程直至收敛
    • E步:计算 γ t ( j ) \gamma_t(j) γt(j) ξ t ( i , j ) \xi_t(i,j) ξt(i,j)
    • M步:计算 a ^ i j \hat{a}_{ij} a^ij b ^ j ( v k ) ​ \hat{b}_j(v_k)​ b^j(vk)

参考文献

贝叶斯学派与频率学派有何不同

花书第五章

维基百科相关词条

《语音与语言处理(第三版·草稿)》,Dan Jurafsky and James H. Martin. 附录A:隐马尔可夫模型

《统计自然语言处理(第二版)》,宗成庆. 第六章

henry的回答:如何用简单易懂的例子解释隐马尔可夫模型

Raul Ramos关于HMM的幻灯片

台湾师大关于HMM的在线课件

你可能感兴趣的:(神经翻译笔记)