字子序列中英翻译模型(五笔特征)

文章:Wei Zhang, etc. Subcharacter Chinese-English Neural Machine Translation with Wubi encoding

主要思想:将五笔作为中文字模型特征用于翻译模型

背景:有人使用了词子序列(sub-word)作为基本单位,用以规避典外词汇(Out Of Vocabulary, OOV)带来的问题,缩小了词表,并取得了良好的效果。五笔曾在其他文章中作为特征加入到翻译模型中,取得了优于字模型(character-level models)的效果。将二者思想结合起来,就有了这篇文章。

特征提取:在五笔输入法中,每个字或词映射为不超过5个(一般是4个)符号编码,比如“毫无理由”,逐字键入,应当映射为毫ypt无fq理gj由mh,如下图

毫yptypt

无fqfq
理gjgj
由mhmh
五笔的键位分布参考
https://www.52wubi.com/wbbmcx/search.php

但文章并没有将字的五笔输入序列直接作为特征,而是采用了基于共现符号对的压缩编码方式BPE(Byte-pair encoding)将之再编码。

BPE的基本思想是这样的,对于一些序列,比如字母序列-词,将最高频的连续共现对用新符号替代。比如对具有4个序列的语料:low, lowest, newer, wider进行替代合并的规则衍变过程为:
r * -> r*
l o -> lo
lo w -> low
e r * -> er*
其中*表示词尾,这样,合并的结果就是:
low(low, *)
lowest(low, e, s, t, *)
newer(n, e, w, er *)
wider(w, i, d, er *)

用该算法对“毫无理由”的五笔特征(ypt, fq, gj, mh)进行处理,得到:y@@,pt,fq,gj,mh,四个序列变成了5个序列,嗯,文章没有解释这两个@是怎么来的。

翻译模型的结构是经典的RNN+Attention:

字子序列中英翻译模型(五笔特征)_第1张图片
评估指标采用了机器翻译普遍采用的BLEU。文章的方法(wubi)在测试集上取得了优于其他方法的结果,尽管在验证集(开发集dev)上的结果有时差于其他模型。

字子序列中英翻译模型(五笔特征)_第2张图片

wubi右边的数字代表这次结果用的BPE次数。

文章选取了不同BPE处理次数的结果进行比较,当处理次数(也即图中的词表大小)在2000-3000时,结果是比较好的:

字子序列中英翻译模型(五笔特征)_第3张图片
其他:
比较了不同切词算法对结果的影响,总的来说,以词为单位的模型,切词质量影响较大,质量越高,效果越好。

从训练时间上来看,全字模型时间最长,其次是字子序列(文章的模型),最快的是基于词的模型。

你可能感兴趣的:(机器学习与自然语言处理)