机器翻译学术视野-2018.03.02

1，Going beyond zero-shot MT: combining phonological, morphological and semantic factors

本文将多语种词汇的多种特征融入到NMT编码器的embedding信息中，特征包括语言语义标注信息、词性信息、Lemma、Stem，近似的发音编码、Babel Synset同义词信息、toptic信息。文中详细分析了多语种语料特征，相比拉丁语系（ro\it\es\gr），日耳曼语系（en\de\nl）共享更多的词汇。本文NMT系统采用Nematus工具，在训练语料源句子加上<2trg>标签，源语言词汇的表征是其所有特征的合并。从结果来看，所有特征融合在smalldata上可以提升0.7个bleu。

2，The Samsung and University of Edinburgh’s submission to IWSLT17

本文系统只参加了双语翻译任务，en-de，使用Nematus工具。IWSLT提供了大量的平行训练语料，本文使用句子对齐和语言识别来清洗和过滤语料。句子对齐：使用NMT系统自动翻译原文本，使用翻译结果和目标文本的bleu值左右预测对齐概率的一个特征。具体是训练一个PSMT系统来清除不合适的短语，然后把德语翻译成英语，最后使用句子对齐工具来处理每一个平行句对。本文选择3K句子进行人工打分，然后训练模型根据句子对齐分数预测人工分数，然后使用回归模型应用与整个语料，挑选出得分比较高的句子。反向翻译语料是使用NMT翻译单语语料来构成平行语料。最终用来训练的语料包括允许、过滤的平行语料、过采样的域内数据和反向翻译的数据。通过调参和finetuning之后，效果总体提升5个bleu。

3，FBK’s Multilingual Neural Machine Translation System for IWSLT 2017

本文参与multilingual和zero-shot任务，系统使用many2many训练方法。本文使用OpenNMT工具，encoder和decoder各4层网络。本文做了以下对比试验，multilingual model和Single Pair model，multilingual model和zero-shot，zero-shot和pivoting。从实验结果来看，单个multilingual model效果好于Single Pair model，Zero-shot model proved效果要好于Single Pair model pivoting。

4，KIT’s Multilingual Neural Machine Translation systems for IWSLT 2017

本文将NMT网络结构分成五个主要的组成单元：embedding layers, encoders, decoders, attention and output layers。本文研究了对于multilingual任务，哪些单元可以共享。数据处理：句子长度超过50，句对长度差异较大的句子被清除，特殊的日期、数字和符号进行归一化，使用Smartcasing，BPE词典大小为40K。embedding layers和output layers不共享，smal data上，share-rnn效果好于share-all0.7个bleu，large data上两者效果一致。

机器翻译学术视野-2018.03.02

你可能感兴趣的:(机器翻译学术视野-2018.03.02)