日汉翻译的问题

1 缺乏高质量的训练语料

目前获得平行语料40万左右(未处理40万+70万)。但存在翻译不准确,出现无意义符号,翻译句子过长,上下句子顺序颠倒等问题。词表大小5万左右,但词频2次及以下占了50%以上。

2 分词不准确

目前日文使用juman++(version1.0.2),中文使用LTP。均存在分词结果不稳定的情况。

3 模型

目前使用端到端Transformer模型。对于较短文本翻译结果时有较好的情况,猜测可能在训练语料中有相似句子较多。对长文本大多结果较差。由于端到端翻译,一般翻译错误的结果都与原句相差较远,无法针对翻译错误的某个词进行纠正。

你可能感兴趣的:(日汉翻译的问题)