基于英汉平行语料库的机器翻译知识获取研究

基于英汉平行语料库的机器翻译知识获取研究

本文主要围绕以下几个方面进行了深入的研究:
1)词汇对齐。词汇对齐是从英汉平行语料库中,根据已有的句子级对齐的语料库,挖掘出词汇级的英汉词对应关系。对机器翻译、语义消歧、翻译词典获取以及跨语言信息检索等都具有重要的意义。

2)短语对齐。短语对齐能够反映出平行句对在短语级别上的对应关系,短语对齐也是机器翻译知识获取领域的一个重要研究工作。
3)句法结对齐。句法结构对齐是对双语句法结构树进行分析和总结,提取出双语句子在句法结构以及句子成分上的对应关系。句法结构对齐的结果能够直接应用于短语对齐的工作中。
4)机器翻译知识的应用。通过对双语平行语料库的知识挖掘,并且运用到机器翻译中,进行翻译前后的对比,可以看出机器翻译知识获取对机器翻译的质量的改善。
研究取得的主要成果如下:
1)在词对齐方面,我们提出了基于N-Gram语言模型的多词对齐算法,有效的解决了对于词对齐过程中存在的一对多和多对多的对齐问题。并且实现了一个有效的英汉、汉英双语翻译词典。
2)在短语对齐方面,鉴于句子结构的复杂性,我们提出了分类短语对齐的思想,把短语对齐分成了名词性短语、动词短语、形容词性短语以及副词短语。实验结果显示分类词对齐能够很好的提高短语对齐的准确性。同时,设计了一个能够提取双语短语互译单元的系统。
3)建立了一个完整的基于英汉双语平行语料库的机器翻译知识获取系统。
关键词:词汇对齐;短语对齐;机器翻译知识获取;

你可能感兴趣的:(机器翻译)