最新的统计机器翻译系统教程(不定期更新)

本文目标:

    基于moses,Giza++和IRSTLM搭建自己的统计机器翻译系统

    简单了解统计机器翻译的基本知识原理

    提供前人已总结的优质资源和资料


ps:为了保证内容质量以及简单易懂性,我将分多次更新,以帮助想学习这个方向的同学快速入门,我自己也是一路踩坑填坑,所以希望后来者一路平坦。同时也期待和大家一起交流学习,有疑问或是建议的同学欢迎与我联系。


前言:

    上世纪90年代初,布朗等人提出了IBM model 1 到 model 5来刻画统计机器翻译,属开山之作,为现代的STM奠定了深厚的基础。1999年,一帮大神云集JHU夏季研讨班,共同发布了开源软件包“埃及(Egypt)”,包含GIZA++用于词语对齐训练,使得IBM模型被广泛研究使用。Philipp Koehn在2004年做博士论文期间,开发了基于短语的统计机器翻译系统“法老(Pharaoh)”,然而核心部分——解码器的源码并未公开。2006年,中国的五家研究机构联合发布“丝路(SilkRoad)”,完全开放源码,重点在三个解码器的实现(骆驼,绿洲和商队)。同年的JHU夏季研讨班,来自全球8家单位的研究人员共同开发了“法老”的升级版本“摩西(Moses)”,此后不断完善,项目已被托管于github,本文将基于moses搭建自己的统计机器翻译系统。


提醒:

    重要的事情说三遍:切记看官方文档,切记看官方文档,切记看官方文档。对于开源软件项目,一般更新迭代比较快速,但是网上的大多数教程或许已经过时,不适用于当前的版本,而且常常晦涩难懂。所以官方资料永远是最直接快速的上手方式,不要惧怕英文,说的其实是我自己,由于每每看到英文比较抗拒,于是会上网找中文的帖子博客,然后发现总是被坑的无力吐槽,实在解决不了,最后跑去看官方教程,结果是柳暗花明又一村。谨以此提醒广大同学。


搭建:

待续

你可能感兴趣的:(最新的统计机器翻译系统教程(不定期更新))