本文介绍了统计机器翻译领域中一些重要的开源软件,包括词语对齐工具、语言模型工具、自动评测工具以及四个完整的统计机器翻译系统。
1. Egypt
Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:
Whittle:语料库预处理模块;
GIZA:用于从句子对齐的双语语料库中训练词语对齐;
Cairo:词语对齐的可视化工具
Decoder:解码器,即用来执行具体的翻译过程模块,这一模块没有开放源码。
2.SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。
3.Mteval
如何来评价一个机器翻译系统所产生的译文的好坏呢?这是一个比较困难的工作。很多时候连我们人类自己都难以判断到底哪个译文比较好,何况机器呢,Mteval便是他们开发的自动评测工具,最新版本是mteval-11b.pl[9],是用perl语言写成的。
4.法老(Pharaoh)系统
“法老”是较早公开的统计机器翻译系统,是由美国南加州大学信息科学实验室(Information Science Institute)的菲利普.科恩(Philipp Koehn)在2004年做博士论文期间编写的。可能由于较早的开源软件以“埃及(Egypt)”命名的缘故吧,这一系统也采用埃及的代表性事物“法老(Pharaoh)”命名。它是一个基于短语的(Phrased-based)统计机器翻译系统。为此,我们首先要了解一下基于短语的系统的工作原理。
基于短语的方法是目前比较成熟的统计机器翻译技术,它的主要思想是以短语作为翻译的基本单元。给定一个源语言句子,其翻译过程如下:
a. 对源语言句子进行短语划分;
b. 根据翻译模型翻译每个短语;
c. 对短语进行重排序。
“法老”正是基于这一思想的统计机器翻译系统。它包括两大部分;训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型。既然是以短语作为翻译的基本单元,因此还需要获得关于短语翻译的知识。通过前面的介绍我们知道通过GIZA++训练可以得到单词对齐,根据单词对齐我们可以进行短语抽取。请注意,这里我们所说的短语是指任意连续的单词串,而不管它是否具有语法意义。
5.丝路(SilkRoad)
中国第一个开源的统计机器翻译系统,“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分——解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统——“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会[14]上发布。“丝路”包括以下模块:语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。
路(SilkRoad)
6.摩西(Moses)
“摩西”是“法老”的升级版本,增加了许多功能。它是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。来自这8家单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。
相比于“法老”,“摩西”主要有如下几个新的特性:a.使用要素翻译模型(Factored Translation Model)
b.混合网络解码(Confusion Network Decoding)
7 GenPar
GenPar是Generalized Parsing 的缩写。这一工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾·丹·米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar.