机器翻译的历程

机器翻译自出生到现在经历了四个时期的演变和发展:

基于规则的机器翻译
机器翻译的源头,可以追溯至1949年,资讯理论研究者Warren Weave正式提出了机器翻译的概念。五年后,也就是1954年,IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701。它能够将俄语翻译为英文,别看它有巨大的身躯,事实上它里面只内建了6条文法规则,以及250个单字。但即使如此,这仍是技术的重大突破,那时人类开始觉得应该很快就能将语言的高墙打破。但其实它并未提到翻译所用到的例子是经过了精心的挑选和测试,并排除了任何歧义。这个系统实际上无外乎形同一本常用语手册。然而,包括加拿大、德国、法国、尤其是日本,各国间就此展开了竞争,所有人都加入了机器翻译的比拼。但是由于规则太复杂,太费语言学家,老头子顶不住,发展停滞了。

基于实例的机器翻译
在全世界都陷入机器翻译低潮期,却有一个国家对于机器翻译有着强大的执念,那就是日本。日本人的英文能力差举世皆知,也因此对机器翻译有强烈的刚性需求。日本京都大学的长尾真教授提出了基于实例的机器翻译,也就是别再去想让机器从无到有来翻译,我们只要存上足够多的例句,即使遇到不完全匹配的句子,我们也可以比对例句,只要替换不一样的词的翻译就可以。这种天真的想法当然没有比基于规则的机器翻译高明多少,所以并未引起风潮。这个方法虽然不算是一次彻底的变革,但显然是向前迈进了一大步。仅在5年后,革命性的发明——统计型机器翻译出现了。

基于统计的机器翻译
统计模型的思路是把翻译当成机率问题。原则上是需要利用平行语料,然后逐字进行统计。例如,机器虽然不知道“知识”的英文是什么,但是在大多数的语料统计后,会发现只要有知识出现的句子,对应的英文例句就会出现“Knowledge”这个字。如此一来,即使不用人工维护词典与文法规则,也能让机器理解单词的意思。这种机器翻译方法使用的文本越多,翻译效果就越佳。事实上这种翻译方法已经相当不错,后续很多公司的翻译软件都是基于统计的翻译方式。

神经网络机器翻译
到了2014年,机器翻译迎来了史上最革命的改变——“深度学习”来了!通过提取语言句子的特征来进行翻译,尤其是RNN神经网络(该网络可以记住之前的结果,对文本来说即为之前的单词)广泛应用。工作原理大概是一个网络用来特征提取编码,另一个神经网络用来解码回归原本的语言文本。

你可能感兴趣的:(神经网络,机器翻译)