机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
同时,机器翻译又具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
机器翻译肩负着架起语言沟通桥梁的重任。百度翻译自2011年上线,在追梦路上已经走过十个年头。十年来,翻译质量大幅提升30个百分点,领域翻译准确率90%以上,日均翻译量超千亿字符,服务50多万企事业单位和个人开发者,实现了机器翻译技术和产业的跨越式发展
机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配,到词典结合语言学专家知识的规则翻译,再到基于语料库的统计机器翻译,随着计算机计算能力的提升和多语言信息的爆发式增长,机器翻译技术逐渐走出象牙塔,开始为普通用户提供实时便捷的翻译服务。
机器翻译是人工智能的重要方向之一,自1947年提出以来,历经多次技术革新,尤其是近10年来从统计机器翻译(SMT)到神经网络机器翻译(NMT)的跨越,促进了机器翻译大规模产业应用
机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W. Weaver和英国工程师A. D. Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:
(1947-1964)
1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下, 用 IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。
中国开始这项研究也并不晚, 早在1956年,国家就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957 年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译了9 种不同类型的较为复杂的句子。
从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。
(1964-1975)
1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。
1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告) ,该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革” ,基本上这些研究也停滞了。机器翻译步入萧条期。
(1975-1989)
进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。 同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如 Weinder 系统、EURPOTRA 多国语翻译系统、TAUM-METEO系统等。
而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“784”工程给予了机器翻译研究足够的重视,80 年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1 和MT/EC863 两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。
(1990-)
随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、 “雅信” 、 “通译” 、 “华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
新世纪以来,随着互联网的出现和普及,数据量激增,统计方法得到充分应用。互联网公司纷纷成立机器翻译研究组,研发了基于互联网大数据的机器翻译系统,从而使机器翻译真正走向实用,例如“百度翻译”,“谷歌翻译”等。近年来,随着深度学习的进展,机器翻译技术的到了进一步的发展,促进了翻译质量的快速提升,在口语等领域的翻译更加地道流畅。
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在研究多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在研究一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在研究多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
中国机器翻译研究起步于1957年,是世界上第4个开始研究机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。近年来,中国的互联网公司也发布了互联网翻译系统,如“百度翻译”“小牛翻译”等。
很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的,比如《大话西游》中“给我一个杀你的理由,先”之类状语后置的句子。机器毕竟是机器,没有人对语言的特殊感情,它怎么会感受“最是那一低头的温柔,像一朵水莲花不胜凉风的娇羞”的韵味?毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭,就连很多国人都是丈二和尚——摸不着头脑,就别说机器了。
事实上,不论哪种方法,影响机译发展的最大因素在于译文的质量。就已有的成就来看,机译的质量离终极目标仍相差甚远。
中国数学家、语言学家周海中曾在论文《机器翻译五十年》中指出:要提高机译的译文质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译的译文质量的。同时,他还指出:在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。这一观点恐怕道出了制约译文质量的瓶颈所在。 [6]
值得一提的是,美国发明家、未来学家雷·科兹威尔在接受《赫芬顿邮报》采访时预言,到2029年机译的质量将达到人工翻译的水平。对于这一论断,学术界还存在很多争议。
不论怎样,人们对机译最为看好,这种关注是建立在一个客观认识和理性思考的基础上的。我们也有理由相信:在计算机专家、语言学家、心理学家、逻辑学家和数学家的共同努力下,机译的瓶颈问题将会得以解决了。