真正的计算语言学?!
2003-3-26
-- 读 R. Hausser《计算语言学基础》
刘海涛
Roland Hausser
Foundations of Computational Linguistics: Man-Machine Communication in Natural Language. 534 pp. 1999. ISBN 3-540-66015-1. The second edition, 578+X pp. 2001.
Grundlagen der Computerlinguistik: Mensch-Maschine-Kommunikation in natürlicher Sprache.572 S. 2000.ISBN 3-540-67187-0.
Berlin-New York: Springer-Verlag.
从信息论和控制论的角度看,语言是人类之间、人机之间交流信息的工具。理论语言学研究的重点为人类语言的一般特性,而计算语言学研究的是人机之间采用自然语言的交流问题。计算语言学也可看作是研究通过计算机等机器去仿真人类语言处理机制的科学(Liu 1999)。严格说来,计算语言学是语言学的一个分支学科,为此语言学问题应该是计算语言学的核心问题。计算语言学几十年坎坷的历史,使得越来越多的学者正逐渐认识到这个问题的重要性(Hellwig 1988; 刘涌泉 1997; Hutchins 1992). 当然我们强调计算语言学的语言学特点和它的人文性,并不意味着对于方法和实践的忽视。我们只是认为任何忽视语言学基础研究的计算语言学应用都不会取得长足的发展,而只能是计算机科学家手中的玩物。在我国计算语言学界这一问题尤为突出,由于现行学制等方面的限制,学生很难在文理之间进行转换。于是我国目前此事计算语言学研究的人员大多是理工科出身,这对于学科的建设极为不利。当然我们也有像冯志伟教授(1996)这样出身于语言学的计算语言学学者,但总的来说,这样的人太少了。我们不否认随着计算机技术的普及,会有越来越多的语言学家加入到计算语言学研究者的行列中来;同时也会有理工科的学者在认识到语言学的重要性之后,不断提高自身的语言学修养,如:清华大学以黄昌宁教授为首的计算语言学研究队伍。在这一方面,我们认为德国学者的经验很值得借鉴。考察互联网上德国主要大学的网页,发现这些大学一般都有专门的计算语言学系科,而且计算语言学一般都是语言学学科的组成部分。如果我们再考虑到德国良好的人文研究传统,那么研究考察德国学者编写的计算语言学书籍,一定是有益的。遗憾的是,许多这样的著作大多是用德语写成的,如:Schmitz(1992)就是一本非常独具一格的计算语言学导论,很值得一读.
作者 Roland Hausser 目前为德国爱尔兰根(Erlangen)大学的计算语言学教授,已有三本计算语言学专著问世(1984,1986,1989)。一般而言,从作者对于计算语言学的基本定义中,我们可以大略推测出他的书中会说些什么。作者在书中的第一句话是:“面向未来的计算语言学的中心任务就是研究一种人类可以用自己的语言与其进行自由交流的认知机器”。从这一定义中,不难看出作者突出了以下问题:自然语言的人机交流,非受限的应用领域,认知在语言交流中的作用等。另外,我们也要提醒大家,本书的副标题就是“用自然语言进行人机交流”。为了完成这一任务,本书作者精心组织和设计了一套比较完整的语言理论,其主题就是如何通过机器来仿真人类的自然语言交流机制。全书共有四个部分:“语言理论”,“语法理论”,“词法和句法”,“语义学和语用学”。每一部分由六章构成,每章又细分为五节。为了便于学生掌握理解书中的关键概念和重要问题,每章末均有练习题若干,全书共有772个练习。相信这样的结构是非常有利于教师和学生的。
在引言中,作者更进一步明确了计算语言学的目标:“通过对说话者生成过程与倾听者解释过程的建模,在适宜的计算机上复制信息的自然传递过程”。换言之,就是构建一种可与其用自然语言自由交流的自治认知机器(机器人)。为了实现这一目标,必须对于自然语言交流机制的功能模型有深刻的理解。而这一点恰恰是目前许多语言理论和计算语言学应用所忽略的。我们不能想象如果对于一个过程没有深入的了解,怎么能够用计算机来重构它。在这一部分作者也简要论述了:对自然交流过程进行模型建立的过程中应满足的条件;语言剖析程序(parser)对于验证和测试语言理论的作用;抽象对于学科研究与形成的意义等。作者也认为适用于其它科学领域的“可重复实验”和“公理化方法”,对于语言学理论的验证并不适合。反之,电子模型是最适宜于测试语言和语法理论的方法。计算语言学对于理论语言学的检验作用,似乎已经成为许多语言学家的共识( Starosta 1991; 冯 1996)。作者将自己在本书中所用的语言理论体系称之为 SLIM,它由以下四项主要原则组成:表层成分(方法论原则),线性(经验原则),内部(本体论原则)和匹配(功能原则)。事实上,SLIM这个名字本身就来自于这四项原则的英文名称的首字母缩写。
计算语言学是一门交叉性学科,它包含传统和理论语言学的许多分支以及词典学、语言哲学、分析哲学、逻辑学、文本处理、数据库存取、口头与书面语言的处理等领域(p. 13)。在1.2节“语言科学及其组成部分”中,作者清楚地讲述了“传统语法”、“理论语言学”和“计算语言学”各自的研究方法与目的。理论语言学本身由于其理论的计算无效率性,对于计算语言学的作用仅仅在于形式语言分析和数学复杂性理论方面。而被理论语言学搁在一边的传统语法,倒是颇受计算语言学的青睐,因为它的基本原则就是针对具体语言数据的处理。目前属于的计算语言学的应用有:文本数据库的索引与检索,机器翻译,自动文本生成,自动文本检查,自动内容分析,自动教学,自动对话和信息系统等(p.21-22)。
通过对“查全率”和“查准率”这一对相互制约的文本检索指标的分析,作者简述了语言知识对于改善检索结果的意义和作用。进而认为在计算语言学应用的设计中存在两种方式,即:“灵巧”(smart)与“坚实”(solid)。所谓“灵巧”就是避重就轻,将应用局限于一个易控的范围之内,如一般常见的受限语言处理系统;而“坚实”的应用却是建立于对所处理现象从理论和实践上有一个完整了解的基础之上。虽然“灵巧”的方法具有投入少,见效快的优点。但其缺点也是致命的,它的可扩展性极差,几乎没有办法改善处理的精度。为此,从长远来看,还应采用“坚实”的方法,扎扎实实从基础做起。任何绕开困难的短期行为对于学科的发展和问题的最终解决都是不利的。作者也提出构建各种语言处理模块对于计算语言学应用研究的重要性,在本书的其它地方也对计算语言学的模块化问题有更进一步的阐述(p. 283)。虽然作者在本书中所提出的模块化概念,不完全等同与笔者提出的类似概念(刘海涛 1995),但可以肯定的是模块化的设计和专业分工,正引起人们的重视。
不少机器翻译的研究者认为机器翻译是计算语言学的集大成者。我个人一直都有类似的看法。但是本书作者却说“翻译避开了语言产生过程中的一些最困难的问题,如内容的选择、序列化以及词汇化等”(p. 41)。究其原因,在于作者的理论和方法研究的是语言作为交流工具的整个过程,这样难免就会涉及到人类认知问题。而此前我们所遇到的大多数计算语言学理论和方法一般研究的是语言本身的计算机处理问题,而这仅仅是SLIM理论的一个局部。由此可以看出,本书所述的计算语言学是一种研究如何应用语言这种工具的理论与方法,而其它常见的计算语言学理论却是研究工具(语言)本身的。众所周知,工具只有在使用的过程中,才能得到完善,才能创造效益。所以,本书提出的理论和方法可能对于达到计算语言学最终的目标更有效果。我们此前对于计算语言学的理解可能过于片面和狭窄了。
在简要比较了三种常见的机器翻译方法后,作者推崇“媒介语”方式的机译方法,认为“媒介语”方式和基于人工智能知识系统的翻译系统是目前机译理论研究的重点。我们认为从经济性以及模块化等角度看,“媒介语”式的机译系统无疑能更好的满足今天的互联网时代。与此同时,采用媒介语的机器翻译系统几乎完全等同于本书所提出的自然语言交流机制的建模(p. 48)。遗憾的是作者没有更多的分析“媒介语”问题,也没有给出必要的参考文献。好在笔者曾经有专文讨论媒介语的问题,可供参考(刘海涛 1993).
为什么作者要多次强调建立自然交流模型的重要性呢?作者认为此举对于计算语言学有三重意义:理论上,发现自然语言实际是如何工作的,这一定是极具普遍意义的问题;方法上,提供了一种在计算机上发展语法构成成分的统一的、功能性的观点,并允许对其理论模式进行客观的验证;实用上,可服务于构造“坚实”的高级应用的基础(p. 49)。
交流需要语言,但认知可独立于语言存在。如果要想真正构建一套理论(和智能体)来完成本书原定的目标,那么如何表示人类大脑中的认知结构,就成了一个不能回避的问题。为此,本书第三章的题目就是“语义学的认知”基础,本章的主要内容为独立于语言存在的语义认知表示,即:意义在认知体内的表示和结构。严格说来,本章才是本书的开始。作者将这样的地位授予与主题似乎无关的非语言方式“认知”,其良苦用心不难看出。如何在认知的基础上加上语言成分是第四章“语言交流”的主题。人机交流需要语言。今天的一般做法是人类去迁就机器,学习使用专为机器而生的程序设计语言。这显然对人极不公平,因为计算机本身应该是一种为人类服务的机器,而不是人类没事找事创造出来的“官老爷”。计算语言学的最终目的是将人类从此“怪圈”中解救出来,这也就是计算语言学对于人类为什么重要的原因之一。我们曾经多次说过(Liu 1999),信息时代的语言研究应该同时考虑人与机器的需要,就是这个意思。虽然从表面看,语言的生成和理解是两个不同的过程,作者在分析之后认为生成和理解具有共同的两个子过程,即符号的处理与解释,只不过二者使用这两个子过程的顺序截然相反。
在语言交流过程中,存在两种“意义”,其一是所谓的“字面”意义,其二是讲话者真正想要表述的意义。作者将前者称为“意义1”,后者称为“意义2”。倾听者(或接收者)从字面意义得到的“意义2”不能说就是讲话者原来的“意义2”,除非讲话者的上下文环境能正确地重构出来(p. 77)。由于重构信息源上下文环境的困难,我们可以说人类在语言信息交流过程中,相互的理解只能是近似的。根据弗雷格“一个复杂表述的意义是其组成部分和组成方式之函数”的原则,作者引入了从表层语言表述得到其意义的方法。值得一提的是,作者将此想法与上下文联系起来,从而使得“意义1”与上下文或语言使用的环境结合在一起。这无疑对于理解精度的提高有积极的意义。鉴于表层成分(SC)概念对于SLIM理论的重要性,作者明确定义其为:“一个自然语言的分析是符合表层成分原则的,只是如果它仅采用具体的词形作为构建单元,从而使得所有复杂表述的句法和语义特性均系统地派生于他们所含的构建单元的句法范畴和“意义1””(p.80)。按照作者的分析,转换生成语言理论(TGG)从本质上是不符合表层成分原则的。进而作者提出:任何对于自然交流没有功能作用的东西,都不应看作为人类语言机制的组成成分(p.83)。关于这一点,我们认为它不仅对于计算语言学有意义,就是对于普通语言学也有参考价值。Hudson在一篇论述“成分”和“依从”的文章中,也提到过转换生成语法理论在语言分析中所使用的某些东西是多余的、没有必要的(Hudson 1980)。他们二人从不同的角度,得出相似的结论。值得我们注意。除了TGG及其变体不符合SC原则之外,犯规的还有格赖斯、维特根斯坦、奥斯汀等人的语言理论。
在题为“在适宜的语境中使用语言符号”的第五章里,作者想解决的问题是接收者如何正确地发现理解所需的语境的。其主题是语用在理解中的作用和机制。在本章里,作者也引入了SLIM理论的第二个重要概念-自然语言符号的时间-线性结构:“自然语言符号的基本结构是他们的时间-线性次序。它存在于文本的句子中、句子的词形中以及词形的词素变体中。时间-线性意味着:线性如同时间,并与时间同向”(p.97)。这一定义可视为索绪尔第二法则的现代版本。由于时线性是语言符号的一个根本属性,语言理论应该对此加以考虑。遗憾的是,目前大部分的语言理论均基于二维的树形分析图之上。只有本书所采用的LA语法是将时线性作为自然语言生成和解释过程中的基本要素来考虑的。在随后的一章里,作者从符号学的角度研究了“符号的结构与功能”以及它们对于语言交流的作用。
在第一部分中,作者从认知心理学、语言学、哲学、符号学等角度探索了自然交流的基本机理。虽然从表面上看,这一部分与计算语言学的关系不大。然而,人类语言交流的机制是非常复杂的,它涉及到许许多多的学科。为了更精确地建立自然交流的模型,进而通过机器来仿真人类的自然语言交流能力。这样的探索和研究是非常有用的,甚至可以说是必不可少的。这应该被看作是本书的一大特点,也是我们向大家推荐此书的主要原因之一。
作为一本计算语言学的教科书。当然我们有理由看到哪些已经比较成熟的东西。作者将此放入第二部分“语法理论”。在这一部分的前三章中,主要讨论了“范畴语法”、“短语结构语法”等目前流行的形式化文法,也介绍了剖析技术的基本概念和它们的计算复杂性。介绍这些语法理论的目的,是发现它们的不足,特别是它们在整个SLIM体系中的不适性。所有这些,为引入作者自己创立的LA语法做好了铺垫。后三章,比较详细地从计算语言学的各个角度介绍了LA语法(LAG, 左相关文法)。并将LAG和其它文法做了比较。LAG 与其它文法的最大不同之处在于它本身就是为自然语言分析而诞生的,而不像其它文法的理论均借自其它领域。虽然我们不好评价这种原创性带来的好处有多少,但LAG从一开始就避免了传统形式化文法的某些问题,这一点对于LAG在语言分析的应用是大有益处的。限于篇幅,作者不可能对LAG作更详细的论述,有兴趣者可参考作者以前的著作(1986,1989)。作者认为依从语法是一种生成语法的“半形式化”系统(p.129)。对此看法我不敢苟同,作者的这一观点可能来自于Gaifman(1965)等人的观点。事实上,今天已经有许多更深入的研究可以改变原来的说法了,如:Broeker(1999), Fraser(1993) 和 Heringer/Strecker/Wimmer(1980)。
第三部分“词法和句法”的前三章处理词法问题。“词”的问题占据如此重要的地位,实在与作者书中所处理的语言(英语、德语)之结构有较大的关系。对于我们拿汉语来做为主要处理对象的中国计算语言学研究者而言,汉语虽然没有过于繁杂的词法问题,但是如何从一篇连续的文本中切分出词形来,就足以使我们头痛不已了。当然,作者没有在书中涉及汉语分词的特殊问题。如何利用LAG理论来解决汉语计算语言学中的“拦路虎”问题,可能是摆在我们中国学者面前的一件有意义的工作。“生词”的分析和辨识是任何计算语言学应用实用化所必须面对的问题。基于LAG的词法分析机制似乎在一定的程度上解决了这一问题,但是给人的感觉是这套方法只能适用于那些具有构词理据的合成词。冠以“语料库分析”的第15章使人以为作者将在自己的理论中引入“概率统计”的成分。但事实上并非如此,对于作者来说语料库似乎只是一个用来对语法体系进行验证、测试的文本集合。从这短短的11页中,我们所能看到的也只有一些对文本进行简单的词频统计和文本标注的描述。为什么作者忽略了近年来在计算语言学界越来越流行的经验方法,即语料库作为语言处理过程中的知识源和统计作为推理的方法,这可能与SLIM的整个体系有关。虽然SLIM方法提供?1993b)。想了解统计自然语言处理方面问题的读者,可参考Manning & Schuetze(1999)。
在论述句法的三个章节里,有两章分别描述了英语和德语的LA句法。英语是一种词序相对固定的语言,而德语的词序却要自由的多。LA对这两种语言句法的成功描述表明它的表现能力是强的、适应范围是广的。在题为“句法的基本概念”的第16章里,作者认为句法组合的三原则是“配价、呼应和词序”。按照我的观察,配价在LAG中的作用非常重要,它几乎就是LAG中句法分析的“黏合剂”。虽然作者在书中提到了法国语言学家泰尼埃尔(Tesniere)在引入“配价”概念的作用,但事实上“配价”在泰尼埃尔的语言理论中所占的位置并没有想象的那样突出。“配价”的概念能有今天如此显赫的地位,正是仰仗德语国家语言学者的许多工作。遗憾的是作为德语国家的语言学家,本书作者在其参考文献中并没有包括有关“配价”理论的德语文献。当然没有列出参考文献,并不意味着没有受到这些“配价”学者的影响。作者在描述动词的“价”(valency)时使用了"位"(place),如:一位动词、二位动词...,而非泰尼埃尔所说的"一价动词"、"二价动词"等。用“位”来表述“价”的概念的历史,比“价”本身还要长。德国语言学家 Buehler 早在 1934 年就用"Leerstellen"(空位)来表述后来泰尼埃尔用"valence"(价)来表示的概念(Buehler, 1934: 173)。而在本书的参考文献中,我们看到了Buehler的这本著作,虽然在本书中只是引用了他有关“语言工具性”的论述(p. 90)。
本书的最后一部分为“语义学和语用学”,头三章介绍了传统的语义解释方法,它们的基本概念、目的、方法和存在的问题。后三章在SLIM的理论体系内研究了采用LA的语义、语用方法。创造性地引入了“数据库语义学”的概念和方法,将各种语义、语境信息以数据库的形式组成“词库”(word bank)。在最后两章里,作者描述了SLIM在自然语言交流过程中作为讲话者和倾听者的工作模式。如果“词库”是SLIM进行语言生成和解释的核心机制,换言之它是基于SLIM理论的“知识库”,那么机器如何自动更新它的知识库呢?对人而言,知识库的自动更新是非常必要的,那么采用SLIM理论构建出来的“智能体”呢?这是一个悬念。
按照惯例,书评者一般都要列出一些由于作者或出版者的疏忽而造成的印刷错误。尽管我竭尽全力,也只发现了不到10处的印刷错误,对于一本500多页的书而言,要做到这一点是相当不容易的。在有关参考文献的部分,发现有两处疏忽:其一是将Tesniere(1959)的书名误为“Entwurf einer strukturalen Syntax”;另外在第168页提到了Harris(1951),但在参考文献部分却没有列出。
总之,这是一本新颖独特的计算语言学教科书。全书结构合理,组织严密。独创的SLIM理论贯穿始终,内容涉及广泛。从语言的认知到语言的语境问题,均有触及。作者对语言结构的许多局部问题均有不俗的研究,但所有这些细部研究都是为了实现计算语言学的最终目标-构建一个人类与其能够用自然语言自由交流的“人造智能体”而做的。当然,SLIM理论本身还有一些地方需要进一步完善。但是这种立足长远的“坚实”做法对于计算语言学的发展是非常有益的。计算语言学应该解决人类在信息时代遇到的人机交流问题,它不应该只是某些学者书斋或实验室里的“灵巧”玩物。从这一角度看,作者书中描述的计算语言学理论是一种真正意义之上的计算语言学。要想细说这本厚达500多页的“基础”的种种优劣,显然用这短短的几页纸是无法完成的。以上只是我在阅读此书时的一些随感,不妥之处希望得到您的指正。最后我要说的是目前没有第二本著作能为我们提供人机自然语言交流过程的“一揽子”解决方案。
从以下地址http://www.linguistik.uni-erlangen.de/~rrh/books/compling_foundations_intro.pdf,可下载本书的详细目录和样章。作者也在其主页建立了本书的勘误表 http://www.linguistik.uni-erlangen.de/~rrh/books/errata。为了便于教师使用,在作者的主页地址也可下载本书的教学幻灯文件以及其他人对此书的评论。
以上书评主要根据英文版而作,德文版的内容与英文版基本相同。但是在某些地方作了必要的改动,主要是纠正了英文版中的一些拼写错误。另外德文版增加了结论部分,英文版的结论可在作者主页读到。如果您懂德文,请直接阅读德文版。第二版修正了首版中的印刷错误和其他不足,对于第22-24章,作了较大的修改,甚至可以说是重写了一遍,这些章节的基础是Hausser教授发表于“人工智能”一刊上题为”数据库语义学“的一篇新作,感兴趣的读者可以点击此处下载这一篇重要的文献。
参考文献
Broeker, N. (1999). Eine Dependenzgrammatik zur Kopplung heterogener Wissensquellen. Tuebingen: Max Niemeyer Verlag.
Buehler, K. (1934[1965]). Sprachtheorie: Die Darstellungsfunktion der Sprache. Stuttgart: Fischer.
冯志伟, (1996). 自然语言的计算机处理,上海外语教育出版社.
Fraser, N. (1993). Dependency Parsing. PhD, University College London.
Gaifman, H. (1965). Dependency systems and phrase-structure systems. Information and Control, l 8, 304--337.
Harris, Z. (1951). Structural Linguistics. Chicago: The university of Chicago Press.
Hausser, Roland (1984): Surface Compositional Grammar. Muenchen: Wilhelm Fink.
Hausser, Roland (1986): NEWCAT: Natural Language Parsing Using Left-associative Grammar. (Lecture Notes in Computer Science 231) Heidelberg: Springer.
Hausser, Roland (1989): Computation of Language. An Essay on Syntax, Semantics and Pragmatics in Natural Man-Machine Communication. Berlin, New York: Springer.
Hellwig, Peter (1988). Weichenstellungen fuer die maschinelle Sprachverarbeitung (Plenarvortrag). In B. Spillner, Angewandte Linguistik und Computer. Kongressbeitraege zur 18. Jahrestagung der Gesellschaft f Angewandte Linguistik, GAL e.V. (5 - 35). Tuebingen: Gunter Narr.
Heringer, H. J., Strecker, B., & Wimmer, R. (1980). Syntax: Fragen-Loesungen-Alternativen. Muenchen: Wilhelm Fink Verlag.
Hudson, R. (1980). Constituency and dependency. Linguistics, 18, 179-198.
Hutchins, W.J. & Somers, H. (1992). An introduction to Machine Translation. London: Academic Press.
Liu Haitao (1999). Aplikata interlingvistiko(Applied Interlinguistics). GrKG/Humankybernetik, 40(1), 31-41.
刘海涛, (1993). "自然语言处理中的媒介语问题",《情报科学》,14(2).
刘海涛, (1993b). 维特根斯坦语言哲学对计算语义学的影响,载《计算语言学研究与应用》,北京语言学院出版社,1993.
刘海涛,(1995) “计算语言学应用中的模块化概念”,《语言文字应用》,1995.4.
刘涌泉, (1997).“机器翻译归根到底是个语言学问题”,载《语言文字应用》,1997(3).
Manning, Christopher D. & Hinrich Schuetze(1999). Foundations of Statistical Natural Language Processing. MA, Cambridge: MIT Press.
Schmitz, Ulrich (1992). Computerlinguistik: Eine Einfuehrung. Opladen: Westdeutscher Verlag.
Starosta, Stanley (1991). Natural language parsing and linguistic theories: can the marriage be saved? Review article, U. Reyle and Christian Rohrer (eds), Natural language parsing and linguistic theories, Studies in linguistics and philosophy volume 35, Dordrecht: D. Reidel; Studies in Language 15:1.175-197.
Tesniere, L. (1959). Elements de syntaxe structurale. Paris: Editions Klincksieck.
Contact ?Design.2003 [email protected]