第22章 自然语言处理的教父马库斯和他的优秀弟子们

以下内容学习、摘录自《数学之美》


第22章 自然语言处理的教父马库斯和他的优秀弟子们_第1张图片

将自然语言处理从基于规则的研究方法转到基于统计的研究方法上,贡献最大的有两个人:一个是我们前面介绍过的贾里尼克,他是一位开创性人物;另一个是将这个研究方法进一步发扬光大的米奇·马库斯( MitchMarcus)。和贾里尼克不同,马库斯对这个领域的贡献不是直接的发明,而是通过他造福于全世界研究者的宾夕法尼亚大学LDC语料库以及他的众多优秀弟子

在马库斯以前,基于统计的自然语言处理为语言学术界所诟病的一个原因是采用统计的方法很难进行“深入的”分析,马库斯的工作证明统计的方法比规则的方法更适合对自然语言做深入的分析。但是,随着工作的深入以及研究的不断推进,马库斯发现存在两大难题:首先,可以用于研究的统计数据明显不够;其次,各国科学家因为使用的数据不同,论文里发表的结果无法互相比较。

马库斯比很多同行更早地发现了建立标准语料库在自然语言处理研究中的重要性。于是,马库斯利用自己的影响力,推动美国自然科学基金会( National Science Foundation,简称NSF)和 DARPA出资立项,联络了多所大学和研究机构,建立了数百个标准的语料库组织( Linguistic DataConsortiun,简称LDC)。其中最著名的语料库是 Penn Tree Bank。起初这个语料库收集了一些真实的书面英语(《华尔街日报》)语句,人工进行词性标注和语法树构建等,作为全世界自然语言处理学者研究和实验的统一语料库。后来,由于得到广泛的认可,美国自然科学基金会不断追加投入,建立起了覆盖多种语言(包括中文)的语料库。对每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有词性标注、语法分析树等。LDC后来又建立了语音、机器翻译等很多数据库为全世界自然语言处理科学家共享。如今,在自然语言处理方面发表论文,几乎都要提供基于LDC语料库的测试结果

当然,凭借对数据的贡献,还不足以让马库斯获得教父的地位。马库斯有点像日本围棋领域的木谷实,他的影响力很大程度上是靠他的弟子传播出去的。

放手让博土生研究自己感兴趣的课题,这是他之所以桃李满天下的原因。马库斯的博士生研究的题目覆盖了自然语言处理的很多领域,而且题目之间几乎没有相关性,因为这些题目大多是博士生自己找的,而不是马库斯指定的。

马库斯对几乎所有的自然语言处理领域都有独到的见解,他让博士生提出自己感兴趣的课题,或者用现有的经费支持学生,或者去为他们的项目申请经费。马库斯高屋建瓴,能够很快地判断一个研究方向是否正确,省去了博士生很多做无谓尝试(Try- and-error)的时间。因此他的博士毕业生质量非常高,而且有些很快就拿到了博士学位。

由于马库斯宽松的管理方式,他培养的博士生在研究和生活上都是个性迥异。有些人善于找到间接快速的方法和容易做出成绩的题目,有的人习惯啃硬骨头;有些人三四年就拿到博土去当教授了,而有些人“赖在”学校里七八年不走,最后出一篇高质量的博士论文。这些各有特点的年轻学者,后来分别能适应文化迥异的各个大学和公司。

马库斯教授长期担任宾夕法尼亚大学计算机系主任。作为一个管理者,马库斯在专业设置方面显示出远见卓识,他将宾夕法尼亚大学规模很小的计算机系发展成在学术界具有盛名和影响力的强系。在世界各种大学研究生院的排名中,一般来讲,规模大的院系比规模小的要占不少便宜因为前者学科齐全。但马库斯的主张一贯是建立几个世界上最好的专业,而不是专业最齐全的系。我觉得,当今中国的大学,最需要的就是马库斯这样卓有远见的管理者。

当今自然语言处理领域年轻一代的世界级专家,相当大一部分来自宾夕法尼亚大学马库斯的实验室。他们为人做事风格迥异,共同的特点是年轻有为。这里介绍其中两人,迈克尔·柯林斯和艾里克·布莱尔,因为他们代表两种截然不同的风格。

作者在“数学之美”系列中一直强调一个好方法在形式上应该是简单的。但是,自然语言处理中也有一些学者将一个问题研究到极致,执著追求完善甚至可以说达到完美的程度。他们的工作对同行有很大的参考价值,因此在科研中同样很需要这样的学者。迈克尔·柯林斯就是这样的人——追求完美

在做博士期间,柯林斯写了一个后来以他的名字命名的自然语言文法分析器( Sentence parser),这个分析器可以对每一句书面语进行准确的文法分析。前面提到,文法分析被认为是很多自然语言应用的基础。柯林斯的师兄布莱尔和拉纳帕提以及师弟恩斯勒都完成了相当不错的语言文法分析器,照理讲,柯林斯不应该再选择这个课题了。但柯林斯却是一个要把技术潜力挖掘到极致的人,他在这方面的追求很像乔布斯在产品上的追求。他的师兄弟选择这个题目都是为了验证自己的理论:布莱尔是为了证明他的“基于变换”的机器学习方法的有效性,拉纳帕提是为了证明最大熵模型,恩斯勒是为了证明有限状态机。柯林斯和他的师兄弟不同,他做文法分析器的出发点不是为了验证一个理论,而是要做一个世界上最好的分析器

柯林斯不是成功做出文法分析器的第一人,甚至不是第二、第三人。但是从某种程度上讲可能是最后一人,在过去的七八年里,他还在这个领域不断改进,不断突破,大有其他科学家从此不必再做文法分析器的架势!

柯林斯的博士论文堪称自然语言处理领域的范文。它像一本优秀的小说,把所有事情的来龙去脉介绍得清清楚楚,任何有一点计算机和自然语言处理知识的人,都可以轻而易举地读懂他复杂的方法。

在麻省理工学院的短短七年间,柯林斯三次获得 EMNLP最佳论文奖,两次获得UAI最佳论文奖和一次CoNLL最佳论文奖。一般来说,一个一流的科学家,一生也就获得两三次最佳论文奖,而柯林斯把获奖当成了家常便饭!相比其他同行,这种成就是世界上独一无二的。柯林斯的特点就是把事情做到极致。如果说有人喜欢“繁琐哲学”,柯林斯就是一个。

在研究方法上,站在柯林斯对立面的典型是他的师兄艾里克·布莱尔。与柯林斯的研究方法相反,布莱尔总是试图寻找简单得不能再简单的方法——简单才美

布莱尔的成名作是基于变换规则的机器学习方法( Transformation Rule Based Machine Learning)。这个方法名字看似很复杂,其实非常简单。下面以拼音转汉字为例加以说明:第一步,把每个拼音对应的汉字中最常见的找出来作为第一遍变换的结果,当然结果有不少错误。比如,“常识”可能被转换成“长识”;第二步,可以说是“去伪存真”,用计算机根据上下文,列举所有的同音字替换的规则,比如,如果 chang被标识成“长”,但是后面的汉字是“识”,则将“长”改成“常”;第三步,应该就是“去粗取精”,将所有的规则应用到事先标识好的语料中挑出有用的,删掉无用的。然后重复二三步,直到找不出有用的为止。布莱尔就靠这么简单的方法,在很多自然语言研究领域,取得了几乎最好的结果

在研究方面,布莱尔有时不一定能马上知道应该怎么做,但是能马上否定掉一种不可能的方案。这和他追求简单的研究方法有关,他能在短时间内大致摸清每种方法的好坏。如果说柯林斯是个“务于精纯”的精深专才,布莱尔则更像“观其大略”的通才。

布莱尔善于寻找简单却有效的方法,而又从不隐瞒自己的方法,所以他总是很容易被包括作者在内的很多人赶超。好在布莱尔对此毫不介意,而且很喜欢别人追赶他。因为,当人们在一个研究方向上超过他时,说明他开创的领域有意义,同时他已经调转船头驶往其他方向了

点击这里可以查看《数学之美》的其它学习笔记。

你可能感兴趣的:(第22章 自然语言处理的教父马库斯和他的优秀弟子们)