斯坦福大学计算机学院教授 Dan Jurafsky 是自然语言处理领域泰斗,他所著的《语音与语言处理》一书,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。Dan Jurafsky 曾在 ACL 2006、EMNLP 2013、WWW 2013 获最佳论文奖,在 2002 年获得麦克阿瑟天才奖(美国跨领域最高奖项),2017 年获得美国科学院 Cozzarelli 奖,2015 年获得古尔德奖。Dan Jurafsky 教授在 Google Scholar 上引用量超过3万,h-index 达 75。他的主要研究方向有自然语言理解、对话系统、人与机器语言处理之间的关系等,并一直尝试运用自然语言处理方法来解决社会学和行为学问题。同时,他还对食物语言学以及中文有着极大的兴趣,他所著的科普图书《食物的语言—从语言学家角度读菜单》被翻译成多国语言,荣获2015国际畅销书榜首,并获 2015 年 James Beard Award 提名。
图 1. 斯坦福大学计算机学院终身教授 Dan Jurafsky 早在 80 年代就与中国结下了不解之缘。图为他 1985 年在北京大学进修中文时的留影(第二排右二即是青年时代的 Dan Jurafsky)。图片来源于Jurafsky 教授的个人主页 https://web.stanford.edu/~jurafsky/
香侬科技:您现正在编辑《语音和语言处理》的第三版,这本书是自然语言处理(Natural Language Processing, NLP)领域使用最广泛的教科书,编辑的过程中,您对过去几年自然语言处理领域的变化总体上有何体会?最令人兴奋的事是什么?最令人失望的事又是什么(如果有的话)?
图2. Dan Jurafsky 与 James Martin 所著的《语音和语言处理》一书,被翻译成 60 多种语言,是全世界自然语言处理领域最经典的教科书。
Jurafsky:能在这个时代身处这个领域是一件令人激动的事!当然,我会为深度学习感到特别的兴奋,而我觉得最值得期待的是自然语言生成方面将发生的巨大改变,这是一个很有潜力的领域,却在自然语言处理中被边缘化了太久的时间。另外,嵌入,特别是基于上下文的嵌入(embedding/contextualized embedding)的使用也令人兴奋不已,它让我们得以构造模型来捕捉词义在不同时间、空间,语境中的动态变化。另外一件事是人们对NLP领域的社会性有了日渐提高的觉知:人们既意识到模型存在一定的偏见,也意识到这些模型可以用来模拟和理解人与人之间的互动,进而将这个世界变得更好。
香侬科技:许多 NLP 研究人员都有很强的语言学背景,甚至本身就来自该领域。然而,随着深度学习的方法在 NLP 中变得越来越主导,有人说(这甚至可以算得上一种趋势)语言学知识不再是进行 NLP 研究的必要条件:只要训练一个双向长短时记忆循环神经网络(bidirectional LSTM RNN)就足够了。您能评价下这一说法吗?另外,您如何评价 Frederick Jelinek 教授的名言“每次我解雇一个语言学家时,我的语音识别器的性能都会提高”?
Jurafsky:我坚定地相信,想要为一个知识领域做出贡献,充分了解这个领域是有帮助的,所以我认为 NLP 研究人员深刻地理解语言的功能,以及熟悉各类语言现象,比如:指代、组合性、变异、语法结构、隐含意义、情感、语言风格、对话互动等仍是至关重要的。但理解语言和语言现象并不意味着盲目地套用不恰当的语言学模型。Jelinek 教授的那句话(他曾告诉我他的原话其实更加婉转:「每个语言学家离开团队时模型的识别率都会上升」)实际上是指语音识别中的发音建模。事实证明(并且现在仍然正确)在拥有足够的数据时,机器学习能够比人工定义语音规则更好地解决语音多样性的问题。
所以我认为这个领域未来仍将是机器学习与语言结构、知识的不断融合,而每个研究人员将在不同时间不同情况下决定如何分配这两个重要组成部分的权重。
香侬科技:从历史的角度来看,重大的突破通常首先在语音处理中发生,然后传播到自然语言处理领域。例如:在 20 世纪 90 年代早期,来自语音领域的 Peter Brown 和 Robert Mercer 将统计机器学习模型引入 NLP 领域,从而彻底改变了该领域; 而深度学习方法是首先在 2012 年被微软研究院科学家邓力等人应用在语音领域并取得突破性进展,而在 NLP 中大规模使用深度学习要到 2013-2014 年。回顾这些,您能解释为什么会发生这种情况吗,还是说它只是巧合?
Jurafsky:正如你所说,统计模型确实是从语音领域传播到 NLP,深度学习也是从语音和视觉领域传播到 NLP。我认为这根本不是巧合,一般来说创新来自于在不同领域工作的人一起工作时的结合。对诺贝尔奖获得者的研究表明,他们往往是“搭桥者”—将不同领域的方法联系在一起。因此,我对年轻学者的建议是多利用跨学科的联系,与相关但不同领域的人交谈。这就是重大突破诞生的方式。
香侬科技:您在博士后阶段做了 3 年的语音处理研究。您能描述一下这些年的研究是如何影响了您在 NLP 领域的研究生涯吗?
Jurafsky:它的影响是非常巨大的。我的博士后是在 1992-1995 年,正是机器学习、概率理论(probability theory)、图模型(graphical model)、神经网络(neural network)以及早期版本的嵌入(embedding)同时进入 NLP 的时期。我很幸运能够在加州大学伯克利分校国际计算机科学研究所(ICSI - UC Berkeley)的一个语音识别和神经网络实验室攻读博士后,并与 Nelson Morgan 和 Jerry Feldman 合作。那个实验室对我有着重要的意义,我的导师们对 NLP 领域的「大熔炉」观点对我产生了非常大的影响:你必须重视文本、语音、对话以及认知科学,给予它们和工程学一样多的思考。
我们当时不知道什么会成为最主流的模型,是机器学习这个大领域,还是具体的图模型或神经网络。当时,因为没有足够多的 GPU,训练神经网络要慢得多,所以实验室必须搭建自己的向量处理器,而一个有着 4000 个单元的隐藏层的语音识别网络在当时是非常巨大的神经网络,要花极久的时间来训练。如果你当时让我预测,我不会预想到深度学习二十年之后会是今天这样的局面。有趣的是,我和 Martin 写的《语音和语言处理》教科书的第一版仅仅介绍了神经网络作为语音识别算法;在第二版,我们删除了神经网络,转而使用高斯模型,而在第三版中,我们又把神经网络加回来了!
香侬科技:在过去,您和您的学生使用 NLP 技术研究了许多社会科学中的重要问题(例如,Garg et al. PNAS 2018; Voigt et al. PNAS 2017, Winner of Cozzarelli Prize)。您对于想要进行更多这样跨学科研究的NLP研究人员有哪些建议呢?
图 3. Voigt et al. PNAS 2017 中 Dan Jurafsky 的实验室与斯坦福大学心理系合作,利用自然语言处理方法,自动评估警察对不同种族的人说话时的尊重程度。图片来源于 Voigt et al. PNAS 2017。
Jurafsky:我们应该多跟社会科学家交流!我认为,如果你要研究与人类有关的任何东西,与社会科学专家合作这一点非常重要!社会科学专家不仅有着更多关于人和社会关系的思考,而且与计算机科学家相比,他们往往在统计和因果推理方面更有经验。再次强调,是跨学科引发了创新!
香侬科技:近年来,人们对机器学习的模型中的偏见有很多担忧。这个问题似乎在NLP领域格外突出,因为在自然环境(例如,twitter)中收集的数据不可避免地包含偏见(性别歧视,种族歧视等)。盲目地用这些数据训练深度神经网络将导致有偏见的模型预测。您怎么看待这一问题?
Jurafsky:是的,现在每天有数百万,甚至是数十亿人在使用 NLP 工具,如机器翻译、信息抽取、自动推荐等等,这是激动人心的进展。但是正像你所说,这些广泛的应用是有副作用的!NLP 的工作在道德层面上是影响社会的,越来越多的人,包括这个领域的年轻从业者以及我们科学和技术的消费者正在更多地关注这些影响。
我很高兴我们终于开始正视这些问题!也许我们可以向那些长期以来必须面对这些道德困境和社会挑战的领域学习,比如:医药学、核物理学、生物学、社会科学等。你问我当需要权衡准确性与偏见时应该做些什么,我的答案是我们需要时时扪心自问:我们工作的终极目标是什么。我们现在意识到,这个终极目标绝不仅仅是为了提高准确性或速度,而是真正让世界变得更美好。这是一个模糊的答案,需要结合具体的算法或任务来实践,但是希望我们能够成功!
香侬科技 (http://shannon.ai/) ,是一家深耕金融领域的人工智能公司,旨在利用机器学习和人工智能算法提取、整合、分析海量金融信息,让 AI 为金融各领域赋能。
香侬科技在 2017 年 12 月创立,获红杉中国基金独家数千万元融资。创始人之一李纪为是斯坦福大学计算机专业历史上第一位仅用三年时间就获得博士的人。在近日由剑桥大学研究员 Marek Rei 发布的一项统计中,李纪为博士在最近三年世界所有人工智能研究者中,以第一作者发表的顶级会议文章数量高居第一位。公司硕士以上比例为 100%,博士占比超 30%,成员皆来自斯坦福、MIT、CMU、Princeton、北京大学、清华大学、人民大学、南开大学等国内外知名学府。
参考文献:
-
Jurafsky D and Martin J H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition[M]. Second Edition. 2009, Prentice-Hall.
-
Jurafsky, D. 2014. The Language of Food: A Linguist Reads the Menu[M]. Norton.
-
Garg N et al. Word embeddings quantify 100 years of gender and ethnic stereotypes[J]. Proceedings of the National Academy of Sciences, 2018, 115(16): E3635-E3644.
-
Voigt R et al. Language from police body camera footage shows racial disparities in officer respect[J]. Proceedings of the National Academy of Sciences, 2017, 114(25): 6521-6526.