【AI技术生态论】字节跳动李航:自学机器学习,研究AI三十载,AI发展或进入平缓期

【AI技术生态论】字节跳动李航:自学机器学习,研究AI三十载,AI发展或进入平缓期_第1张图片

作者 | 夕颜
出品 | AI科技大本营(ID:rgznai100)

「AI技术生态论」是CSDN发起的“百万人学AI”倡议下的重要组成部分,与AIProCon万人开发者大会、Top30 AI技术生态行业案例征集和评选、开发者与AI大调查、AI大师课一起,打造一个覆盖百万开发者的AI生态联盟。


2020年,「AI技术生态论」栏目将对1000+AI生态大咖进行系列访谈,勾勒出AI生态最具影响力人物图谱和AI产业全景图!


本文为 「AI技术生态论」系列访谈的第一期,更多AI技术和产业生态报道,敬请期待下一期精彩内容!

【导读】一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人、机构、企业。先后在 NEC 公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室从事和领导 AI 技术研发,现任字节跳动人工智能实验室总监的李航,就是一位 AI 技术的坚实研究者和实践者。

在字节跳动的一间会议室,笔者第一次见到这位卓有建树的AI技术研究者和实践者。关于李航的严谨和认真笔者早有耳闻,而在这次会面中,笔者才真正领会了他的学者风范。

让笔者欣喜的是,李航非常友善且健谈,从早年的研究经历到最近的新书《统计学习方法》第二版,再到对机器学习热门技术的看法及对未来人工智能的展望,相关问题他都一一做了详尽的回答。

一、初遇“机器学习”,也曾有过怀疑


从事 AI 研究 30 多年,目前李航作为字节跳动人工智能实验室总监,负责领导AI 技术基础研究和产品落地,主要集中在搜索、推荐、对话、问答、教育几个领域。目前,李航投入主要的精力在产品研发上,但仍有一些精力放在基础研究上。

例如在搜索领域,李航表示他们今年发表了一篇关于排序学习的论文,提出使用点击数据训练搜索排序模型的新方法。因为点击数据会有偏差,这个方法能自动做纠偏同时学习排序模型,在搜索中很有效。据悉,这项成果已经用到了字节跳动的搜索引擎中。这项技术的成功为搜索引擎变成一个自学习的系统迈出了重要一步。

在字节跳动,李航的主攻方向还是自然语言处理、信息检索、数据挖掘,认为学术和落地两者的结合至关重要。他认为,把研究的成果应用到产品,解决实际问题,同时把具有普世意义的成果,作为学术论文发表,在计算机领域这样的工作很有价值。因此,他表示将不断推动产品开发和学术研究,同时做好两者之间的平衡。

对李航的现状有所了解之后,我们不妨来了解一下,当初是什么样的契机,让他走上了 AI 研究的道路并一直坚持到现在。相信这会让有意进入该领域,但是对于未来职业和人生规划感到迷茫的年轻人受益匪浅。

京都大学留学开始“AI”生涯

李航回忆道,他最初与 AI “结缘”,是1988年,在日本京都大学留学的本科时期。当时,他最早做的两个工作都是文本生成相关的。然而,彼时的主流技术并不是机器学习,而是基于规则的方法。

读本科时,李航做了一个叫做 System Grammar(系统文法)的语言学框架,用它进行中文生成;硕士期间,他研发了一个能够根据不同需求生成多样表达的系统。但值得一提的是,这两个项目中使用的都是基于规则的方法。

他回忆道,其实到 90 年代初,机器学习才进入到自然语言等领域,或者说在这些领域产生更大的影响,逐渐变成主流技术。但当李航开始进入这个行业时,状况并不是这样,他也未曾想到,机器学习后来会给AI带来翻天覆地的变化。

回首 90 年代初开始接触机器学习时的经历,李航坦诚当时内心也有过一些怀疑,因为人的语言理解和生成机制与机器学习是完全不同,当时整个业界都认为应该基于规则建立认知模型,去做一些智能相关的任务。李航说,他的机器学习知识也都是从那时开始,通过自学获取的。

“可以说,80 年代至 90 年代初,人们对人工智能的期待非常高,比如 80 年代日本有所谓的第五代计算机项目,那时人们觉得人工智能的实现应该通过推理技术,但后来发现那些路根本走不通。接着,在90 年代,人工智能进入低谷期,当时业界甚至都不愿意提及人工智能这个词。相反地,更多的人把 AI 落到实处,用机器学习去做简单的事情。”在李航的眼中,90 年代的AI从业者和研究者,是一群务实的人。

务实的 90年代

李航以他自己的亲身经历,讲解了 90 年代那群“务实”的人。他最早接触的机器学习算法是决策树,叫做 ID3,这个算法其实只能做一些简单的事情。再如,基于神经网络的手写数字识别,也是一个典型的例子。

李航认为,这些事情都比较简单,听起来也没有那么智能,但是当时人们更多地是在脚踏实地做一些实际的事情,没有过多考虑智能。所以,从 90 年代到本世纪初的10年,在大约 20 年的时间里,关于人工智能的谈论并不多,更多的是用机器学习、数据挖掘去解决实际问题。

2012 年左右,深度学习开始火起来。而实际上,2012-2014年,最火的词汇还不是人工智能,是大数据。直到 2015年 Alpha Go 横空出世,人工智能这个词才又一次完全火爆起来。所以说,业界在不断发生变化,技术在演进,大家的关注点和期待,也在随之改变。

二、新书再版计划,增加深度学习和强化学习


接着,我们的话题转到了李航最近的《统计学习方法》第二版。这一次,作者在新版本中加入了无监督学习相关内容。为什么要增加这一部分内容?未来这本书还会有哪些变动?

李航指出,无监督学习有若干个不同的定义,《统计学习方法》第二版新增的无监督学习内容主要是传统机器学习中的无监督学习,与Hinton等人最近说的深度学习中的无监督学习不尽相同。他认为无监督学习确实是深度学习未来发展的重要方向,有望让机器变得更加智能化,像人一样使用语言,比如,自然语言处理领域的BERT 之所以可以发挥巨大的威力,根本原因在于它做了很好的预训练,就是无监督学习。Hinton 所谓的无监督学习是深度学习的未来,是指类似于 BERT这样的预训练方法。从这个意义上来说,无监督学习非常重要。

李航表示,因为这本书是在业余时间写作的,因此耗费时间较长,第一版花了七年,第二版花了六年时间。2012 年《统计学习方法》第一版出版时正值深度学习初火,当时他曾有意加入一些神经网络的内容,但是担心时间拖得太久故作罢,所以第一版只对传统机器学习中的监督学习的主要方法做了介绍。

本来,李航计划再加上无监督学习的内容就结束本书,但是出版之后受到读者的欢迎,这使他备受鼓舞,很多人希望再加上深度学习和强化学习,可以看到全新的,沿袭本书简洁和重点突出风格的内容。所以,李航计划为这本书增加深度学习和强化学习,希望可以覆盖所有机器学习常用的方法,帮助读者更好更快地掌握机器学习技术。然而,再出新版的时间不能确定,也许要几年之后。

李航特别指出,这本书的定位并非入门书籍,不一定适合入门者,因为虽然该书的内容都是最基本的,没有一定的统计概率知识和其他相关基础知识,学起来可能有点吃力。他希望,这本书能成为一本字典一样的书籍,让大家能够反复研读,经常使用。


三、对人工智能的洞察与前瞻

回顾人工智能的发展历史,每一个阶段都有会因为一些技术突破使得领域的发展曲线升向新的高峰,取得巨大进展。近年来,人工智能领域的的一些新技术,或者新思路,比如深度强化学习、图神经网络、通用人工智能、神经符号处理等引起了业界的瞩目,大家对这些新词汇或新技术寄予厚望,希望能让这个领域发生更多的奇迹。然而,每每被冠以“突破性”的技术,产生的影响果真的有这么大吗?李航凭借 多年的研究经验,给出了他的看法。

强化学习比监督学习更需要数据

李航曾表示,构建一个复杂的智能系统,原理上需要从“身体“入手,让智能系统在与环境的互动中进行学习,而强化学习是实现这一目标的有效手段。深度强化学习应用到真实环境中有什么样的优势?深度强化学习在智能系统的学习过程中会起到什么样的作用?

深度强化学习是把深度学习和强化学习结合起来,用深度学习学习强化学习模型,所以深度强化学习本质上还是强化学习。

李航表示,当智能系统学习做一些相对简单任务时,可以使用监督学习,监督学习技术已经比较成熟和实用,但代价是要用很多标注数据。相比,强化学习可以适用于让智能系统学习做更加复杂的任务。所以,从这种意义上来说,强化学习未来很有前景。

强化学习未来发展前景广大,但当前却面临着一个巨大的挑战,即强化学习从某种意义上比监督学习更需要大数据,数据成为当前强化学习发展的最大瓶颈。可以想象,未来5G、物联网等技术的发展会带来更多的数据,可能强化学习之后会获得更大的发展。所以,强化学习是大家都很看好的一个方向。

机器学习做不到和人一样触类旁通

目前,统计学习是机器学习的主流,但是统计学习还做不到和人一样的触类旁通,自学知识,达到人的学习能力。 统计学习在机器学习中起到什么作用?机器如何才能获得人的学习能力?

对于机器学习和深度学习目前取得的一些成果,李航认为应理性看待,“这让大家有一种错觉,认为机器已经非常接近人,但实际上差得还很远,这是因为人类学习和机器学习具有完全不同的机制。人天然具有三个最重要的学习能力,即记忆能力、泛化能力、联想能力,在机器上实现同样的学习能力还有很多困难。特别是现在人的学习的具体机理还不是很清楚。”

人的思考机制与机器本质上不同

那么,有没有一种方法能够让机器做到和人一样触类旁通呢?李航认为还看不到这种可能,要想机器学习做到像人类一样触类旁通非常难,做到这一点还需要漫长的时间,至于是多久,他也无法给出准确的估计。

为什么机器无法和人一样触类旁通?这要从人的学习机制来看。一言以蔽之:人与机器的学习在本质上是完全不同的。

李航讲到,人和动物天然具有记忆和泛化能力,这其实是在做概念的存储和抽象。比如,老鼠吃了一次让它中毒的食物,就能认识到这种食物不能吃,下次看到同样的有毒食物就不会再去碰它。也就是说,只用了一个样本就把有毒食物的特点,如颜色和气味学到了(记忆了)。在这个过程中,老鼠做了抽象,因为食物的个体都不是完全一样的,老鼠能区分哪些东西属于同类。这些能力都是老鼠生来具有的,有很充分理由相信,人也具有同样的能力。

此外,人还具有一项重要的能力,它在人的学习或概念形成、推理、语言使用中起到最根本的作用,那就是联想。联想是什么?李航用一个简单的例子来做了说明,比如现在你看到一瓶水,你可能会联想到你昨晚也喝过这种水,或者它的生产厂家等。人的经历不同、场景不同,联想的内容也不同。人时时刻刻都会做联想,所以人的思考其实很大部分都是在找到相关的记忆。计算机做检索的过程其实也是在联想。我们产生新的概念、做创造发明、学习新知识等常常也是在做联想。即记忆的机制就是联想,发明创造的机制也是联想。

所以,人的这种最基本的思考机制是记忆、泛化、联想→学到知识。

但是,机器学习目前完全是基于统计,即依靠数据。李航表示,他的书之所以命名为《统计机器学习方法》,是为了强调理论和统计的重要性,因为在他的认知里,机器学习基本上约等于统计机器学习或统计学习,这也是目前业界的共识。未来也有可能出现其他的机器学习方法,但至少目前来说机器学习就是约等于统计学习。

统计机器学习最核心的想法,就是从大量数据中找到统计规律。即使是深度学习,本质上也是统计学习,用复杂的训练神经网络,表示找到的复杂的统计规律,去做一些看似智能,但本质上和人的智能机制不同的事情。

因此,机器学习与人类学习的本质完全不同,所以让机器达到与人一样触类旁通非常难。

图神经网络重要,但其作用不应被夸大

近年,图神经网络(GNN)的研究火了起来。这是因为深度学习虽然进展迅猛,但是却有着无法进行推理的缺陷,而基于图的深度学习将端到端学习和归纳推理结合起来,使模型兼有表示能力和推理能力,被有些人视为未来智能技术突破的关键。

对此,李航表示,图神经网络是很重要的技术,但其作用不应该被夸大。

深度学习,从最基本的深度神经网络 ,发展到CNN,之后又出现了几次重大突破,如 GAN、自然语言处理领域的 BERT 等,图神经网络也属于这样的重大突破。从这个意义上来说,图神经网络,GNN是一个重要方向,也是一个大的突破口,很多人在做相关研究,包括字节跳动。

然而,李航认为,GNN 的特点在于通常以图数据为输入,利用图上各个节点之间的关系,学习更加复杂的模式,做智能性的判断和简单推理。这种意义上它是一个强大的工具,目前在很多应用中已经得到了很好的结果,未来还有很大的发展前景,值得深入研究。但是实现智能的一些关键问题,仅靠GNN还不能解决。它是未来重要的研究方向,但并非唯一方向。

“人类研究人工智能这么多年,苦于不知道如何把自己的知识告诉计算机,以实现人类智能,GNN并没有本质解决这个问题 ,单靠GNN实现人类智能,我认为不现实。”李航说道。

符号处理+神经处理、多模态让机器更加智能

上面讨论了一些机器学习领域很重要的技术,但是显然每一项技术单独来看都有局限性,无法单纯依靠某种技术实现人的智能。那么问题来了,如何才能让机器变得更加智能呢?我们至少需要一些思路。

李航认为,要实现人工智能,需要解决的一个重要问题是把符号处理与神经处理结合起来。

他首先解释了大脑的思考机制。人类的智能有两个层面,一个层面是人的大脑,是一个包含 1000 亿神经元,1000万亿联接的复杂神经网络。这个网络每个时刻都处于不同的状态,信号在网络中传输,网络状态发生变化。人工神经网络一定程度上与人脑神经网络相似,比如两者都是在网络结构中引入一些输入,做各种变换,之后产生一些输出。现在,深度学习中是用向量、矩阵或张量进行神经表示。但是,人工神经网络比人脑简单得多。

另外一个是意识层面,即人类做推理、理解语言、使用知识的层面,意识层面的东西大致可以用符号表示,对应着计算机的符号处理。但这方面的机制,我们并不十分清楚,脑科学和认知科学有一些假说。人脑中,意识层面的符号处理和脑层面(下意识层面)的神经处理是如何结合的还完全不清楚。

但是,看来要推进机器使用人类语言的能力,即自然语言处理能力,可能需要神经符号处理,就是把神经处理和符号处理两者结合起来,这样才能使机器更接近人。

另一个重要问题,多模态技术也是实现人工智能的关键技术。近年来也引起了大家广泛关注。

李航对此表示认同,他讲道,人的智能中的模态其实并没有明确的划分,人思考时大部分情况下都是在进行一种多模态“处理”,结合了视觉、听觉、触觉、味觉等各种模态。未来,相信随着数据的增多,计算能力的增大,多模态技术将能够做到更多,有望成为AI技术的一个突破口。

另一个重要问题是Hinton等所说的无监督学习,这里不在重复。

通用人工智能展望

实现通用人工智能,是人工智能领域的终极目标。李航在 2016 年的一次采访中曾预测,通用人工智能可能要 500 年才能实现,但或许永远都不可能实现。时隔三年,随着人工智能领域的进一步发展,李航的观点有改变吗?

“我不太喜欢用强人工智能、弱人工智能、通用人工智能的说法,因为这几个概念都没有严格的定义,很多时候大家说的并不是同一个东西。但是AI领域会不断发展,机器智能的水平会不断提高,这一点是不容置疑的。当时,被记者要求一定要说个数字,就随便说需要500年才能实现通用人工智能,其实没有科学的依据。”李航说道。

所谓的通用人工智能还是很遥远的。比如,机器很难具备常识和情感,即使是简单的常识性推理对于机器来说也是一道很难跨越的门槛,更不用说具有情感的机器。而这些都是人类智能的一部分。

面向未来,李航预测,从功能主义的角度来说,今后有相当长一段时间,瞄着实现合理行动的机器、合理思考的机器,把符号处理和神经处理结合起来,加上无监督学习、多模态等技术,可以让系统的智能程度上升好几个台阶,但是它最核心的可能还是机器学习,未来 50年,我们仍在使用这些最基本的技术,看来这个概率最大。

从另外的思路来看,常识推理、因果推断等也是一些重要的研究方向,希望它们能和机器学习结合起来。可以预见,合理行动、合理思考的机器会根据不同的场景需求,组合衍生出各种各样的智能系统和智能工具。

未来若干年,很有可能AI发展将会慢一些,突破会少一些

当然,李航谈论了他对于机器学习发展的看法。他说道,就像人的智能发育是一个漫长的过程一样,机器智能的构建也需要漫长的积累。人虽然自出生的那一刻起就具备了基本的认知和感知的能力,但是后天成长中也需要漫长的学习过程,不断积累才拥有了各种知识,具备了各种能力。

虽然李航认为机器学习的发展距离人的智能还有相当大的距离,但有几件事情是可以预见的:机器最强大能力就是计算和存储,过去 30 年,计算的速度、存储的容量、通讯的速度都提升了 100 万倍,未来 30 年、100年、500 年以后仍会飞速增长。如果我们能让机器很好地利用大数据和大算力,进行自主学习,这在将来带来革命性的变化。

“我的感受是人工智能研究其实需要长时间的积累,2012 年到 2018 年这段时间有很大的突破, 大家的期待特别高,以为今后一直会同样高歌猛进。然而事实并不是这样,大部分研究实际上都是需要不断积累,缓慢进步,不断发展的。包括深度学习大师 Yoshua Bengio 最近也在说,人工智能技术研究需要长期积累,我对他这句话的解读是,人工智能的发展也是有高峰和低谷的,我们不会永远处于高峰。未来若干年,概率最大的可能性是,人工智能相对前几年发展会缓慢一些,新的突破会少一些,但是还是会不断进步。未来还有更多有挑战性的问题,需要大家不断克服,持续积累,对于 AI,我们要有一个正确的期待。”

采访嘉宾

李航,字节跳动人工智能实验室总监,北京大学、南京大学客座教授,IEEE 会士,ACM 杰出科学家,CCF 高级会员。他的研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。李航 1988 年日本京都大学电气 工程系毕业,1998 年获得日本东京大学计算机科学博士。他 1990 年至 2001 年就职于日本 NEC 公司中央研究所,任研究员,2001 年至 2012 年就职于微软亚洲研究院,任高级研究员与主任研究员。2012 年至 2017 年就职于华为技术有限公司诺亚方舟实验室,任首席科学家、主任。李航一直活跃在相关学术领域,曽出版过三部学术专著,并在顶级国际学 术会议和顶级国际学术期刊上发表过 120 多篇学术论文,包括 SIGIR, WWW, WSDM 等。李航参与了多项产品开发,包括 Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012。他拥有 42 项授权美国专利。李航还在顶级国际学术会议和顶级国际学术期刊担任大会程序委员会主席、资深委员、委员、期刊编委,包括 SIGIR, WWW 等。

(*本文为 AI科技大本营原创文章,转载请联系微信 1092722531)

【End】

CSDN全新人物专栏重磅上线

【AI技术生态论】字节跳动李航:自学机器学习,研究AI三十载,AI发展或进入平缓期_第2张图片
PS:今日福利!

同样作为“百万人学AI”的重要组成部分,2020 AIProCon 开发者万人大会将于6月26日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。

评论区留言入选,可获得价值299元的「2020 AI开发者万人大会」在线直播门票一张。 快来动动手指,写下你想说的话吧

点击链接,观看直播吧!

你可能感兴趣的:(NLP)