专访:经历了时间检验的不仅是论文,还有唐杰自己 | SIGKDD 2020时间检验奖

KDD 2020即将在8月23-27日召开。而近日,SIGKDD 2020官方推特也公布了本年度的各种奖项,其中清华大学教授、智源研究院学术副院长唐杰团队获得了ACM SIGKDD 2020时间检验应用科学奖!

获奖论文为唐杰等人在SIGKDD 2008发表的论文《ArnetMiner: extraction and mining of academic social networks》。

 

专访:经历了时间检验的不仅是论文,还有唐杰自己 | SIGKDD 2020时间检验奖_第1张图片

事实上,这并不只是一篇经历时间检验的论文。ArnetMiner(或AMiner),全称Academic Research Network Miner,即“学术研究网络挖掘平台”。从2006年起,唐杰便开始了该系统的研制,当时他还是一个博士生,所有程序只是在一台台式机上运行的demo;然而历经15年的打磨,如今该平台已经是上百人维护、数十台服务器运行的大型人才咨询、技术分析、学术查询的平台,而唐杰也已经成为数据挖掘领域的领军人物。

 

一个人,一个项目,一辈子,做到顶天立地。

 

与其说是时间检验论文,不如说是时间检验唐杰。唐杰教授曾多次向笔者表示,做研究最重要的就是专注,“做一件事情,就要把这事情做深做透,而不要在意别人怎么看、怎么说”。十多年来,唐杰每天凌晨2点睡觉,绝大多数时间泡在实验室中,几无中断;领域研究热点潮涨潮落,而他,研究的中心始终是AMiner系统。时间在变,而唐杰不变。这份专注,毫不客气地说,国内少有。

唐杰清华大学计算机科学与技术系长聘教授,计算机系副主任,智源研究院学术副院长,清华-工程院知识智能联合实验室主任,国家杰青。研究兴趣包括:社会网络分析、数据挖掘、机器学习和知识图谱。发表论文200余篇,拥有专利20余项。主持研发了研究者社会网络挖掘系统AMiner,吸引了220个国家/地区1000多万独立IP访问。

作者:智源社区 贾伟

智源:恭喜获得SIGKDD 2020时间检验奖。我们注意到你在这方面的工作从2006年就已经开始了,截止到现在AMiner的研发时间差不多已经有14年了。所谓十年磨一剑,如今你已经将这个平台产业化。我们想借着这样一个机会了解一下Aminer这个平台的发展历程。首先,能不能介绍一下AMiner是什么?

唐杰:AMiner原本的名字叫ArnetMiner,因为我是做数据挖掘的,我们这个领域有位资深的教授,叫韩家炜,他比较喜欢用Miner这个词,当时我刚加入到数据挖掘这个领域,读过他的文章后,就想做一个什么Miner,这是名字后半部分的来源。前半部是Academic Research NETwork的缩写。所以整体上的意思是“学术研究网络挖掘”。后来仍觉得太长,就直接缩写为AMiner了。

从功能上来说,我们在2006年设计时的想法就是,给一个学者名字,这个程序能够自动从互联网上把相关的信息(例如主页、照片、E-mail地址、论文等)给抓过来,并呈现出来。最开始的功能就是这么简单。当然,经过这么多年,它的功能慢慢丰富了起来,例如怎么把相同名字的人区分开来,以及把项目、专利以及其他更多信息都汇聚过来。有了这些数据,我们可以在里面做更多深度的挖掘,可以挖掘技术的脉络,然后用来服务政府、企业等。举例来说,企业要做一个新的产品研发,他可以用这种技术来挖掘这个领域里面的技术脉络,以及有哪些竞争对手等。这个时候,AMiner就变成了一个可以面向公众、面向科研界以及面向企业和政府的服务性产品。

智源:所以本质上来说,Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么?

唐杰:最开始的时候,是我写的程序,就在我们笔记本上跑。当时就是给定一个人名名单,名单是哪来呢?我最开始是从DBLP上把人名全抽出来,大概有200多万人名。有了名单之后,就去谷歌上搜索,谷歌会返回很多与这个人相关的页面;然后我做了一个分类器,去判断哪个页面是他的主页,分类器能做到90%多的精度,这也是我们发表的那篇文章中一个核心技术点;自动找到主页网址后,我编写一个程序把主页打开,用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列,进行统计学习。针对这些数据,我们也标注了一个包含几千个训练样本的数据,从而建立一个模型。最开始就完全是用这种方式自动抽取。

后来我们发现一个问题,有学者反馈说,你显示我的信息还是讲师,但我现在已经是教授了,这种信息变迁怎么办?于是我们后来也允许用户自己修改,变成自动抽取+用户修改相结合的模式。

再后来,问题又来了,因为有人会恶意修改信息,例如把韩家炜改成孙怡舟的学生(编者注:实际相反)。于是我们就做出一个程序,能够自动判断哪些是恶意修改,哪些是正确的,以及哪些信息是已经过时的。比如一个人的职位信息显示为讲师,10多年都没有变化,那这个信息很有可能就是过时的,程序就会自动去网上查找,核查对不对;当然程序不会去自动修改,而是会报警给我们。基本的原理大概就是这样。

 

智源:据我们了解,你在最初的时候研究方向应该不是数据挖掘,所以当时是基于什么样的考虑来做AMiner的?

 

唐杰:我博士的研究方向最开始是语义Web。主要做的就两件事,一个是本体集成,你可以想象成图匹配;另一个是语义标注,即把文档中文本的信息抽出来,变成一个语义化的结构。博三的时候,我去微软做了实习,当时碰到李航老师,他说有两个方向可以选择,一个是搜索,就是learning to ranking;一个是抽取,information extraction。当时我去的时候是九月份,李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始,2月份就投了KDD,而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西,另外我也发现数据挖掘这个圈子的人都比较年轻,非常开放,这也坚定了我去做数据挖掘的想法。

当时我也快毕业了,就在想怎么再用数据挖掘做出一个新东西。当时我想了三个课题。一个是做个二手火车票系统,一个是做二手商品系统,第三个就是学者数据系统。后来想了想,我们对二手商品不大懂,二手火车票也玩不溜。于是就做了我们最懂的。当时,我们也没有想这么大,就想做一个网站。后来放进去的研究越来越多,越滚越大,后来就做了AMiner这样一科技情报系统。

 

智源:这非常有意思,所以也是基于偶然中的必然开始了这个研究。你有了这个想法之后,是怎么一步步把这个研究开展下去的?

 

唐杰:这个还真的花了一番功夫。毕业的第一年,我就给自己定了一个目标,除了在审论文外,今年不发文章。所以那年我基本上没有写论文,全部精力都在做这个系统。

当时人也少,只有本科刚毕业的张静、我读研二的师弟洪铭材,就我们三个人,做了一年,基本上就上线了。

当时我们一没钱、二没资源。我们就在实验室弄了台普通的台式机(不是服务器),把系统装在台式机上,另外很多程序也都是在我自己的笔记本上跑,当时清华网络比较快,我们就不停地抓数据,一天能抓一万上下的数据,200万的数据我们跑了好几百天。就这样慢慢把第一批数据给抓下来了。

我们没有美工做网站设计,所以第一个版本的界面完全是我自己画的。

做出一个能运行的系统后,我们在06年拿到一个国际会议ASWC进行demo展示。当时数据少,很多人都没有在里面,但只要一搜索,立马能抓取出来,当时大家感觉还是很炫酷的。后来我们把它写成文章,发表在SIGKDD 2008上了。

 

智源:AMiner系统从2008年开发至今,整个的过程中有哪些重大的变化吗?

 

唐杰:我觉得有几个。

首先,最早一个版本,其实是我用Perl写的,但Perl中有一个技术问题我一直没搞定;后来我让洪铭材帮我解决,结果他搞了几个晚上,也没搞定,一怒之下,他把整个系统用Java全部重写一遍,这是我们第一个在线运行的稳定的版本,这是很重要的一件事情。

第二个重要的事就是我们那篇文章。其实那篇文章,最早我们是投的WWW会议,评分意见是三个accept,一个weak accept,但结果却被拒了。然后我们就投了KDD。我们还在KDD上做了演示,还是比较成功的。我们的系统也是从那个时候开始引起国际学术界关注的。

随后还有一个重要的改版,就是我们找了一个清华的学生兼职做美工,帮我们把整个系统的界面重新设计了一遍,这样有了一个相对比较好看的版本。这是很重要的一件事情,因为它带来了一个效应,很多学生开始对这个事情感兴趣。当时我还没法带硕士生、博士生,只能带本科生。我就会在里面找一些小的topics让他们做,例如做图搜索或者去全网抓取课程等,AMiner里面的每一个小点都变成了一个研究,而且都很难,做完之后他们可以去发文章,而这个功能就集成到系统当中。于是当时很多本科生都来跟我做,08~10年这几年我们系前几名的本科生基本上都在跟着我做研究、发paper。这样一下子就把系统的功能做得非常丰富。

但这也带来一个麻烦,大家写的代码风格都不一样。一开始我和张静管不过来,所以到后来就晕了。2011年左右,我们就找了全职工程师高博,他帮忙把代码全部维护起来,这是非常重要的阶段。也是从那个时候开始,我慢慢就松一些了,我在系统编码上花费的精力就少了;之前上面的很多代码都是我写的。一直到14、15年左右基本上都是高博一个人在维护代码,当然中间也有一些其他的工程师短时间来过。

最后一个阶段,我们人越来越多了,系统也变得越来越大,最初系统是在实验室的一个服务器上运行就够了,但后来不行了,我们慢慢就把系统迁到云上;再加上当时有很多部门,例如工程院、科技部,找我们合作,对外的服务也就越来越多。这时候一个人就不够了,一开始我们在清华里招了大概10多个人的团队;后来团队成长得就更快了。在学校里维持这么大一个团队,很痛苦,于是我们就把它产业化了,系里和学校也都很支持。后来就到了现在。

 

智源:在设计和开发的过程中,你们有遇到什么困难?

 

唐杰:我觉得我们一直在遇到困难,说实话。

一开始,我刚留校,一点启动经费都没有,是完全没有。然后我的导师王克宏就给了我2万块钱的经费,他说这是你博士论文获得了“校优秀博士论文”,给了2万块钱奖金。我拿到这钱,就想2万块钱能干嘛呢,算了,请同学们吃饭吧,于是就每天中午请大家作报告,顺便吃个盒饭。当时最大的困难就是什么都没有,没有机器,没有计算资源,也没有人。直到2009年以后,我们才慢慢有了资源可以调用。

在这之后,最大的困难就是试错,当时我们设计了很多东西,但不知道用户喜欢什么。于是当时就是,有一个功能我们就上线,如果没有用户访问,我们慢慢就把这个功能给下线了。所以我们的试错成本非常高。不过一个好处是,当时我们还是以研究为主,当有一个问题来了,我们会在上面用一些算法做研究,发现效果大大提升,就可以发paper。这样的话,至少从研究上,大家还是认可的;如果系统上用的人多,我们就把它留下了,少了我们就把它换掉。

再往后,就是规模化之后,我们面临一个最大的挑战就是,还能不能坚持下去。当时我们自己心里是害怕的,因为团队大了之后,人员的开销、服务器的开销都特别大。当时我们很多开销都是用科研经费,甚至是我自己掏钱在养着,所以当时特别害怕,不知道该怎么办。后来也得到了许多人的帮忙,例如微软,他们当时在做微软学术搜索,他们看到后就和我们合作,说“你需要什么资源,我们都可以给你”,后来微软在云服务上给我们提供了好几年的资助。

最近,我们要把它真正变成一个产品,让它发挥更大范围的意义,这是我们面临的一个很重要的挑战。

有些事情,你原来会觉得它比较简单,但真正把它做大的时候,就会发现困难和挑战非常的大。

 

智源:Google Scholar也是做学术搜索,与AMiner有很大的相似之处。那么AMiner系统和Google Scholar之间有什么区别呢?

唐杰:Google Scholar从2004年开始做的,他们做的非常快。我还专门去谷歌总部访问了他们。他们说,最开始他们只有两个人;即使到现在也就十几个人,其中只有一半的人在做技术。

他们的一个优势是,他们只需要把搜索的整个基础架构做一个转换,就变成了学术搜索,所以非常快。一开始,他们主要做论文搜索。而AMiner与他们不同的是,我们更多的是偏研究色彩,就是把信息自动抓过来之后,通过算法来研究。

当然后来Google Scholar也加入了学者信息,不过他们并不是去抓取信息,而是让人自己建profile,如果我不写,那就没有;如果我写我是做机器学习的,那我就会出现在机器学习的排行中。我们在学者信息的自动获取上做了许多算法。我觉得这是我们最大的区别。

从功能上来说,我们现在做了很多面向企业和政府的工作。这也是一个很大的差别。

 

智源:从学术上来说的话,AMiner的学术意义是什么?

 

唐杰:我觉得是这样——我们现在发表了很多论文,研究病毒、基因、天体等,到现在全球已经有好几亿的论文了;但论文发表背后的规律是什么呢?我们至今还没有搞明白,这里面涉及到计算学、社会学、心理学等。美国很多年前启动一个很有名的项目,叫做Science of Science,很多相关学科的学者整合进来,就是要搞明白论文发表的本身的规律。AMiner从学术学科意义上与此相关,这是最核心的东西。我们希望在这个过程中,能够挖掘出学科发展背后的机理。

 

智源:现在AMiner已经注册成为公司。你们的盈利模式是什么?

 

唐杰:其实现在公司的成员主要还是原来实验室的一些员工或学生,我们一直有一个团队在做相关研究,继续发表相关论文,在核心技术上做一些事情。

AMiner本身的盈利模式,可以分成几大块。首先,To C方向,我们是完全免费的,任何人都可以去搜索论文、查找资料。另外两个最主要的应用,一个是面向政府,一个是面向企业。

这方面主要有两个脉络,一个是高端人才的发现和推荐,另一个是技术趋势、脉络的梳理和分析。我们最早的一个盈利点是专家推荐,比如说项目评审,找谁来评?他就需要一个最合适人选的推荐;另外在高端人才引进方面,哪个方向,引进谁?这也同样需要作出推荐。现在“十四五”规划,不仅仅是国家层面,甚至各级政府、各高校院所都希望能够把握未来的技术脉络,看清未来趋势。

最近我们又开了一条新的线,就是做知识图谱。知识图谱,是我的老本行,原来也一直在做,但更多的是在实验室做科学的知识图谱,当时也没有去想变现的问题。在这个过程中,我们做了很多工具。最近有许多企业找到我们,说想利用这套技术做他们领域的知识图谱,例如水利的知识图谱、电力的知识图谱、电商的知识图谱,我们最近和美团合作做了食品的知识图谱,还有我们马上将开启的石油的知识图谱等。这里知识图谱会面向各个领域,越做越大,随后我们希望能把所有这些知识图谱连接起来,构建一个非常大的常识知识图谱,这将助力未来的人工智能,在常识知识上取得突破,等待人工智能的再一次爆发。

 

智源:从2006年到现在,AMiner经过不断的迭代,现在已经做成一个大的平台,基本成熟了。未来的话,你希望这个品牌会变成什么样子?或者说在你心目中,它的最终形态应该是什么?

唐杰:我特别希望AMiner在未来有三个东西能输出出来。

第一个,把它做成一个真正特别实用的工具,能够让很多业内人士能方便地使用。这方面,我们还要不断地完善,把它做的更实。

第二个,输出一些工具性的东西,最后变成一些面向企业和政府的应用子系统,这些系统可以做一些深度的挖掘。举个极端的例子,现在中美对抗这么严重,芯片技术成为美国对中国卡脖子的一个问题,那么我们有没有别的技术路线可以走呢?芯片研发有哪几条脉络,哪些脉络是可以解决当下卡脖子问题的?我们希望能够用这条系统,给出一些政策的建议。所以在这方面,我们想做的更实、更深,做既有深度,又有应用的东西。

第三个,输出一些更加通用的工具,包括刚才我说的构建一整套的工具集。另外我们会在上面再做一些深度的推理。未来我们想做一个知识图谱构建的知识计算引擎,里面包括知识图谱构建、认知推理等相关的一些技术。

 

智源:就个人研究而言,随后你的研究还会不会继续和AMiner进行绑定呢?

 

唐杰:当然会。我最近把我们的研究重点转到了图数据的表示学习,包括图神经网络等。从前年开始,我们提出了一个新的概念,叫“认知图谱”。认知图谱里面,我定义三个核心要素:第一个是常识知识图谱,所以和AMiner是相关的;第二个是认知推理,这也是我们在AMiner上特别想做的;第三个是逻辑生成,就是生成带有逻辑性的文本。

 

智源:回顾你近20年研究生涯,以及AMiner近15年的开发历程,你觉得贯穿整个过程中的精神是什么?

 

唐杰:我觉得就两点很重要。

第一,一定要专注,做一个事情一定要特别专注。我觉得我去做一件事情,就特别喜欢把这件事做得特别solid,特别深。我当时读博士的时候,李航老师给我很大的影响,当然也跟我的导师王克宏老师,以及李涓子老师有很大关系。不要太去在乎别人怎么看、怎么说你,最关键的是你得很专注的把这个事情做好。 

第二,我觉得也是清华精神,就是说每做一件事情,总要去想怎么能做到世界第一;或者说,这个事情我们怎么能做到别人做不到的境界。这个对我影响很大,每一件事情,我在做之前,就使劲地、反复地琢磨,我怎么才能让它真正变得伟大或者说真正能帮助到大家。今年我们毕业典礼上,陈文光老师代表我们发言,他说,我们清华的学生应该做这样的事情——如果我们做不到,就没有其他人能够做到。

我觉得这两点,是我在整个研究中不停反思,也是这20年对我影响最大的。


点击阅读原文,进入智源社区参与讨论,更可直接向唐杰教授提问!

关于我们

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,简称BAAI)成立于2018年11月,是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立的新型研发机构。

//智源研究院简介

//

学术思想 | 基础理论 | 顶尖人才 | 企业创新 | 发展政策


你可能感兴趣的:(数据挖掘,大数据,编程语言,人工智能,java)