35 岁以下科技创新 35 人之一,这位博士解开美团 AI 的冰山一角!

受访者 | 王仲远

出品 | CSDN(ID:CSDNnews)

「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。

本文为 「AI 技术生态论」系列访谈的第十七期,解剖美团大脑和美团BERT技术,解开美团AI的「冰山一角」

百万人学 AI 你也有份!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!

提起美团,你首先会想到的是什么?是那个带着醒目黄色的美团App,还是每日穿行在大街小巷、为我们送上外卖美食及新鲜水果的的快递小哥?

实际上,美团不仅有这么接地气的一面,也有特别「高大上」的一面,比如立足于AI技术的美团大脑和美团BERT

CSDN(ID:CSDNnews)专访美团AI平台搜索与NLP部的技术负责人王仲远博士,为大家揭晓美团在人工智能领域的「冰山一角」。

美团大脑打造大规模餐饮娱乐知识图谱平台

 

王仲远表示,美团搜索、大众点评搜索以及NLP中心都是放在一起的。这几个重要的团队之所以要放在一起,是因为在搜索中,NLP是一个非常关键且核心的技术。

在过去两年多的时间里,随着美团组织架构的不断升级,美团NLP中心也开始和搜索部门并为一体。我们都知道,业界有非常多的AI Lab和AI平台,但大家都面临一个普遍的困境,即AI落地不达预期。而美团创造性地把AI团队和业务平台团队直接放到一起,这就能使技术在第一时间进行验证并快速进行落地。

截止目前,美团及大众点评的平台上已有累计超过40亿的用户评价。在以往,这些数据只能安静地躺在数据仓库中「沉睡」,现在王仲远带领团队通过美团的算力和算法,真正让AI技术的研究有效地进行了落地。

具体来说,美团除了外卖以外,还涉及到店餐饮、酒店、景点门票和电影票务等综合性生活服务。近期,如果你在美团App中搜索「口罩」,就能看到附近药店,距离你很近的快递小哥也能像送餐一样将口罩快速送达到你的手中。

众所周知,在移动互联网之前的PC时代,人们有任何的需求几乎都会在搜索引擎中去搜索。而在移动互联网时代,搜索引擎实际上已经被大大弱化了,其原因就是各种垂直App的数据在底层逻辑上并没有实现互通。而美团凭借自身丰富的业务场景,有望打破这种「数据」孤立,并借此成为本地生活服务领域的一个超级App。

王仲远给我们举了一个很简单的例子,当用户在美团搜索「水饺」时,他的需求其实是有很多种可能的:他可能是想叫一份水饺的外卖,也可能是想去店里吃堂食,还有可能是想买附近超市里的冷冻水饺,亦或是想查查水饺的做法,或在美团上买水饺的食材。这种多样的搜索需求,是否都能在一个App实现呢?是的,美团可以满足这些需求。

王仲远表示,现在美团搜索正在进行一项比较重大的改版,预计在2020年二季度会和大家见面。未来的美团搜索,将会成为一个本地生活服务领域的超级搜索引擎。届时,用户可以在美团App、大众点评App上搜索任何关键词。

传统上,大家会不自觉地在这两个App上“小心翼翼”地挑选较短的搜索关键词,比如「火锅」、「烤串」、「麻辣烫」。但很快,用户可以随意表达他们的搜索需求。例如可以搜索「北京三里屯适合朋友聚餐的西餐厅」,或者「疫情期间最适合遛娃的景点」。这样的话,用户的体验会得到非常明显的提升。这背后是美团的NLP能力以及美团对于不同业务数据的高效整合能力在全力支撑。

2018 年 5 月,王仲远开始领导团队构建美团大规模餐饮娱乐知识图谱的平台——美团大脑。这个「大脑」充分挖掘、关联各个场景数据,使用 AI 算法让机器「阅读」用户针对商户的公开评论,理解用户在菜品、价格、服务、环境等方面的喜好,构建人、店、商品、场景之间的知识关联,从而形成一个「知识大脑」。目前,美团大脑目前包含了 33 类概念、30 亿实体、1000 亿三元组,这个知识关联数量级已经达到了世界级的规模。

       

美团BERT训练本地生活服务模型

 

2018年10月,Google对外正式发布BERT模型,这也是自然语言处理领域近年最具突破性的进展之一。

比尔·盖茨曾说过:「自然语言处理是人工智能皇冠上的明珠。」想更好地理解这句话,那么就得先来梳理下AI发展的脉络。王仲远归纳说,AI基本可以分为感知阶段、认知阶段和决策阶段。基于当前AI技术演进趋势,他重点介绍了对于AI感知和AI认知的看法。

关于AI感知,人和动物都拥有视觉和听觉,这种和大自然的交互,对应到AI技术便是视觉识别和语音识别。关于AI认知,据联合国调查,世界语言十分复杂,专家估计大约有5000到7000种。而语言也是人类才有的一种交流工具。这也是NLP的难度,比视觉识别和语音识别更难的原因,所有的语言都是人类创造的,而每一种语言的创造方式都不一样。这就导致NLP面临一个巨大的困境,即同一套技术,在中文上有效,在英文上未必有效。比如,分词就是中文独有的,英文根本不需要分词,因为它本身就是以单词的形式存在。并且即便同为中国人,对于分词也会有不同的意见和理解。

也正因此,NLP分出很多研究分支。此外,近些年随着深度学习的爆发式增长,行业研究者也希望能够挖掘出人类常用语言中的共同逻辑,这样就能让NLP实现跨语言处理。

2018年11月,在Google提出BERT模型一个月后,美团于同年11月,成立秘密团队——美团BERT。该团队成立以来,一直在不断研究和攻克美团在生活服务领域的技术难题。2019年,美团BERT取得长足的进展。该团队使用几百块GPU和独有数据,训练出一个本地生活服务的模型。带给用户的直接感受是,在美团和大众点评中搜索一个词语,系统的识别性变得越来越高。

           

MT-BERT整体技术框架

2020年,微软研究院发起学术评测Citation Intent Recognition,评测要求参赛者根据论文中对某项科研工作的描述,从论文库中找出与该描述最匹配的Top3论文,美团搜索与NLP部与国内两所高校组队,提出了一种基于BERT和LightGBM的多模融合检索排序解决方案,一举拿下WSDM Cup 2020 Task 1榜单第一名。

此外,美团知识图谱组在微软MARCO比赛中,亦是排名榜首。自2018年比赛发布以来,知识图谱组团队所研发的深度阅读理解TABLE模型在比赛指标 MRR@10上首次突破0.4,而该模型正是基于BERT的Listwise 排序模型,当时微软官方Twitter还专门发推祝贺美团。 

这对于王仲远以及其团队来说,都是一种莫大的鼓舞。此外,王仲远也曾在国际相关的学术会议上发表过40多篇论文。尽管工作非常忙,他还是通过各种途径学习,比如国际顶级会议上的学术论文,他一定会花时间仔细去阅读。此外,美团技术团队内部也经常有一些前沿技术分享会他也会不时去参加,通过各种途径增加新知识。

王仲远认为,人工智能的发展既快又慢。「快」是因为知识更新非常快,他说自己就曾看到很多面试者因为知识没有跟上时代而惨遭淘汰。「慢」是因为从1940年人工智能首次被提出以来,至今经过三起三落。2006年深度学习诞生,2012年人工智能进入爆发阶段,但是至今八年的时间,仍有大量问题还没有解决。

近些年,各大互联网厂商都在推出自己的人工智能小助手。这些小助手用来帮大家听听音乐、查查天气以及定下闹钟都还可以,但是如果想对它有更大期望,还有很长的一段路要走,很多时候,我们会发现「人工智能」和「人工智障」有时只是一步之遥。这也说明,在人工智能领域,我们还是有很多技术亟待突破。这里要特别提一下,王仲远博士之所以能对人工智能有这样深刻的积累和解读,也是得益于他多年对AI技术的专注以及积累。

 

闽地有才子,AI展才华

 

王仲远出生于福建省仙游县,成长在福建省永安市,得益于父亲严厉的管理,再加上强大的自驱力,从小学习就非常优秀,经常拿到年级第一名。

但是王仲远的性格,却带着一种「宁静致远」的温和,这点可能是受到性格慈和的母亲的影响。「严父慈母」的搭配,即让他的学习得到很好的启蒙。高考后,他顺利考入中国人民大学。在硕士期间,王仲远说自己有幸在孟小峰教授领导的WAMDM(网络与移动数据管理)实验室做项目,其中一个项目还获得了SIGMOD07 Undergraduate Scholarship奖项,当年全球仅有7位获奖成员。巧合的是,同样获得奖项的一位成员,还是王仲远日后在Facebook的同事。            

硕士毕业时,王仲远冒险地婉拒百度、腾讯和 IBM 等众多知名公司研究机构的邀请,选择坚持等待微软亚洲研究院的Offer。王仲远说自己很幸运,微软亚洲研究院具备很多先天优势,在刚刚工作时就可以接触到很多世界级的学者,了解各领域前沿研究已经做到什么程度,无需摸着石头过河。

王仲远在微软亚洲研究院6年多,从校招生一直做到主管研究员,负责了微软研究院知识图谱项目和对话机器人项目。他一直专注于自然语言处理、知识图谱及其在文本理解方面的研究,取得了不少成绩,在国际顶级学术会议如 VLDB、ICDE、IJCAI、CIKM 等发表论文 40 余篇,并获得 ICDE 2015 最佳论文奖。 

后来,王仲远在前同事的推荐下,远程参加了Facebook的面试,为了这次面试,他元旦假期整整准备了三天的时间。幸运的是他还非常顺利地拿到了工作签证,这也让他得以从国内到硅谷工作,去看到更大的一片天空。

到硅谷后,他感受到和微软研究院完全不同的画风,Facebook推行「Move Fast」文化,那里甚至没有测试人员,产品上线极快、基本是一周一次。在 Facebook 工作期间,王仲远所负责的一个项目是做实体链接,就是要把查询(Query)和知识图谱进行打通,这也是 NLP 领域一个非常重要的方向。短短半年的时间,效果就提升了80%左右,成为 Facebook内部最重要同时也是世界上最先进的产品级实体链接服务。现在Facebook 的搜索、推荐、广告、智能助理等许多系统中,也在使用他此前负责的这些技术。

几年以后,王仲远感觉中美两国的人工智能,已经来到同一个起跑线上,他带着技术报国的想法回到中国,并选择加入美团。他认为,AI技术想真正能够落地,需要算力,需要数据,需要算法模型,更需要丰富的应用场景。美团的应用场景丰富程度,远超很多互联网行业的同行。

2019 年1月21日,《麻省理工科技评论》发布了 2018 年「35 岁以下科技创新 35 人」(35 Innovators Under 35)中国榜单,王仲远获评为「远见者」。这就是王仲远的「AI人生」,现在已经描摹上浓重的色彩,未来必将更加明艳如春。

「AI 技术生态论」系列精选阅读:

  • 知识图谱够火,但底层技术环节还差点火候 | AI 技术生态论

  • 循环智能杨植麟:“人机耦合”将是对话语义应用的新趋势!

  • 一站式杀手级AI开发平台来袭!告别切换零散建模工具

今日福利

遇见陆奇

同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。

门票限量大放送!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!快来动动手指,免费获取入会资格吧!

点击阅读原文,直达大会官网。

你可能感兴趣的:(35 岁以下科技创新 35 人之一,这位博士解开美团 AI 的冰山一角!)