【BDTC 2017讲师专访】张伟博士:阿里巴巴百亿级别的三元组知识图谱掌舵者

12 月 7 - 9 日,中国大数据技术大会(Big Data Technology Conference 2017,BDTC 2017)将在北京新云南皇冠假日酒店隆重举行。超过 120 位国内外技术专家将为现场千名以上的大数据行业精英、技术专家及意见领袖带来 100 多场技术演讲。

日前,我们采访了知识图谱论坛的演讲嘉宾阿里业务平台商品知识图谱负责人张伟,他将在会上分享《人工智能下的商品知识图谱》,将阐述应用在知识图谱中的前沿NERL和推理技术,重点介绍商品知识图谱在阿里巴巴前端导购、平台治理和智能问答上应用。

【以下为采访正文】

【BDTC 2017讲师专访】张伟博士:阿里巴巴百亿级别的三元组知识图谱掌舵者_第1张图片

阿里业务平台商品知识图谱负责人、高级专家张伟

CSDN:请向大家介绍一下自己你和目前所从事的工作,以及关注哪些技术领域?

张博士:现在主要从事阿里商品知识图谱的构建与应用的工作。首先, 阿里商品知识图谱承载着商品标准化这一基础性,根源性的工作。通过知识表示来规范对商品数据的描述。基于此,我们才能知道哪些商品是同样一件东西, 我们才能确切地知道一个品牌是否被授权,品牌下的产品卖到了哪些市场,才能真正统计出品牌商单品的销量等信息。才能真正的运用大数据指导供应链端,使传统制造业也共享大数据时代带来的智能,帮助制造业升级。

其次,阿里知识图谱以商品、 标准产品、 标准品牌、 标准条码、标准分类为核心,综合应用实体识别、实体链指和语义分析技术,整合关联例如舆情、百科、国家行业标准等多域数据,建设百亿级别的三元组,从而形成巨大的知识网。基于这个巨大的知识网络我们来提升消费者购物体验,同时降低消费者判断的成本。

现在关注的技术领域主要与知识图谱相关,例如商品大数据、推理引擎、知识挖掘、信息提取、知识表示等。

CSDN:你是如何选择知识图谱的,有什么特别的故事可分享?

张博士:这个问题,要从09年我的博士课题选择说起,当时我的导师给了我两个可能的方向一个是Knowledge Base Population(KBP),一个是neural network (NN),当然几年后,这两个方向都大放异彩, KBP因为Google的原因,以知识图谱的名字被大家所熟知。NN发展成深度学习为大家所熟知。 当时这两个方向还没有像现在这样受人关注。

我深入进去对这两个方向前沿工作做了调研,立刻对KBP产生了很多想法,其中有个想法也得到了导师的确认。当年就这样,在KBP方向上开始了科研,想法第二年发表在了自然语言处理国际会议Coling上。09年美国国家标准化与技术研究院(NIST)举办了第一届KBP比赛,这个比赛现在还在延续并且得到了更多的关注。我有幸在09年KBP这个领域早期参与进去,并且系统也在KBP比赛上获得了最好的成绩。就这样进入了知识图谱领域。

CSDN:可否根据您多年的经验,可否请你谈下对「知识图谱」的理解?

张博士:知识图谱将信息表达成更接近人类认知世界的形式,提供了帮助互联网组织、管理和理解海量信息的能力,已经成为推动人工智能发展的核心驱动力之一, 是人工智能的基石。 在这种信息组织形式下,客观世界的实体例如人物、游戏、歌曲、商品、生产商等被描述成知识图谱的节点,知识图谱的边来刻画实体之间的关系。从而客观世界被表示成结构化、语义化的知识图谱。知识图谱的工程能力使得知识建设更标准、更开放。文本挖掘技术使得非结构化信息变得结构化。知识表示与推理使得数据能够驱动人工智能。

CSDN:知识图谱的价值可能最为真切的反馈是在应用,你认为有知识图谱应有着哪些应用?

张博士:知识图谱主要的应用有三个方向,一是搜索推荐,使得人们获取信息的路径更短,帮助人们发现未知的知识。二是智能问答,在这种全新的人机交互形式下,对信息要求有更高的整合度、覆盖度和语义化,知识图谱扮演者“大脑”的角色。三是数据分析与决策模型构建,特别是垂直知识图谱在这方面的应用非常广泛。例如法律、医疗、农业图谱中,知识图谱提供了数据的全局视图和更语义化的表达,给从业者带来了大数据驱动的决策能力。

CSDN:目前,在阿里知识图谱的最大应用场景是什么?

张博士: 商品知识图谱作为商品‘大脑’的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西, 比如说买家输入“我需要一件漂亮的真丝丝巾”, “商品大脑”会通过语法词法分析来提取语义要点 “一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。此外,“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。最后,智能的“商品大脑” 还能通过实时学习构建出场景。 比如输入“海边玩买什么”,结果中就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。

除了更方便的购买,这个“商品大脑”的另一大作用就是防御假货的入侵。阿里商品管控从过去的平台事后“巡检”模式升级为发布端实时逐一检查防御模式。在海量的商品发布量的挑战下,最大可能地借助商品知识图谱,依靠大数据、人工智把坏人、问题商品拦截在阿里生态之外。在知识图谱对商品实时检查时,面临着问题商家实时的对弈、变异和恶意攻击等诸多挑战,知识图谱仍然保持着每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、经营范围等多个场景全面在与问题卖家正面交锋,实时对弈。

CSDN:未来阿里还有哪些的规划和愿景?

张博士:阿里商品知识图谱希望让消费者的购物链路最大可能的缩短,让发现更智能,让判断更简单

CSDN:网上有言论说「知识图谱是通向强人工智能之路的石油」,对此你怎么看?以及你认为对于知识图谱和人工智能的关系是怎样的?

张博士:这句话充分说明了知识图谱对于人工智能的重要性。人工智能是未来,而知识图谱是打开未来的钥匙。随着时间发展,人工智能在越来越多的领域会超过人类,而且深度学习让这个趋势在加速。但这些领域例如下棋,捉猫等相对孤立,这些模型很难像人一样去思考。知识图谱应该是这把钥匙。

CSDN:行业中也有大量的人对知识图谱以及人工智能相关的技术感兴趣,如果从知识图谱入手学习,有什么好的建议吗?

张博士:知识图谱相关技术涉及的面比较广,可以从文本挖掘知识表示与推理其中一个领域去探索,当然这其中有涉及很多机器学习的基础知识。最好的学习方法还是实践,在项目实践中去学习。

CSDN:如果从事知识图谱这个领域的工作,需要哪些技能呢?

张博士:我们知识图谱方向招聘一般具备文本挖掘、知识表示与推理、图挖掘一个领域的技能就好。


相关阅读:

  • 大数据、人工智能如何融合?来自微软、阿里、滴滴、科大讯飞等的 120 多位专家要用 3 天为你解答!
  • BDTC 2017 | 知识图谱技术背后的应用与实践
  • BDTC 2017 | 大数据在金融、交通、医疗、工业领域落地实践与应用
  • BDTC 2017 | 去年挤不进去的推荐系统论坛又来了!
  • BDTC 2017讲师专访 | 彭冬:微博商业基础大数据平台(D+)的架构演进

你可能感兴趣的:(人物专访)