近日,国际知识发现与数据挖掘协会KDD在官网(https://www.kdd.org/kdd2020)公布其2020年度的论文收录结果,笔者看到阿里共有18篇论文入选,这个入选论文数量刷新国内企业记录,成为近几年KDD会议论文入选数量最多的科技公司之一。
KDD(Knowledge Discovery and Data Mining)是机器学习领域的顶级国际学术会议,由ACM创办于1995 年,目前KDD在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一。KDD对论文接收非常严格,入选论文非常注重可重现性。与其它AI顶会允许rebuttal的方式不同,KDD自2019年开始使用双盲审稿制度,每年的接收率仅为15%左右,收录的论文代表了学术界和工业界的研究方向。由于严格的入选标准,KDD官方材料显示,今年入选论文仅有337篇。
而且尤其值得一提的是由KDD组织是对我国科技界相当友好的国际组织,由KDD举办的KDD CUP,也是目前是目前数据挖掘领域中规模最大、影响最广、水平最高的国际顶级赛事,有数据挖掘领域“世界杯”之称,而在这项赛事上阿里相关团队的成绩也相对不错,并两次当选赛事主办方。
此次阿里巴巴入选的18篇论文中,认知智能再次成为关键,有6篇论文为认知智能方向的研究成果,并全面涵盖了认知智能的三个层次,包括跨领域知识图谱(底料),图神经网络(推理工具),用户交互(图文、短视频理解)。
据笔者的最新观察,目前在疫情的影响下,比如我们银行这些非科技巨头企业正在全面触云,而BAT这样的科技巨头则在全力的将AI能力进行由感知到认知的升级,最近除了本次阿里称雄KDD之外,腾讯也凭借其在对话数据方面的超强积累,在自然语言处理的顶会ACL上取得了非常好的成绩,相信而这样的态势可能还将持续很长一段时间。
认知智能-科技巨头的必由之路
数据是人工智能的三要素之一,堪称我们这个数据时代的石油。阿里旗下淘宝、天猫等电商平台丰富的业务场景无疑是为其AI能力提供了强力的支撑,而如何利用这样绝佳的“数据训练场”, 使数据真正产生价值,无疑成了摆在各巨头前面的一道难题。
笔者在前文《达摩院十大科技趋势发布:2020非同小可》中曾经介绍过。人工智能正在从感知智能到认知智能演进,而关键突破口就是跨过深度学习去做研究。由于深度学习只能处理单一模态的数据,因此深度学习模型下的智能机器只能够照章办事,缺乏灵活性,认知智能就是要找到多模态信息之间的关系,因此这使得多模态成为完成由感知到认知这一跨越的必然途径。
比如今年KDD Cup的一道赛题就是“多模态商品推荐”, 其中多模态商品推荐指的是关联融合视频、图片、文本等多模态用户数据,并结合用户的购买习惯、浏览序列等多维信息进行建模学习,精准理解用户的检索需求,推荐并返回用户真正关心、感兴趣的产品图片或视频。我们目前的年轻人尤其是90后一代,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就是多模态的含义了。
知识图谱、图神经网络(推理工具)、用户交互-认知智能的三大支柱
下面笔者就认知智能的三大核心支柱:知识图谱、图神经网络(推理工具)、用户交互三个核心概念向各位读者做一下简要介绍。
知识图谱:知识图谱可以看做是主体以及其关系的知识库,是知识表示方式之一,知识图谱的构建可以为计算认知技术,提供了丰富的背景知识,使得机器语言认知成为可能,因此知识图谱也成为了行业智能化转型道路上的关键技术,也是认知智能的重要展示形式。
图神经网络:图神经网络(GNN)将深度神经网络从处理传统非结构化数据(如图像、语音和文本序列)推广到更高层次的结构化数据(如图结构)。大规模的图数据可以表达丰富和蕴含逻辑关系的人类常识和专家规则,图节点定义了可理解的符号化知识,不规则图拓扑结构表达了图节点之间的依赖、从属、逻辑规则等推理关系。可以说图神经网络是对机器学习进行智慧赋能最重要的落地路径。
用户交互:前段时间笔者经常熬夜加班,结果打开淘宝会发现总给我推荐防脱洗发水,当然目前已经推荐枸杞了。不过这其实也说明认知智能的终极发展就是让用户在使用过程中对于“人工智能”不断淡化,甚至无感化。现在用户使用人工智能时还会明显感受到它的存在,比如你打开电视还需要说“我要看**的电视剧”,还要对手机说“给**打电话”而真正实现认知智能之后,将会让你觉得你的这些交互行为变为多余,比如你回到家,人工智能系统会根据你的步态,推荐一个适合你当下身体状况的食谱,等你吃完饭下楼去超市的时候,你的手机会建议补充一些牛奶,因为你刚刚已经把家里最一一袋牛奶喝掉了。相信读到这里读者也就会明白,化有形于无形,就是用户交互的最终奥义。
认知智能代表论文解读
在通读本次KDD2020阿里的18篇论文入选论文之后,笔者认为《Disentangled Self-Supervision in Sequential Recommenders》是比较有代表性的一篇,在此文中阿里AI团队提出了一种让机器预测人类行为的训练思路,通过用户之前的行为序列来预测用户未来的行为,并融合了解纠缠表征和自监督对比学习,突破了目前主流推荐算法依赖于过往数据做预测而无法进行精准、长远推理的局限。
《Graph Contrastive Coding for Structural Graph Representation Pre-Training》、《Understanding Negative Sampling in Graph Representation Learning》两篇论文则是有关图表示学习领域中,中创新性比较强的。其中前者提出一种图对比编码(GCC)的方案,以捕获多个网络之间的通用网络拓扑特性,并利用对比学习使模型能够学习内在的和可传递的结构表示形式;而后一篇对负采样策略在图网络中的使用进行了一次非常有益的尝试,我们知道负例采样最早被用在词向量的表示中,而在图表示学习中还鲜有其它尝试,而此论文中从目标函数和方差两个角度系统地分析了负采样的作用,从理论上证明了负采样与正采样在确定优化目标和估计方差方面同样重要。
而《A Dual Heterogeneous Graph Attention Network to Improve Long-Tail Performance for Shop Search》则关注到了推荐系统中的长尾现象,我们知道在用户搜索的过程中,绝大多数被曝光的都是高频的查询词,而用户实际需要的低频查询词则鲜有机会,这就会导致所谓的长尾现象。在在本论文当中则提出了通过迁移商品搜索中的数据与知识,弥补用户搜索行为的稀疏性,消除用户查询词与目标间的文本语义鸿沟;另一方面通过用户查询历史,抽取构建大规模的异构图,提出对偶异构图层次注意力网络框架,同时利用同构与异构邻居去增强查询词和店铺的向量表示,最后融合多种用户特征以实现个性化的搜索结果。
当然KDD的论文水平之高有目共睹,不过以上论文也的确令人耳目一新,推荐大家可以到KDD的官网去阅读一下原文。
后记
从实现快速计算、记忆与存储的“计算智能”,到识别处理语音、图像、视频的“感知智能”,再到实现思考、理解、推理和解释的“认知智能”,人工智能发展的终极目标是赋予机器人类的智慧。近年来,语音识别、人脸识别等“感知智能”技术已相对成熟,甚至在许多领域已经达到或超出了人类的水平。但这些技术仅在工具、模型层面实现了突破,对诸如需要专家知识、逻辑推理或者领域迁移等需要去思考、规划、联想、创作的复杂任务时,表现不佳。不过随着大数据、云计算、深度学习等技术的蓬勃发展,探索在如何保持大数据智能优势的同时,赋予机器常识和因果逻辑推理能力,实现“认知智能”,成为当下人工智能研究的核心,新一代人工智能技术也正在从“感知智能”向“认知智能”迈进。而如何迎得从感知到认知的AI技术,将成为未来IT巨头之间的主要战场之一。
近期阿里在IT基础设施领域,突破级成果不断, AI芯片-含光910、新一代对话模型ESIM,OceanBase也再次以提升了11倍的成绩登顶TPC-C排行榜。期待阿里未来开源更多的IT基础设施,为整个行业的发展做出更大的贡献!