北大张铭教授:基于知识图谱的机器学习

AI TIME欢迎每一位AI爱好者的加入!

前言:

尽管人工智能依靠机器学习和深度学习取得了快速进展,但严重依赖于人类的监督以及大量的标注数据,成本高昂,且缺乏可解释性。图灵奖获得者、知识工程鼻祖费根鲍姆曾强调过知识中蕴含的巨大力量,单单依靠统计模式、而缺乏符号化知识结构的人工智能,离强人工智能仍具有较大差距。如何利用丰富的背景知识实现机器认知?如何打开AI的黑箱、提高智能系统的可解释性,从而促进智能决策的落地?知识图谱和机器学习的结合或许会是上述问题的答案。

6月21日北京智源大会“AI科技女性”专题论坛上,北京大学计算机系教授、AI 2000上榜学者张铭介绍了自己在基于知识图谱的机器学习研究中的成果和心得。从文本挖掘的经典模型、到基于知识图谱的拥有常识的文本表示及模型、再到可解释的推荐系统,相信张铭教授的报告会让大家对这些问题有更深入的思考并且收获满满。

★ 讲者简介 ★

北大张铭教授:基于知识图谱的机器学习_第1张图片

张 铭,北京大学计算机科学技术系教授,博士生导师,ACM Education Council唯一的中国委员兼任中国ACM教育专委会主席,ACM/IEEE CC2020计算机学科规范执委。自1984年考入北京大学,分别获得学士、硕士和博士学位。研究方向为文本挖掘和机器学习。目前主持国家科技部科技创新2030——“新一代人工智能”重点研发项目课题、国家自然科学基金面上项目等。合作发表科研学术论文200多篇,谷歌学术被引8700余次,H因子36,获得机器学习顶级会议ICML 2014最佳论文奖、网络信息处理顶级会议WWW 2016最佳论文提名。合作发表的网络嵌入模型LINE是2015-2019五年中WWW被引数最高的论文(目前被引超过2300余次)。入选“全球2000位最具影响力AI学者”,主要贡献为信息检索与推荐领域。主编多部教材,其中2部教材为国家“十一五”规划教材,《数据结构与算法》获北京市精品教材奖并得到国家“十二五”规划教材支持。主讲的《数据结构与算法》,入选为国家级和北京市级精品课程、国家级精品资源共享课程、国家精品在线课程。

北大张铭教授:基于知识图谱的机器学习_第2张图片

一、文本挖掘经典任务:文本分类

文本分类首先需要人工标注文档,然后对这些做好标签的文本进行训练,用来预测新文本的类别。标注工作非常耗时,而且一般需要专家进行。为表达这些文本信息,最常用的一种简化模型就是词袋模型(bag-of-words model):将文本视为若干词语的集合,忽略文法及词序,将词频作为训练分类器的特征。

北大张铭教授:基于知识图谱的机器学习_第3张图片

然而,文本信息是一种非常经典的蕴含大量知识的信息形式。因此,如果仅使用词袋模型,文本分类的质量不会很好。比如下面这段文本中,“game”表示体育还是游戏比赛,要从上下文语境、相关的知识来看。

北大张铭教授:基于知识图谱的机器学习_第4张图片

二、文本挖掘算法的问题 

像前面的文本分类例子中提到的,机器学习算法已经广泛应用于文本挖掘,然而标记工作费用高昂,通常需要雇用领域专家。后来通过众包解决标注问题,但质量较低、花费也不小。因此,机器学习界一直致力于减少有监督的机器学习算法中的标记工作,例如半监督学习提出只使用部分标记和大量未标记的数据来进行学习,达到完全监督学习的效果,迁移学习使用来自其他相关领域的标记数据来辅助目标领域的学习任务。

北大张铭教授:基于知识图谱的机器学习_第5张图片

然而,很多情况下,无论是半监督学习还是迁移学习都无济于事。例如大数据时代的文本信息涉及多个不同领域,比如医学领域出版物分类,因此需要一种更通用的方法来进一步降低不同领域学习任务的标记成本。

与此同时,无数的互联网用户为维基百科贡献了知识,使得它成为一个质量较高的通用知识框架。这些通用知识包含丰富的语义信息且具有一定的精确度和层次性。这些通用的知识图谱不仅包含大量通用知识,也包含多样化的专业领域,再加入专业语料库的大量实体和语义关联的训练,可建立专业领域的知识图谱。

北大张铭教授:基于知识图谱的机器学习_第6张图片

三、基于知识图谱构造文本的异构信息网络表示及算法

知识图谱(knowledge graph)是多个三元组(e1、r、e2)组成的语义网络,主要用于描述现实世界中的实体、概念及事件间的客观关系。实体(entity)或概念(concept)是知识图谱的结点(node),它们之间的语义关系是实体结点的边。因此知识图谱可以进一步丰富文本信息,为文本提供更多背景知识,并在此基础上做一些文本挖掘的任务。

注:(e1、r、e2)中e1和e2代表一条关系的头结点和尾结点,r代表关系。

北大张铭教授:基于知识图谱的机器学习_第7张图片

通过知识图谱链接丰富后的文本信息可以表示为一种含有多种实体、关系和类型的异构信息网络。信息网络是知识表示的结构化文本方式,网络中包含一系列结点以及结点和结点之间的边。异构信息网络(Heterogeneous Information Network,HIN)通过分析网络中多种类型实体及其链接关系,能够准确地区分信息网络中路径的不同语义。由此,可以将文本分类问题描述为一个HIN划分问题,并通过在HIN中引入丰富的结构信息作为约束条件,形成一种新的聚类算法。

如图的两段文本,就词袋模型而言并不能很好地划分类别。但如果把这些实体经过语义分析,定位到知识图谱的框架,能够发现奥巴马和布什之间的链接“美国总统”,因此可以归为政治类。可以看出实体、链接和类型中包含的丰富信息,异构信息网络中的特定化知识,能够帮助我们更好地完成文本分类及其他机器学习的任务。

北大张铭教授:基于知识图谱的机器学习_第8张图片

四、基于知识图谱的机器学习和文本挖掘

张铭教授团队提出了一种基于通用知识约束的文本分类方法,其中的约束来自异构信息网络中的多个类型和子类型。首先使用语义分析方法得到文本的实体及关系短语,通过将文本中的实体及关系短语作为结点,与知识图谱里相应的概念结点进行连接,形成结合领域知识的文本异构信息网络表示。

原来很多文本挖掘是以词袋模型来处理,不能很好地表示关系。现在把文档架构成图模型,很多机器学习的任务转变为图上的任务,除了词向量的cosine夹角相似度,现在可以计算子图的相似度、并结合其他算法。

例如,张铭教授团队提出了一种新的基于异构信息网络的无结构数据的文档相似性度量KnowSim,使用多类型实体所组成的关系元路径作为关键信息。元路径是指一条通过一系列关系连接对象类型的特定路径。例如,A−O−A这条元路径表示作者之间通过组织(即同事)之间的关系连接。

北大张铭教授:基于知识图谱的机器学习_第9张图片

KnowSim包含两部分:(1)语义重叠作为分子,表示连接两个文本的元路径数量。(2)语义广度作为分母,表示连接文本到文本自己的总元路径的数量。文档之间的重要的元路径越多,就越相似。KnowSim考虑了元路径的立体信息,比原来文本扁平特征更好。由于考虑了语义信息、文本之间语义相似度的信息,文档间相似度度量比普通的SVM和词的嵌入效果更佳。

北大张铭教授:基于知识图谱的机器学习_第10张图片

五、可解释的推荐系统

知识图谱与机器学习结合,能够充分利用知识图谱提供的常识信息和显性语义信息,通过统计学习把隐含语义表达出来,形成可解释性的机器学习,易于被人接受和理解。

北大张铭教授:基于知识图谱的机器学习_第11张图片

一个经典的实例是张铭教授团队最近完成的北京市科委项目,基于知识图谱的可解释的推荐系统。通过引入知识图谱知识,构造一个包含用户、商品交互关系的语义丰富的异构信息网络,并在此基础上进行有效可解释的表征,实现可解释的机器学习算法,具体应用到推荐系统里面,使得个性化推荐更加精确和有迹可循。

北大张铭教授:基于知识图谱的机器学习_第12张图片

原有的推荐算法是用户和物品之间的匹配问题,现在把用户商品交互构造为图,通过将图上路径的选择建模为一个强化学习的过程,使得推荐路径比较清楚、具有可解释性,而且准确率较高。

北大张铭教授:基于知识图谱的机器学习_第13张图片

具体地,将用户到物品的路径生成问题描述为一个异构信息网络上的马尔可夫决策过程,其中目标用户作为推荐代理的初始状态,当前结点在图上的行走被定义为动作,通过不断在相邻结点中选择下一动作,直到达到预定义的最大路径长度完成推荐路径选择。在训练过程中,由于无法判断路径选择过程中中间状态的优劣,代理不会收到即时的奖励,最终奖励取决于代理是否成功走到用户感兴趣的物品结点。

北大张铭教授:基于知识图谱的机器学习_第14张图片

图中展示了推荐效果,可以看出推荐的电影与目标用户之前看过的电影是语义关联的,虽然都是儿童主题但推荐具有不同角度令人信服的解释。

北大张铭教授:基于知识图谱的机器学习_第15张图片

另一个实例是计算机领域知识图谱应用于中国大学MOOC资源推荐。通过强化学习,得到用户到学习资源的可解释推荐路径。

北大张铭教授:基于知识图谱的机器学习_第16张图片

展望

未来,张铭教授仍将致力于提出一种利用知识图谱扩充文本信息的通用框架,通过构建相关领域知识图谱,进行更有效的蕴含知识的文本挖掘研究。

北大张铭教授:基于知识图谱的机器学习_第17张图片

[1] Chenguang Wang, Yizhou Sun, YangleiSong, Jiawei Han, Yangqiu Song, Lidan Wang, and Ming Zhang: RelSim: RelSim:Relation Similarity Search in Schema-Rich Heterogeneous InformationNetworks. Proc. 2016 SIAM Int. Conf. on Data Mining (SDM’16).

[2] Chenguang Wang, Yangqiu Song, HaoranLi, Ming Zhang, and Jiawei Han: Text Classification with HeterogeneousInformation Network Kernels. Proc. 2016 AAAI Conf. on ArtificialIntelligence (AAAI’16).

[3] Chenguang Wang, Yangqiu Song, Haoran Li,Ming Zhang, and Jiawei Han: KnowSim: A Document Similarity Measure onStructured Heterogeneous Information Networks. Proc. of 2014 IEEE Int.Conf. on Data Mining (ICDM’15).

[4] Chenguang Wang, Yangqiu Song, AhmedEl-Kishky, Dan Roth, Ming Zhang, and Jiawei Han: Incorporating WorldKnowledge to Document Clustering via Heterogeneous Information Networks.Proc. 2015 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’15).

[5] Weiping Song, Zhiping Xiao, Yifan Wang,Laurent Charlin, Ming Zhang and Jian Tang,Session-basedSocial Recommendation via Dynamic Graph Attention Networks. WSDM 2019:555-563.

[6] Weiping Song, ChenceShi, Zhiping Xiao, Zhijian Duan, Yewen Xu, MingZhang, Jian Tang: AutoInt: Automatic Feature Interaction Learning viaSelf-Attentive Neural Networks. CIKM 2019: 1161-1170.

[7] Weiping Song, Zhijian Duan, ZiqingYang, Hao Zhu, Ming Zhang, Jian Tang:Explainable KnowledgeGraph-based Recommendation via Deep Reinforcement Learning. CoRR abs/1906.09506 (2019)

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

你可能感兴趣的:(算法,人工智能,大数据,编程语言,机器学习)