近年来,国内外在新一代知识图谱的关键技术和理论方面取得了一定进展,以知识图谱为载体 的典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等.然而,在大数据环境和新 基建背景下,数据对象和交互方式的日益丰富和变化, 对新一代知识图谱在基础理论、体系架构、关键技 术等方面提出新的需求,带来新的挑战.将综述国内外新一代知识图谱的关键技术研究发展现状,重点 从非结构化多模态数据组织与理解、大规模动态图谱表示学习与预训练模型、神经符号结合的知识更新 与推理3方面对国内外研究的最新进展进行归纳、比较和分析.最后,就未来的技术挑战和研究方向进 行展望。
https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20210829
伴随着过去10年浪潮,人工智能发展方兴未 艾,正处于由感知智能到认知智能转变的关键时期. 知识图谱作为大数据时代的知识工程集大成者,是 符号主义与连接主义相结合的产物,是实现认知智 能的基石.知识图谱以其强大的语义表达能力、存储 能力和推理能力,为互联网时代的数据知识化组织 和智能应用提供了有效的解决方案.因此,新一代知 识图谱的关键技术研究逐渐受到来自工业界和学术 界的广泛关注.
知识 图 谱 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是为了改善搜索,提升用户搜索体验. 知识图谱至今没有统一的定义,在维基百科中的定 义为:“Google知识图谱(Googleknowledgegraph) 是 Google的一个知识库,其使用语义检索从多种来 源收集信息,以提高 Google搜索的质量.”从当前知 识图谱的发展看来,此定义显然是不够全面的,当前 知识图谱的应用俨然远超其最初始的搜索场景,已 经广泛应用于搜索、问答、推荐等场景中.比较普遍 被接受的一种定义为“知识图谱本质上是一种语义 网络(semanticnetwork),网络中的结点代表实体 (entity)或者概念(concept),边代表实体∕概念之间 的各种语义关系”.一种更为宽泛的定义为“使用图 (graph)作为媒介来组织与利用不同类型的大规模 数据,并表达明确的通用或领域知识”.从覆盖的领 域来看,知识图谱可以分为通用知识图谱和行业知 识图谱;前者面向开放领域,而后者则面向特定的行 业.随着知识图谱在各行业的应用落地,知识图谱技 术的相关研究得到了大量研究者的关注.以知识图 谱为基础的典型应用也逐渐走进各个行业领域,包 括智能问答、推荐系统、个人助手、战场指挥系统等.
传统的知识图谱研究领域主要围绕传统的数据 存储、知识获取、本体融合、逻辑推理以及知识图谱 应用等方面.文献[2]详细综合和分析了知识图谱存 储管理最新的研究进展.文献[3]从知识表示学习、 知识获取与知识补全、时态知识图谱和知识图谱应 用等方面进行了全面的综述.文献[4]则重点对面向 知识图谱的知识推理相关研究进行了综述.
然而,在大数据环境和新基建背景下,数据对象 和交互方式的日益丰富和变化,对新一代知识图谱 在基础理论和关键技术等方面提出新的需求,也带 来新的挑战.和已有的知识图谱研究综述相比,本文 将从众多最新的知识图谱研究方法中,对3方面的 新一代知识图谱关键技术和理论做分析:1)非结构化多模态数据组织与理解; 2)大规模动态图谱表示学习与预训练模型; 3)神经符号结合的知识更新与推理. 本文将综述国内外新一代知识图谱关键技术研 究发展现状,对国内外研究的最新进展进行归纳、比 较和分析,就未来的技术挑战和研究方向进行展望.
1. 非结构化多模态数据组织与理解
1.1 非结构化多模态数据组织
“模态”的定义较多,可以直观地理解为不同类 型的多媒体数据,也可以作为一个更加细粒度的概 念,区分模态的关键点可以理解为数据是否具有异 构性.例如,对于某个歌手,互联网上可以找到他的 照片和歌曲视频,同时也有相关的文本信息(百科、 新闻等)以及具体的歌曲音频.图片、视频、文本、语 音这4种数据,可以被理解为该对象的多模态数据.目前主要的非结构化多模态知识图谱如表1所示:
DBpedia [5]作为近10年来知识图谱研究领域的 核心数据集,其丰富的语义信息中也包含了大量的 非结 构 化 数 据,如 文 本 描 述 和 实 体 图 片.目 前 DBpedia包含了超过260万个实体,且每个实体具 有唯一的全局标识符.以此为基础,越来越多的数据 发布者 将 自 己 的 数 据 通 过 SameAs 关 系 链 接 到 DBpedia资源,使 DBpedia一定程度上成为多类型 数据组织的中心.目前,围绕 DBpedia的互联网数据 源网络提供了约47亿条信息,涵盖地理信息、人、基 因、药物、图书、科技出版社等多个领域.
Wikidata [6]中也存在大量的多模态数据资源, 它是维基媒体基金会(WikimediaFoundation)推出 的知识图谱,也是维基媒体数据组织和管理的核心 项目.Wikidata充分利用了知识图谱的图数据模型, 综合了 Wikivoyage,Wiktionary,Wikisource等各类 结构化和非结构化数据,其目标是通过创造维基百 科全球管理数据的新方法来克服多类数据的不一致 性,已经成为维基媒体最活跃的项目之一,越来越多 的网站都从 Wikidata获取内容以嵌入提供的页面 浏览服务. IMGPedia [7]是多模态知识图谱的早期尝试.相 较于 DBpedia和 Wikidata,其更关注在已有的知识 图谱中补充非结构化的图片信息.
IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒体 资源(主要是图片),然后基于多媒体内容生成特征 用于视觉相似性的计算,最后通过定义相似关系的 方式将图片内容信息引入到知识图谱中,此外其还 链接了 DBpedia和 DBpediaCommons来提供上下 文和元数据.IMGPedia的优势在于开创性地定义了 知识图谱中图像 内 容 的“描 述 符”,也 就 是 视 觉 实 体属性(诸如灰 度 等),同 时 根 据 这 些 描 述 符 去 计算图片相似度,方便人们进行相似图片的查找.但 IMGPedia中定义的“描述符”种类较少,且图片之 间的关系单一.
MMKG [8]项目旨在对不同知识图谱(Freebase, YAGO,DBpedia)的实体和图片资源进行对齐.其通 过对3个知识图谱(Freebase15k,YAGO15k,DB15k, 均为从原始的知识图谱中获得的知识图谱子集)进 行实体对齐,以及数值、图片资源与实体的绑定,构 建了一个包含3个知识图谱子集的多模态数据集 合.MMKG 包含的3个知识图谱既有诸多对齐的实 体,又有各自不同的拓扑结构.值得一提的是,MMKG 的目标并非是提供一个多模态知识图谱,而是定义 一个包含多模态信息的评估知识图谱实体对齐技术 的基准数据集.但是其本质上还是以传统的知识图 谱为主,规模很小同时也没有充分收集和挖掘互联 网上多种类型的多模态数据,在将图像分发给相关 文本实体时也未曾考虑图像的多样性.
KgBench [9]和 MMKG 类似,在 RDF 编码的知 识图谱上引入了一组新的实体分类基准多模态数据 集.对于多个知识图谱基准实体分类任务,提供至少 1000个实例的测试和验证集,有些实例超过10000 个,每个实例包含了多种模态的数据描述和特征.每 个任务都能够以知识图谱结构特征进行评估,或者 使用多模态信息来实验.所有数据集都以 CSV 格式 打包,并提供 RDF格式的源数据和源代码. 东南大学的 Wang等人[10]提出的多模态图谱 Richpedia,是目前国内在多模态知识图谱领域的代 表工作.其核心思路延续了知识图谱的基本数据模 型,在 RDF框架下对现有的知识图谱进行扩充(主 要是包含视觉信息的图片实体),使其变为多模态知 识图谱.相较之前的多模态知识图谱,该工作的最大 贡献在于收集与实体相关图片的同时,利用图片的 配文来识 别 图 片 中 所 包 含 的 其 他 实 体,进 而 在 跨 模态实体之间的语义关系发现方面取得了显著效果 提升.
西安交通大学的郑庆华等人[11G12]提出了知识森 林的概念,旨在针对智慧教育领域的多模态数据,实 现基于知识森林数据模型的组织与个性化导学.知 识森林的特点在于针对教育领域的垂域特点,用自 然语言处理、图像识别等人工智能技术突破了教育 领域给定课程科目的知识森林自动构建,研制了知 识森林 AR 交互系统,缓解学习过程中人机可视化 交互难题.知识森林的多模态类型不再局限于文本 和图像的范畴,增加了与视频数据交互的能力.
百度知识图谱近年来也逐渐向多模态知识图谱演变.基于海量互联网资源,百度构建了超大规模的 通用知识图谱,并随着文本、语音、视觉等智能技术 的不断深入,以及行业智能化诉求的提升,百度近年 来一直致力于知识图谱在复杂知识表示、多模态语 义理解、行业图谱构建和应用,其挖掘的多模态知识 在图文视频的基础上,加入了更多语音数据来丰富 多模态知识图谱的内容.
1.2 多模态数据理解
多模态数据理解旨在实现处理和理解不同模态 信息之间共同表达语义的能力.整体上,和知识图谱 相关的多模态数据的理解主要分为基于本体的多模 态语义理解和基于机器学习的多模态语义理解.基 于本体的多模态语义理解是比较早期的工作,均和 知识图谱相关,其主要活跃于深度学习的浪潮兴起 之前,代表性的工作为 LSCOM(largeGscaleconcept ontologyformultimedia)[13]和COMM(coreontology formultimedia)[14]. LSCOM [13]是 一 个 由 IBM、卡 内 基 梅 隆 大 学 (CarnegieMellonUniversity,CMU)和哥伦比亚大 学领导开发的多模态大规模概念本体协作编辑任 务.在这项工作中,CyC公司与很多学术研究和工业 团体均有参与.其整个过程包含了一系列学术研讨 会,来自多个领域的专家聚集在一起,创建了描述广 播新闻视频的1000个概念的分类.LSCOM 中对多 模态数据的实用性、覆盖率、可行性和可观察性制 定了 多 个 标 准.除 了 对 1000 个 概 念 进 行 分 类 外, LSCOM 还生成了一组用例和查询,以及广播新闻 视频的大型注释数据集. COMM [14]是由德国、荷兰以及葡萄牙的研究团 队联合推出的多模态本体,其诞生的主要动机在于 LSCOM 为多模态数据语义分析研究创建了一个统 一的框架,但并没有一个高质量的多模态本体正式 描述,也缺乏与已有的语义 Web技术兼容.针对此 问题,COMM 定义了一个基于 MPEGG7的多模态 本体,由多模态数据模式组成,满足了本体框架的基 本要求,并且在 OWLDL 中完全形式化.基于本体 的多模态语义理解要求高质量的本体编辑以及精细 粒度的数据描述,因此 COMM 和 LSCOM 并没有 很好地发展起来.
基于机器学习的多模态语义理解[15]是目前多 模态数据理解的主流方法,和知识图谱的联系主要 是利用多模态表示学习方法实现知识补全或应用到 下游任务中.多模态表示学习是指通过利用不同多 模态数据之间的互补性,剔除模态冗余性,从而将多 模态数据的语义表征为实值向量,该实值向量蕴含 了不同模态数据的共同语义和各自特有的特征,如 图1所示.代表性的工作如 Srivastava等人[16]通过 深度玻尔兹曼机实现图像和文本的联合空间生成, 在此基础上实现多模态数据的统一表示.
多 模 态 知 识 图 谱 表 示 学 习 的 代 表 性 工 作 是 MoussellyGSergieh等人[17]将视觉特征、文本特征和 知识图谱的结构特征共同学习成统一的知识嵌入, 在此 过 程 中 使 用 SimpleConcatenation,DeViSE,Imagined这3种不同的方法来集成多模态信息,最 终实现了知识图谱的多模态表示学习,生成了蕴含 多种模态特征的知识图谱实体和关系实值向量,相 较于传统的基于结构的知识图谱表示学习,其在链 接预测和实体分类任务上的效果均有提升.
GAIA [18]是最近提出的一个细粒度的多模态知 识抽取、理解和组织框架,旨在提取不同来源的异构 多媒体数据(包括多模态、多语言等),生成连续的结 构化知识,同时提供一个丰富的细粒度的多模态数 据描述本体.GAIA 整个系统主要有3个优势:1)大 量使用计算机视觉和自然语言处理的深度学习框架 和其他知识图谱算法作为其底层模块,通过结合不 同领域的技术实现了特别是对于图片资源的实体识 别和多模态实体链接,相较于之前的IMGPedia,这 样的处理保证了对图片内容细粒度识别的进一步深 入,而对于文本资源,也实现了实体识别和关系抽 取.2)相较于粗粒度的实体,细粒度可以保证内容查 询的灵活性和更强的易用性,例如对场景的理解和 事件预测,故可以更广泛地用于实际应用中.3)通过 将图片和文本实体进行实体链接、关系抽取等处理, 实现了多模态知识融合和知识推理,充分利用了多 模态的优势.GAIA 所提出的多模态知识图谱提取 框架是当前比较全面的一种范式,有着较好的借鉴 意义.
北京大学的 Peng等人[19]提出了跨媒体智能的 概念,该概念和多模态数据理解的思路类似,其借鉴 人脑跨越视觉、听觉、语言等不同感官信息认知外部 世界的特性,重点研究了跨媒体分析推理技术中的任 务和目标,包括细粒度图像分类、跨媒体检索、文本 生成图像、视频描述生成等.其代表性的工作为 PKU FGGXmedia [20],是第1个包含4种媒体类型(图像、 文本、视频和音频)的细粒度跨媒体检索公开数据集 和评测基准,并且在此基础上提出了能够同时学习 4种媒体统一表征的深度网络模型 FGCrossNet.
中国科学院自动化研究所的张莹莹等人[21]提 出了一个基于多模态知识感知注意力机制的问答模 型.该模型首先学习知识图谱中实体的多模态表示; 然后从多模态知识图谱中与问答对相关联的实体的 路径来推测出回答该问题时的逻辑,并刻画问答对 之间的交互关系.此外,该模型还提出了一种注意力 机制来判别连接问答对的不同路径之间的重要性.
清华大学的 Liu等人[22]最早在多模态知识图 谱表示学习方面开展了研究,代表性的工作是IKRL, 其将视觉特征和知识图谱的结构特征进行联合表示 学习,进而通过不同模态信息之间的约束生成质量 更高的知识图谱嵌入. 华南理工大学的 Cai等人[23]提出一种结合图 像信息和文本信息的神经网络来对 Twitter等短文 本中的实体进行识别和消歧.其核心思想是将视觉 和文本信息通过表示学习生成的嵌入连接起来,并 且为细粒 度 的 信 息 交 互 引 入 了 共 同 关 注 机 制.在 Twitter数据集上的实验结果表明,其方法优于单 纯依赖文本信息的方法. 中国科学技术大学的 Xu等人[24]在多模态信息 理解与关联方面探索了如何有效联合映射与建模跨 模态信息,进而从视频概括性描述深入至实体间语 义关系,实现视觉元素多层次、多维度语义理解与关 联,以形成对视频等多模态内容更为全面的解析,有 效解读其中的语义信息,进而为支撑面向多模态内 容的智能应用服务奠定重要基础.其代表性的工作 为 MMEA [24],针对多模态知识图谱的实体对齐问 题,设计了一种多视图知识嵌入方法,实现多模态知 识图谱实体对齐效果的提升.
国防科技大学的 Zhao等人[25]在多模态知识图 谱的实体对齐任务上进一步进行了探索,其主要将 多模态实体对齐任务从欧氏空间拓展到了双曲空间 进行建模表示,最终利用双曲空间内的图卷积网络 和视觉特征抽取模型 DENSENET 实现了多个数据 集上的实体对齐效果.
2 大规模动态图谱表示学习与预训练模型
2.1 大规模动态表示学习
知识图谱的本质是一种语义网络,亦是一种特 殊的图.动态知识图谱同样是一种特殊的动态图.但 是因为知识图谱的特殊性,动态知识图谱可以被分 为2类:一类是时序动态知识图谱,其中蕴含着时间 特征,知识图谱的结构、实体和关系都会随着时间的 推移发生改变;另一类是非时序动态知识图谱,这类 知识图谱中没有显式的时间特征,但是知识图谱会 发生更新,有新的实体和关系添加到原有的知识图 谱中.一般情况来说,已存在知识图谱中的实体和关 系不会发生改变.
1)时序的动态知识图谱表示学习
时序知识图谱是一种特殊的知识图谱,其相比 传统的静态知识图谱多了时间信息,知识图谱中的知识不是静态不变的,反而是因为时间的变化,知识 三元组发生改变.如表2中所总结,我们根据其对时 间信息处理方式的差异将所有算法模型分为三大 类:具有时间约束的历时性时序知识图谱表示模型、 基于时间序列编码的时序知识图谱表示模型和基于 路径推理的时序知识图谱表示模型.其中在各通用 数据上表现最佳的模型为2021年Zhu等人[26]提出 的 CyGNet,其模型结构如图2所示.
2) 非时序的动态知识图谱表示学习
对于非时序动态知识图谱,其在应用和更新过 程中,可以加入新的实体和关系,新实体与原有实体 构成的三元组只要在现实应用场景下为正确的,则可 将此三元组纳入到原有的知识图谱中.所以非时序动 态知识图谱的规模是可以随着现实情况不断增大的, 被认为是一种动态变化的知识图谱.针对非时序知识 图谱,其中最初的模型是在原有的 DKRL模型[34]上 进行简单的更改,直接应用于开放世界知识图谱上, 其效果相比其他静态的算法有所提高,成为了这个任务的一个基准结果,其模型基础框架如图3所示. DKRL的优势不仅在于提升了实体表示的区分能 力,而且更在于其对新实体的表示,当一个未在知识 图谱中出现的新实体出现时,DKRL 将根据新实体 的简短描述生成它的表示,用于知识图谱补全.
Shi等人[35]提出了一种以文本为中心的表示方 法 ConMask,其中头实体、关系和尾实体基于文本 的向量表示是通过注意力模型在名称和描述上得出 的,并且通过全卷积 神 经 网 络 (fullyconvolutional neuralnetwork)得到三元组的评分,最后通过评分 完成实体与关系的预测. Shah等人[36]提出了区别于 DKRL和 ConMask 这2种方法的新模型 OWE,其独立地训练知识图 谱和文本向量,然后通过缺失实体的描述文本向量 模糊代替实体的表示,在知识图谱中进行匹配,最终 得到实体与关系的预测结果.该模型可以调整和选 用不同的基础知识图谱表示模型得到不同的融合模 型,在不同环境任务中发挥更好的作用. Wang等人[37]提出了一种基于胶囊网络的新模 型 CapsGOWKG,其在融合知识图谱的结构信息和 描述信息后,采用胶囊网络提取三元组的特征,得到 动态非时序知识图谱三元组的表示.Gaur等人[38]提 出了一个框架 HUKA,它使用起源多项式通过编码 生成答案所涉及的边来跟踪知识图谱上查询结果的 推导. Das等人[39]证明了基于案例的推理(caseGbased reasoning,CBR)系统通过检索与给定问题相似的 “案例”来解决一个新问题是可以实现动态知识库 (KBs).其通过收集知识库中相似实体的推理路径 来预测实体的属性.概率模型估计路径在回答关于 给定实体的查询时有效的可能性. 在国内,最 初 的 模 型 是 在 Xie等 人[34]提 出 的 DKRL模型上进行简单的更改,直接应用于开放世 界知识图谱上,其效果相比其他静态的算法有所提 高,成为了这个任务的一个基准结果. 杜治娟等人[40]提出一种表示学习方法 TransNS. 其选取相关的邻居作为实体的属性来推断新实体, 并在学习阶段利用实体之间的语义亲和力选择负例 三元组来增强语义交互能力.Xie等人[41]提出了一种基于深度递归神经网络 DKGCGJSTD的动态知识图谱补全模型.该模型学习 实体名称及其部分文本描述的嵌入,将看不见的实 体连接到知识图谱.为了建立文本描述信息与拓扑 信息之间的相关性,DKGCGJSTD 采用深度记忆网 络和关联匹配机制,从实体文本描述中提取实体与 关系之间的相关语义特征信息.然后利用深度递归 神经网络对拓扑结构与文本描述之间的依赖关系进 行建模. Zhou等人[42]提出了一种聚合器,采用注意网 络来获取实体描述中单词的权重.这样既不打乱词 嵌入中的信息,又使聚合的单词嵌入更加高效. Niu等人[43]使用多重交互注意(MIA)机制来 模拟头部实体描述、头部实体名称、关系名称和候选 尾部实体描述之间的交互,以形成丰富的表示.此 外,还利用头部实体描述的额外文本特征来增强头 部实体的表示,并在候选尾部实体之间应用注意机 制来增强它们的表示.
2.2 知识图谱的预训练模型
知识广泛存在于文本、结构化及其他多种模态 的数据中.除了通过抽取技术将知识从原始数据中 萃取出来以支持搜索、问答、推理、分析等应用以外, 另外一种思路是利用数据中本身存在的基本信号对 隐藏的知识进行预训练.预训练的核心思想是“预训 练和微调”,例如预训练一般包含2个步骤:首先利 用大量的通用知识数据训练一个知识模型,获取文 本中包含的通用知识信息;然后在下游任务微调阶 段,针对不同下游任务,设计相应的目标函数,基于 相对较少的监督数据进行微调,便可得到不错的效 果.近2年对面向知识表示、面向自然语言、面向下 游任务和基于图结构的预训练模型这4类有所进 展,代表性模型如表3所示:
1) 面向知识图谱表示的预训练模型
在词向量表示中,预训练模型分为2个部分,分 别是预训练与微调,这样的模式可以使词向量表示 更适合于不同的应用环境.同样地,在面向知识表示 的预训练模型中,同样先采用预训练的向量表示,然 后再基于此进行进一步的深化挖掘.这类预训练模 型,旨在通过引入新的处理方法对预训练的知识表 示进行进一步的特征挖掘,以此可以得到原有表示 不具备的特征,如 ConvKB [44],CapsE [45]等.这类模 型不能最大化地提取三元组的特征,模型预训练效 果依赖于基础知识图谱表示学习模型的选择.
2) 面向自然语言问题的预训练模型
知识图谱在处理与自然语言相关的任务时,必 不可少地与语言模型相互联系.这一类预训练模型, 主要是将知识融合到一个词向量模型中形成一个既 包含知识又具备上下文信息的预训练词向量.近几年 的相关研究主要是将知识融合到BERT 中形成新的 预训练模型.典型的模型有:CMU 和微软联合提出的 JAKET [46]、清华大学和华为联合提出的 ERNIE [47]、 北京大学和腾讯联合提出的模型 KGBERT [48]、复旦 大学和亚马逊提出的 CoLAKE [49]、清华大学和 Mila 实验室提出的 KEPLER [50]等.这类模型利用实体信 息增强了预训练效果并减少了训练时间,但不适用 于缺少实体相关描述的预训练任务.
3) 面向下游任务的预训练模型
知识图谱预训练模型还可以通过不同的特殊下 游任务来帮助向预训练模型融入任务相关的知识. 主要方法是在对具体的下游任务进行微调时,可以 采用不同的适配器来针对性地加入特征,进而增强 其效果.代表性的工作有复旦大学和微软提出的 KG ADAPTER [51]和阿里巴巴实验室提出的“预训练+ 知识向量服务”的模式 PKGM [52],结构如图4所示. 这类模型需要尽可能大且全量的知识图谱数据集, 这样才能发挥模型预训练的优势,因此模型对于图 谱完成性差、稀疏度高的知识图谱预训练较差.
4) 基于图谱中图结构的预训练模型
知识图谱是一种特殊的信息图,可以通过适用 于图的方法 GNN 获取知识图谱的部分结构特征. 图神经网络(graphneuralnetworks,GNNs)已被 证明是建模图结构数据的强大工具,然而,训练 GNN 模型通常需要大量的特定任务的标记数据,而获取这些数据往往非常昂贵.利用自监督 GNN 模型对 未标记数据进行预训练是减少标记工作的一种有效 方法,预训练学习到的模型可用在只有少量标签图 谱数 据 的 下 游 任 务 中.代 表 性 的 工 作 有:GPTG GNN [53],GI [54],GraphCL [55],GCC [56]等.这 类 方 法 不依赖于图谱的节点与边信息,仅利用图结构进行 预训练,避免复杂的特征工程,但缺陷是耗时巨大.
3 神经符号结合的知识更新与推理
ACM 图灵奖获得者 YoshuaBengio在 NeuIPS 2019的特邀报告中明确提到,深度学习需要从系统1 到系统2转化.这里所说的系统1和系统2来源于 认知科学中的双通道理论,其中系统1可以理解为 神经系统,它表示直觉的、快速的、无意识的系统;系 统2可以理解为符号系统,它表示慢的、有逻辑的、 有序的、可推理的系统.Bengio所提的系统2关于深 度学习的想法与“神经+符号”的知识表示与推理目 标基本一致.神经系统优势在于能够轻松处理图像 识别、文本分类等一类机器学习擅长的问题,模型能 够允许数据噪音的存在,但缺点在于其端到端的过 程缺乏可解释性,并且在模型求解答案过程中难以 嵌入已有的人类知识.相反地,符号系统可以完美地 定义各类专家经验规则和知识,形成对结构化数据 的各类原子操作,在此基础上通过搜索和约束进行 求解,整个过程的解释性和可理解性也很强.但是, 符号系统的缺点在于难以处理很多拥有异常数据和 噪音的场景.然而,“神经+符号”到底如何有机结合, 实现起来并不容易.知识图谱从早期的知识库、专家 系统,到谷歌2012年正式提出知识图谱,其发展历 程也体现了神经系统和符号系统的各自发展缩影, 整体上可分为神经助力符号和符号助力神经两大类.
3.1 神经助力符号推理
神经助力符号推理方法的特点在于将神经的方 法应用在传统符号系统的问题求解,通常主要是解 决浅层的推理问题,其核心在于如何将神经系统学 到的“浅层知识表示”(计算结构和连续型数值表示 的知识)更新到已有的符号知识体系中(离散的、显 式的符号化知识),敏捷逻辑(swiftlogic)是牛津大学 Gottlob等 人[57]关于“神经+符号”的尝试,如图5所示,该系 统既能够执行复杂的推理任务(以 Datalog ± 语言为 理论基础),同时在可接受的计算复杂度下,利用神 经网络在大数据上实现高效和可扩展的推理.此外,敏捷逻辑还定义了与企业数据库、网络、机器学习和 分析软件包的接口,以实现与数据库和人工智能中 不断出现的新技术相结合.敏捷逻辑的特点是不局 限于模型层面的结合,更关注从知识图谱管理系统 框架层面来使用神经和符号多种技术.
正在上传…重新上传取消
3.2 符号助力神经计算
符号助力神经方法的特点在于将符号的方法应 用在神经网络的训练过程中.
3.3 神经符号结合的知识表示与推理
一个完美的“神经 + 符号”系统的特点和优势 为:1)能够轻松处理目前主流机器学习擅长的问题; 2)对于数据噪音有较强的鲁棒性;3)系统求解过程 和结果可以被人容易地进行理解、解释和评价;4)可 以很好地进行各类符号的操作;5)可以无缝地利用 各种背景知识.从以上标准来看,实现神经符号知识 表示的充分结合还有很长一段路要走.国外目前最 具代表性的研究为 Cohen等人[91]和 Lamb等人[92] 的研究工作. Cohen [91]作为人工智能领域的重要学者,近年 来发表了一系列的神经符号结合的研究工作,其中 典型工作 DrKIT 的整体框架如图6所示.DrKIT 使 用语料库作为虚拟的知识图谱,进而实现复杂多跳 问题求解.DrKIT 采用传统知识图谱上的搜索策略 进行文本数据的遍历,主要是遵循语料库中包含文 本提及实体之间的关系路径.在每个步骤中,DrKIT 使用稀疏矩阵 TF∕IDF 索引和最大内积搜索,并且 整个模块是可微的,所以整个系统可使用基于梯度 的方法从自然语言输入到输出答案进行训练.DrKIT 非常高效,每秒比现有的多跳问答系统快10~100 倍,同时保持了很高的精度.
4 研究进展比较
4.1 非结构化多模态数据组织与理解
在非结构化多模态数据组织方面,多模态知识 图谱目前已经成为国内外学者对于多种类型数据组 织的共识,国内外的学者均有新的研究成果.对于国 外研究团队而言,其核心思路依然是从维基百科中 抽取已有知识图谱的多模态数据资源,而国内研究 团队将范围扩展到了通过全域的数据资源来补充已 有知识图谱中的视觉和文本信息.可以看出,对于知 识图谱而言,开放域的非结构化数据资源丰富,但是 如何同已有结构化的图谱融合并建立不同模态数据 之间的语义关联是关键.此外,国内研究团队面向垂 直领域(智慧教育)提出了系统级的研究工作,这一 点要比国外的研究更具有落地思维,可以预见未来国 内在更多垂域会出现以多模态知识图谱为基础的系 统和应用.在多模态数据理解方面,受益于深度学习技术的持续发展,国内外在该领域都取得了最新的 研究成果.可以看出,国内研究人员已经可以从延续 他人工作转变为开辟新的研究领域,这一点说明国 内在该领域走在世界学术前沿.值得一提的是,国内 学者在知识图谱驱动的多模态数据理解方面同样具 有较强的应用落地思维,分别面向推荐系统等垂直 场景进行了探索尝试.
4.2 大规模动态知识图谱表示学习与预训练
在大规模动态表示学习方面,国内外均有新的 研究成果,在不同的方向有所突破.国外在序列模型 编码方法上有更多模型被提出,对 GCN,GNN 等类 型的编码器进行了改进,在动态表示方面取得了更 好的结果;而国内主要的工作集中在基于分解、基于 历时性编码和基于随机游走改进3个方面,虽然与 国外的方法思路不同,但是在动态表示方面也有亮 点和突出表现.知识图谱预训练是近两年的一个热 点方向,国内外很多研究机构都针对此方面有所研 究并做出了突破.国外在图谱表示的预训练方面有 一些新的工作,并在基于知识图谱图结构的预训练 方面有更多的进展.而国内,基于自然语言方面的知 识预训练有更多的新模型产生,诸如北京大学、清华 大学等学校,百度等企业均在这方面有新的研究成 果产生.尤其是面向基于大规模知识下游任务的预 训练模型,有了重大突破,对数以10亿计规模的知 识进行了预训练,并应用于阿里电商平台,为商品推 荐、语义搜索和智能问答等下游任务提供支持.
4.3 神经符号结合的知识表示与推理
在神经助力符号方面,国内外均有新的研究成 果.通过比较可以看出,国外研究团队在知识图谱表 示学习技术的初期走在该领域的前沿,提出了一系 列开创性的工作;国内的研究团队主要针对各类模 型和数据特点进行改进,在后期逐渐提出了创新性 更高和实用性更强的工作,尤其是知识图谱表示学 习技术在其他任务(如智能问答、近似搜索、推荐系 统、实体对齐、社交网络等)中有效地使用,国内研究 团队走在学术的前沿,可以看出国内学者更倾向于 应用层级的研究.除此之外,在逻辑推理等偏理论的 模型中如何引入神经网络,国内研究工作还不多.在 符号助力神经方面,国内外都走在学术的前沿.在神 经符号结合方面,谷歌公司依然走在世界的最前沿, 提出了一系列开创性工作,国内这方面的工作还偏 少.不过整个神经符号的有机结合还属于初期探索 领域,随着越多的研究者开始关注,未来我国研究团 队还有很大的提升空间.
总结
本文围绕支撑新一代知识图谱的关键技术研究 进展与趋势展开系统性论述,内容包括:非结构化多模态图谱组织与理解、大规模动态图谱表示学习与预 训练模型、神经符合结合的知识表示与推理.在此基 础上,给出了国内与国际的当前研究进展,并对国内 外研究进展进行比较.最后对这些关键技术的发展趋 势进行了展望.