论文题目:知识图谱技术综述
论文作者:徐增林,盛泳潘,贺丽荣,王雅芳
论文关键字:知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理
论文来源:电子科技大学学报 第45卷 第4期
摘要部分介绍了万维网、语义网的发展背景,点出了当今万维网上的内容来源复杂,组织松散这一痛点,知识图谱将推动web3.0时代的发展,从更深的层析揭示万物的整体性与关联性,知识图谱在智能搜索中起到重要作用,它将颠覆人们的传统概念,让搜索不再等于关键字匹配,此外,知识图谱还将应用于智能推荐、智能问答等大规模应用场景。
第一部分 知识图谱的定义与架构
介绍了三元组作为知识图谱通用的表达方式:
即G=(E,R,S),其中E={e1,e2,...,e|E|}是知识库中的实体集合,共包含|E|种不同实体;R={r,r,...,r }12 |E|是知识库中的关系集合,共包含 | R | 种不同关系;S = E * R *E 代表知识库中的三元组集合。
知识图谱也可分为通用知识图谱和行业知识图谱。通用知识图谱属于开放知识图谱,ta de ying yon
知识图谱的逻辑结构
知识图谱在逻辑上可分为模式层与数据层两个层次。数据层主要是由一系列的事实组成,而知识将以(实体1,关系, 实体2)、(实体、属性,属性值)这样的三元组为单位进行存储。模式层构建在数据层之上,主要是通过本体库 来规范数据层的一系列事实表达。
知识图谱的体系架构
知识图谱主要有自顶向下(top-down)自底向 上(bottom-up)两种构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。自底向上指的是从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
举个例子来说明下这两种模式的区别,自顶向下是先将本体及关系定义好,然后向下找具体相对应的实体,是一个由概念到类到个体的实现(譬如人物->医生->王大富)。自底向上先找到实体,再向上一步步扩大,是从个体到类再到概念的概括(王大富->医生->人物)。这里先忽略其他的属性和关系。
第二部分 介绍大规模知识库
开放链接知识库:Freebase、Wikidata、DBpedia、YAGO;
垂直行业知识库:MusicBrainz、IMDB、ConceptNet。
第三部分:知识图谱的关键技术
大规模知识库的构建与应用需要多种智能信息 处理技术的支持。通过知识抽取技术,可以从一些 公开的半结构化、非结构化的数据中提取出实体、 关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义, 形成高质量的知识库。知识推理则是在已有的知识 库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识 库的构建、推理、融合以及应用均具有重要的意义。
知识抽取
主要包括实体抽取、关系抽取、属性抽取。
实体抽取
实体抽取的方法分为3种:基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
基于规则的方法通常需要为目标实体编写模板,然后在原始语料中进行匹配;基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练,然后再利用训练好的模型去识别实体;面向开放域的抽取将是面向海量的Web语料。
关系抽取
1) 开放式实体关系抽取
2) 基于联合推理的实体关系抽取
属性抽取
属性抽取可以转换成关系抽取,以为实体的属性可以看成是实体与属性值之间的一种名称性关系。
知识表示
以深度学习为代表 的表示学习技术取得了重要的进展,可以将实体的 语义信息表示为稠密低维实值向量,进而在低维空 间中高效计算实体、关系及其之间的复杂语义关联, 对知识库的构建、推理、融合以及应用均具有重要的意义。
主要介绍了知识表示的应用场景以及代表模型。
知识融合
由于知识图谱中的知识来源广泛,存在知识质 量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融 合。使来自不同 知识源的知识在同一框架规范下进行异构数据整 合、消歧、加工、推理验证、更新等步,达到 数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
实体对齐
知识库实体对齐的主要流程将包括:
1) 将待对齐数据进行分区索引,以降低计算的复杂度;
2) 利用相似度函数或相似性算法查找匹配实例;
3) 使用实体对齐算法进行实例融合;
4) 将步骤2)与步骤3)的结果结合起来,形成最终的对齐结果。
对齐算法可分为成对实体对齐与集体实体对齐两大类,而集体实体对齐又可分为局部集体实体对齐与全局集体实体对齐。
知识加工
通过实体对齐,可以得到一系列的基本事实表达或初步的本体雏形,然而事实并不等于知识,它 只是知识的基本单位。要形成高质量的知识,还需 要经过知识加工的过程,从层次上形成一个大规模 的知识体系,统一对知识进行管理。知识加工主要包括体构建与质量评估两方面的内容。
知识更新
人类的认知能力、知识储备以及业务需求都会随时间而不断递增。因此,知识图谱的内容也需要 与时俱进,不论是通用知识图谱,还是行业知识图谱,它们都需要不断地迭代更新,扩展现有的知识。
根据知识图谱的逻辑结构,其更新主要包括模式层的更新与数据层的更新。
知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。
第四部分 知识图谱的典型应用
智能搜索
基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个阶段:
1) 查询式语义理解。知识图谱对查 询式的语义分析主要包括:
1 对查询请求文本进行 分词、词性标注以及纠错;
2 描述归一化,使其与 知识库中的相关知识进行匹配;
3 语境分析。 在不同的语境下,用户查询式中的对象会有所差别, 因此知识图谱需要结合用户当时的情感,将用户此时需要的答案及时反馈给用户;
4 查询扩展。明确 了用户的查询意图以及相关概念后,需要加入当前 语境下的相关概念进行扩展。
2) 知识检索。经过查 询式分析后的标准查询语句进入知识库检索引擎, 引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体。通过对知识库的深层挖掘与提炼后,引擎将给出具有重要性排序的完整知识体系。
深度问答
问答系统是信息检索系统的一种高级形式,能 够以准确简洁的自然语言为用户提供问题的解答。 之所以说问答是一种高级形式的检索,是因为在问 答系统中同样有查询式理解与知识检索这两个重要 的过程,并且与智能搜索中相应过程中的相关细节 是完全一致的。多数问答系统更倾向于将给定的问 题分解为多个小的问题,然后逐一去知识库中抽取 匹配的答案,并自动检测其在时间与空间上的吻合 度等,最后将答案进行合并,以直观的方式展现给用户。
社交网络
知识图谱会帮助用户在庞大的社交网络中 找到与自己最具相关性的人、照片、地点和兴趣等。
垂直行业应用:
金融行业
通过知识图谱,一方面有利于组织相关的知识碎片,通过深入的语义分析与推理,可对信息内容的一致性充分验证,从而识别或提前发现欺诈行 为;另一方面,知识图谱本身就是一种基于图结构的关系网络,基于这种图结构能够帮助人们更有效地分析复杂税务关系中存在的潜在风险。在精准 营销方面,知识图谱可通过链接的多个数据源,形 成对用户或用户群体的完整知识体系描述,从而更 好地去认识、理解、分析用户或用户群体的行为。
电商行业
电商网站的主要目的之一就是通过对商品的文 字描述、图片展示、相关信息罗列等可视化的知识展现,为消费者提供最满意的购物服务与体验。通 过知识图谱,可以提升电商平台的技术性、易用性、 交互性等影响用户体验的因素医疗行业
知识图谱面临的挑战
知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。一些传统的知识元素(实体、关系、属性)抽取技术与方法,它们在限定领域、主题的数据集上获得了较好的效果,但由于制约条件较多,方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。目前,基于大规模开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。
文中还详细介绍了知识表示、知识融合等面临的挑战。