单单从字面上理解,知识图谱应该是一种更加结构化(主要是基于图)的知识库,将散乱的知识有效的组织起来,方便人们的查阅,而不是之前那样一堆文在摆在眼前,没有一目了然的赶脚,哈哈哈。所以,很容易想到,知识图谱的产生背景就是,第一方面互联网信息的暴增,以及信息的杂乱无章,第一个意义就是为了人们更加快速有效的检索某一信息。,第二方面,随着现在科学技术的进步与发展,很多先进技术都应运而生(比如深度学习),人们期望机器像人一样可以去理解海量的网络信息,期望可以更快、准确、智能的获取到自己需要的信息,为了满足这种需求,智能化的知识图谱应运而生,其研究意义还是在于方便人类!(有木有发现,几乎所有的研究意义都是这四个字呐)(在这里我只是用一种简单理解的方式来表达,当然还有更多的研究意义,只不过知识图谱刚刚开始火热起来的时候,就是应用在信息检索方面。为了容易理解以及方便记忆,记住这个就ok了)
一般情况下研究背景就体现了研究意义。以下是官网语言描述,非完美主义者可以跳过这些繁琐的文字表达,哈哈哈。
伴随着web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“web 1.0”时代,以数据互联为特征的“web 2.0”时代,正在迈向基于知识互联的崭新“Web 3.0”时代。
知识互联网的目标是构建一个人与机器都可以理解的万维网,使得人们的网络更加智能化。然而,由于万维网上的内容多源一直,组织结构松散,给大数据环境下的知识互联带来了极大的挑战。因此,人们需要根据大数据环境下的知识组织原则,从新的视角去探索既符合网络信息资源发展变化又能适应用户人之需求的知识互联方法,从更深层次上揭示人类认知的整体性关联性。知识图谱以其强大的语义处理能力与开放互联能力,使web 3.0提出的“知识之网”远景成为了可能。
进入21世纪,随着互联网的蓬勃发展以及知识的爆炸式增长,搜索引擎被广泛使用。传统的搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,这种网页检索效率并不意味这用户能够快速准确的获取信息和知识,对于搜索引擎返回的大量结果还需要进行人工排查和筛选。面对互联网上不断增加的海量信息,网页检索方式(仅包含网页和网页之间链接的传统文档)已经不能满足人们迅速获取所需信息和全面掌握信息资源的需求。为了满足这种需求,知识图谱技术应运而生。它们力求通过将知识进行更加有序、有机的组织起来,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖局和智能决策。从机构知识库到互联网搜索引擎,近年来不少学者和机构纷纷在知识图谱上深入研究,希望以这种更加清晰、动态的方式(注:知识图谱一定是动态的,不断更新的,不是静止的,不然,就是去了其真正的意义)展现各种概念之间的联系,实现知识的智能获取和管理。
20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。(注意:这里的知识图谱和本博文主要介绍的知识图谱不太一样,在此是指Mapping Knowledge Domain,而本博文主要介绍的知识图谱是指Knowledge Graph)1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱(Knowledge Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google 构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。虽然知识图谱(Knowledge Graph)的概念较新,但它并非是一个全新的研究领域,早在2006年,Berners Lee就提出了数据链接(linked data)的思想,呼吁推广和完善相关的技术标准如URI(Uniform resource identifier),RDF(resource discription framework),OWL(Web ontology language),为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。
在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。可作如下定义:
知识图谱 :是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体 关系 实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。
三元组是知识图谱的一种通用表示方式,即G∈(E,R,S)G \in (E,R, S)G∈(E,R,S),其中E={e1,e2,...,e∣E∣}是知识库中的实体集合,共包含| E |种不同实体; R={r1,r2,...,r∣R∣}是知识库中的关系集合,共包含| R |种不同关系;S⊆E×R×E代表知识库中的三元组集合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。
在此,知识图谱包含三层含义:
在此主要给出几个常见的知识图谱架构图,这几个图大同小异,通过看图可以一目了然的理解,免去了文字的繁琐介绍。
知识图谱架构主要部分:
- 知识抽取(包括实体抽取、关系抽取以及属性抽取等)
- 知识融合(包括实体消岐等)
- 知识加工(包括本体构架、知识推理等)
- 知识更新
具体的可以参加下图:
这一部分是本文的重点,前面都是需要基本了解的知识图谱基础知识,这一部分是核心也是主要的研究问题。其实知识图谱的关键技术主要是围绕着建立一个高质量的知识图谱所展开讨论的。在此主要是一个简单的总结,便于大家的理解与记忆。
实体链接技术也可以从整体层面分类如下:
人类所拥有信息和知识量都是时间的单调递增的函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,只是哭的更新包括概念层更新和数据层更新。知识图谱内容的更新有两种方式:数据驱动下的全面更新和增量更新。
知识表示
虽然三元组的知识表示形式受到了人们的广泛认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为代表的学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维的实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面起到重要的作用:语义相似度计算、链接预测(又被称为知识图谱补全)等代表模型如下所示:
距离模型
首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一纬度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已经存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷。
单层神经网络
针对距离模型的缺陷,提出了采用单层神经网络的非线性模型(single layer model,SLM)。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但是在计算开销上却大大增加。
双线性模型
双线性模型又叫隐变量模型(latent factor model,LFM)。双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性,模型不仅形式简单、易于计算,而且能够有效刻画实体间的协同性。
神经张量模型
其基本思想是,在不同维度下,将实体联系起来,表示实体间复杂的语义联系。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。
矩阵分解模型
通过矩阵分解的方式可以得到低维的向量表示,故不少研究者提出可以采用该方式进行知识表示学习,其中典型的代表是RESACL模型。
翻译模型
受到平移变现象的启发,提出了TransE模型,即将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。关系lrl_rlr可以看作是从头实体向量lhl_hlh到尾实体向量ltl_tlt的翻译。该模型的参数较少,计算的复杂度显著降低,同时,TransE模型在大规模稀疏数据库上也同样具有较好的性能与可扩展性。
复杂关系模型
知识库中的实体关系类型可分为:1-to-1、1-to-N、N-to-1、N-to-N 4种类型。代表性模型有:TransH模型、TransR模型、TransD模型、TransG模型、KG2E模型。
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。
知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。一些传统的知识元素(实体、关系、属性)抽取技术与方法,它们在限定领域、主题的数据集上获得了较好的效果,但由于制约条件较多,算法准确性和召回率低,方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。 目前,基于大规开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。主要问题包括实体抽取、关系抽取以及属性抽取。其中,多语种、开放领域的纯文本信息抽取问题是当前面临的重要挑战。
KnowItAll、TextRunner、WOE、ReVerb、R2A2、KPAKEN这些系统已为开放域环境下,实体关系抽取中的二元关系抽取、n元关系抽取发展开创了先河,具有广阔的研究前景。再者,对于隐含关系的抽取,目前主流的开放式信息抽取方法性能低下或尚无法实现。因此,以马尔可夫逻辑网、本体推理的联合推理方法将成为学术界的研究热点。 联合推理方法不仅能够推断文本语料所不能显示的深层隐含信息,还能够综合信息抽取各阶段的子任务,像杠杆一样在各方面之间寻求平衡,以趋向整体向上的理想效果,为大规模开放域下的知识抽取提供了一种新的思路。除上述外,跨语言的知识抽取方法也成为了当前的研究热点,对于我国的研究者而言,更应发挥自身在中文信息处理方面的天然优势,面对挑战与机遇,做出应有的贡献。
目前存在的表示方式仍是基于三元组形式完成的语义映射,在面对复杂的知识类型、多源融合的信息时,其表达能力仍然有限。因此有研究者提出,应针对不同的应用场景设计不同的知识表示方法。
已有的工作将知识库中的实体关系类型分为1-to-1、1-to-N、N-to-1、N-to-N这4种,这种划分方法无法直观地解释知识的本质类型特点,也无法更有针对性地表示复杂关系中的知识。 但发现分布式的知识表示方法来源于认知科学,具有灵活的可扩展能力。基于上述,对认知科学领域人类知识类型的探索将有助于知识类型的划分、表示以及处理,是未来知识表示研究的重要发展方向。
**对于多源信息融合中的知识表示研究尚处于起步阶段,涉及的信息来源也极为有限,已有的少数工作都是围绕文本与知识库的融合而展开的。**另外,已有文献将注意力转向面向关系表示的多源信息融合领域,并已在CNN上进行了一定的实现。在知识融合表示中,融合是最关键的前期步骤,如能有机的融合多源异质的实体、关系等信息,将有利于进一步提升知识表示模型的区分能力以及性能。基于实体的、关系的、Web文本的、多知识库的融合均具有较为广阔的研究前景。
知识融合对于知识图谱的构建、表示均具有重要的意义。实体对齐 是知识融合中的关键步骤,虽然相关研究已取得了丰硕的成果,但仍有广阔的发展空间,如下:
大规模的知识库不仅蕴含了海量的知识,其结构、数据特征也极其复杂,这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。目前,不少研究者正着力研究对齐算法的并行化或分布式版本,在兼顾算法准确率与召回率的同时,将进一步利用并行编程环境MPI,分布式计算框架Hadoop、Spark等平台,提升知识库对齐的整体效果。
人机结合的众包算法可以有效地提高知识融合的质量。众包算法的设计讲求数据量、知识库对齐质量以及人工标注三者的权衡。将众包平台与知识库对齐模型有机结合起来,并且能够有效判别人工标注的质量,这些均具有较为广阔的研究前景。
多语言的知识库越来越多,多语言知识库的互补能力将为知识图谱在多语言搜索、问答、翻译等领域的实际应用提供更多的可能。 文献已在这方面取得了一定的进展,但知识库对齐的质量不高,这方面仍有广阔的研究空间。
总之,主要的研究问题包括开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合等问题.当前受到学术界普遍关注的问题是如何在上下文信息受限(短文本、跨语境、跨领域等)条件下,准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体.
知识加工是最具特色的知识图谱技术,同时也是该领域最大的挑战之所在.主要的研究问题包括:本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用.目前,本体构建问题的研究焦点是聚类问题,对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系.知识推理的方法和应用研究是当前该领域最为困难,同时也是最为吸引人的问题,需要突破现有技术和思维方式的限制,知识推理技术的创新也将对知识图谱的应用产生深远影响.
在知识更新环节, 增量更新技术是未来的发展方向,然而现有的知识更新技术严重依赖人工干预.可以预见随着知识图谱的不断积累,依靠人工制定更新规则和逐条检视的旧模式将会逐步降低比重,自动化程度将不断提高,如何确保自动化更新的有效性,是该领域面临的又一重大挑战
目前,大规模知识图谱的应用场景和方式还比较有限,其在智能搜索、深度问答、社交网络以及其他行业中的使用也**只是处于初级阶段,**仍具有广阔的可扩展空间。人们在挖掘需求、探索知识图谱的应用场景时,应充分考虑知识图谱的以下优势:1) 对海量、异构、动态的半结构化、非结构化数据的有效组织与表达能力;2) 依托于强大知识库的深度知识推理能力;3) 与深度学习、类脑科学等领域相结合,逐步扩展的认知能力。 在对知识图谱技术有丰富积累的基础上,敏锐的感知人们的需求,可为大规模知识图谱的应用找到更宽广、更合适的应用之道。
最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题,这个问题将伴随知识图谱技术发展的始终,对该问题的解决将反过来影响前面提出的挑战和关键问题.当前的知识图谱主要采用图数据库进行存储,在受益于图数据库带来的查询效率的同时,也失去了关系型数据库的优点,如SQL语言支持和集合查询效率等.在查询方面,如何处理自然语言查询,对其进行分析推理,翻译成知识图谱可理解的查询表达式以及等价表达式等也都是知识图谱应用需解决的关键问题.
知识图谱的重要性不仅在于它是一个全局知识库,是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。 从这个意义上看来,知识图谱不仅是一项技术,更是一项战略资产。本文的主要目的就是介绍和宣传这项技术,希望吸引更多的人重视和投入这项研究工作。