知识图谱第14享: 知识图谱概论

1)知识图谱产生的背景(google的语义搜索)

知识图谱是由Google公司在2012年提出来的一个新的概念,主要是为了将传统的基于关键字的搜索向基于语义的搜索升级,知识图谱可以用来更好查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。

Google为了提升搜索引擎返回的答案质量和用户查询的效率,于2012年5月16日发布了知识图谱(Knowledge Graph)。有知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查询需求。Google知识图谱的宣传语“things not strings”给出了知识图谱的精髓,即,不要无意义的字符串,而是获取字符串背后隐含的对象或事物。还是以罗纳尔多为例,我们想知道罗纳尔多的相关信息(很多情况下,用户的搜索意图可能也是模糊的,这里我们输入的查询为“罗纳尔多”),在之前的版本,我们只能得到包含这个字符串的相关网页作为返回结果,然后不得不进入某些网页查找我们感兴趣的信息;现在,除了相关网页,搜索引擎还会返回一个“知识卡片”,包含了查询对象的基本信息和其相关的其他对象(C罗名字简称也为罗纳尔多,搜索引擎只是根据“罗纳尔多”的指代概率返回了“肥罗”这个罗纳尔多的基本资料,但也许你需要C罗的相关信息,那么搜索引擎把C罗这个实体作为备选项列出),如下图红色方框中的内容。如果我们只是想知道罗纳尔多的国籍、年龄、婚姻状况、子女信息,那么我们不用再做多余的操作。在最短的时间内,我们获取了最为简洁,最为准确的信息。

2012年11月Google公司率先提出知识图谱(Knowledge Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google 构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。

“Google 知识图谱”( Google Knowledge Graph) 是 在知识管理过程中,为应对海量知识检索挑战,由 Google 公司提出并构建的基于语义网的大规模知识 库。基于本体和语义网技术,“Google 知识图谱”通过 描述现实世界中的各种实体( 概念) 及其复杂关系,将 多种异构的知识库关联起来,并构建基于图( Graph) 的统一的结构化语义网络知识库,在此基础上实现智 能检索和知识推理。

2)知识图谱的概念

知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。

知识图谱是一种以图 (Graph) 的形式存储人类知识的大规模语义网络。知识图谱中的节点 (Node) 表示实体 (Entity),边 (Edge) 表示关系 (Relation)。在知识图谱中,事实 (Fact) 一般以三元组 (Triple) 的形式进行表示。三元组一般记为 < 头实体,关系,尾实体 > (< head entity, relation, tail entity >)。

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。

3)通用知识图谱与领域知识图谱

依据知识应用目的可以分为 通用知识图谱和行业知识图谱 。通用知识图谱一般指常识性知识,如维基百科( Wikipedia) 、百度知心等百科类知识库,其中“Google 知识图谱”已经包含超过 5 亿个实体,35亿个属性和相互关系; 行 业知识图谱则是指具有行业领域知识特征的结构化知识库,如Geonames知识库是存储基因组本体的知识库,Linked Movie Database 是存储影视本体的知识库,阿里巴巴知识库则是存储商品本体的知识库等。

通用知识图谱。主要强调知识的广度,可以形象地看成一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广,通常运用百科数据进行自底向上(Top-Down)的方法进行构建;

领域知识是一个源于人工智能领域的术语,它是指在某一领域内的概念、概念之间的相互关系以及有关概念的约束的集合。在数据挖掘处理的过程中,领域知识是指一个专门领域的重要问题或概念之间的相互关系。领域知识也是指某一领域中应用的基础知识,它应该是面向计算机、正常人不必费力去获取、用来描述某一领域的“领域概念”和“领域概念”之间以及领域概念所具有的属性与属性之间相互关系的知识。“面向计算机”是说领域知识可以用计算机来处理,能够反映本领域的特征、共性的词汇。

领域本体(domain ontology或者说domain-specific ontology,即领域特异性本体)所建模的是某个特定领域,或者现实世界的一部分。领域本体所表达的是那些适合于该领域的那些术语的特殊含义。例如,就拿具有许多种含义的英文单词“card”来说。关于扑克领域的本体可能会赋予该词以“打扑克”的意思,而关于计算机硬件领域的本体则可能会赋予其“穿孔卡片”和“视频卡”的意思。

领域知识图谱。又被称为行业知识图谱或垂直知识图谱,可看成是一个面向某一特定领域的基于语义技术的行业知识库, 有着严格而丰富的数据模式,应用需求各不相同,因此没有一套通用的标准和规范来指导构建,需要基于特定行业通过工程师与业务专家的不断交互沟通与定制来实现,所以对该领域知识的深度、知识准确性有着更高的要求。

 

参考文献:

1、可建模语义分层的知识图谱补全方法,蔡健宇,中国科学技术大学,https://mp.weixin.qq.com/s/Rr9g-I8bWTniu4KaUny1Hw

 

你可能感兴趣的:(知识图谱,知识图谱概论,知识图谱,通用知识图谱,领域知识图谱,领域本体)