从零构建知识图谱--第1章知识图谱概览

一、知识图谱概念

1.语义网络

语义网络是一种表示网络中概念之间语义关系的知识库,通常是一个有向或无向图,由表示概念的结点和表示概念之间语义关系的边组成。

2.知识图谱

知识:人类在实践中认识客观世界(包括人类本身)的成果,包括事实、信息、描述以及在教育和实践中获得的技能。(参考Rowley的DIKW体系)

知识图谱:是一种具有图结构的知识库,采用图的形式将知识表示出来。其结点通过一些边连接在一起,可以看作一类语义网络。例如Google就是通过一个强大的知识图谱(Freebase知识库),提高了用户的搜索体验。

三元组:一种常用的基于符号的知识表示方式--资源描述框架(Resource Description Framework,RDF),它把知识表示为一个包含主语(Subject)、谓语(Predicate)和宾语(Object)的三元组。例如,<姚明,国籍,中国>表示姚明的国籍是中国,其中“姚明”和“中国”是两个结点,而结点之间的关系是“国籍”。

3.知识图谱概念的演化历程

1960-语义网络:一种基于图的数据结构,是一种知识的表示手段,可以很方便地将自然语言转化为图来表示和存储,并应用在自然语言处理问题上,如机器翻译、问答等。

1980-本体论:研究人员将哲学概念本体(Ontology)引入计算机领域,作为“概念和关系的形式化描述”。

1989-web:“以链接为中心”,“基于图的方式”相互关联。

1998-语义网:一种数据互连的语义网络,基于图和链接的组织方式,但结点不再是网页,而是实体,通过为全球信息网上的文档添加“元数据”,让计算机能够轻松理解网页中的语义信息,从而使整个互联网成为一个通用的信息交换媒介。

2006-链接数据:进一步强调了数据之间的链接,而不仅仅是文本的数据化。

4.不同角度了解构建知识图谱

知识图谱的概念是和web、自然语言处理(NLP)、知识表示(KR)、数据库(DB)、人工智能(AI)等密切相关的。

从web的角度:构建知识图谱需要建立数据之间的语义链接、并支持语义搜索。

从NLP的角度:构建知识图谱需要了解如何从非结构化的文本里抽取语义和结构化数据。

从KR的角度:构建知识图谱需要了解如何利用计算机符号来表示和处理知识。

从DB的角度:构建知识图谱需要了解使用何种方式来存储知识。

从AI的角度:构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机器翻译问题的解决。

5.知识图谱有关概念

实体:对应一个语义本体,例如“姚明”,“中国”。

属性:描述一类实体的特性,例如“身高”:姚明的身高是229厘米。

关系:对应语义本体之间的关系,将实体连接起来,例如“国籍”:姚明的国籍是中国。

二、知识图谱模式

结点表示语义实体或概念,二者应该如何区分?

本体:由概念组成的体系称为本体,本体的表达能力比模式强,且包含各种规则。本体强调了概念之间的相互关系,描述了知识图谱的模式,而知识图谱是在本体的基础上增加了更丰富的实体信息。通俗来讲,模式是骨架,而知识图谱是血肉。

模式:模式这个词汇来源于数据库领域,可视为一个轻量级的本体。

人工智能三个代表学派:符号学派强调模拟人的心智、连接学派强调模拟脑的结构、行为学派强调模拟人的行为

三、知识图谱技术架构

从零构建知识图谱--第1章知识图谱概览_第1张图片

1.知识图谱的构建与计算应考虑的内容

①需要考虑 如何结合文本、多媒体、半结构化、结构化知识、服务或API,以及时态知识等的统一知识表示。

②还需要进一步考虑如何结合结构化(如关系型数据库)、半结构化(HTML或XML)和非结构化(文本、图像等)多源异质数据源来分别构建通用事实类(各种领域相关实体知识)、常识类、用户个人记忆类和服务任务类知识库等。

③为了得到融合的图谱,我们除了考虑离线的多源异构的知识融合,还需要额外考虑服务任务类动态知识的对象绑定。

④最后还需要考虑知识谱图的存储,知识是互联、庞大的,且联系是数据的本质所在,传统数据库对于数据联系的表现比较差,所以在知识图谱的存储上,图数据库比较灵活,尤其涉及多跳关联查询时(例如姚明的妻子的国籍是什么),图数据库的效率会远比关系型数据库高。

2.针对不同类型的知识和数据的不同构建技术

针对结构化数据:知识映射;

针对半结构化知识:包装器(Wrapper)

针对非结构化知识:文本挖掘(充分利用web和大规模语料库的冗余信息来发现隐含的模式)、自然语言处理(在开发或确定的Schema下做各种知识抽取)

你可能感兴趣的:(知识图谱,知识图谱)