知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
知识图谱不是一种新的知识表示方法,而是知识表示在工业界的大规模知识应用,它将互联网上可以识别的客观对象进行关联,以形成客观世界实体和实体关系的知识库,其本质上是一种语义网络,其中的节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构。知识图谱的逻辑结构可分为模式层与数据层,模式层在数据层之上,是知识图谱的核心,模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。在知识图谱的数据层,知识以事实,(fact)为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成“知识图谱”。
知识图谱在以下应用中已经凸显出越来越重要的应用价值:
- 知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
- 语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页;
- 问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
- 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
当前知识图谱中包含的主要几种节点有:
- 实体:指的是具有可区别性且独立存在的某种事物。如某一个人、 某一座城市、某一种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
- 概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
- 属性:用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。
知识图谱始于20世纪50年代,至今大致分为三个发展阶段:
第一阶段(1955年-1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析开始成为一种研究当代科学发展脉络的常用方法;
第二阶段(1977年-2012年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加工;
第三阶段(2012年-至今)是知识图谱繁荣阶段,2012年谷歌提出Google Knowledge Graph,知识图谱正式得名,谷歌通过知识图谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破,知识图谱成为知识服务领域的一个新热点,受到国内外学者和工业界广泛关注。知识图谱具体的发展历程如图1所示。
1、知识图谱是人工智能的重要基石
人工智能分为两个层次:感知层与认知层。首先感知层,即计算机的视觉、听觉、触觉等感知能力,目前人类在语音识别、图像识别等感知领域已取得重要突破,机器在感知智能方面已越来越接近于人类;第二个层次是认知层,是指机器能够理解世界和具有思考的能力。认知世界是通过大量的知识积累实现的,要使机器具有认知能力,就需要建立一个丰富完善的知识库,因此从这个角度说,知识图谱是人工智能的一个重要分支,也是机器具有认知能力的基石,在人工智能领域具有非常重要的地位。
2、知识图谱推动智能应用
知识图谱将人与知识智能地连接起来,能够对各类应用进行智能化升级,为用户带来更智能的应用体验。知识图谱是一个宏大的数据模型,可以构建庞大的“知识”网络,包含客观世界存在的大量实体、属性以及关系,为人们提供一种快速便捷进行知识检索与推理的方式。近些年蓬勃发展的人工智能本质上是一次知识革命,其核心在于通过数据观察与感知世界,实现分类预测、自动化等智能化服务。知识图谱作为人类知识描述的重要载体,推动着信息检索、智能问答等众多智能应用。
3、知识图谱是强人工智能发展的核心驱动力之一
尽管人工智能依靠机器学习和深度学习取得了快速进展,但严重依赖于人类的监督以及大量的标注数据,属于弱人工智能智能范畴,离强人工智能仍然具有较大差距,而强人工智能的实现需要机器掌握大量的常识性知识,同时以人的思维模式和知识结构来进行语言理解、视觉场景解析和决策分析。如图2所示,知识图谱技术将信息中的知识或者数据加以关联,实现人类知识的描述及推理计算,并最终实现像人类一样对事物进行理解与解释。知识图谱技术是由弱人工智能发展到强人工智能过程中的必然趋势,对于实现强人工智能有着重要的意义。
表1展示知识图谱领域10个相关重要国际学术会议,这些会议为知识图谱领域的研究方向、技术趋势与学者研究成果提供重要信息,为本报告研究学者的选取提供依据。
会议简称 | 会议全称 |
---|---|
ACL | Association of Computational Linguistics |
EMNLP | Empirical Methods in Natural Language Processing |
WWW | International World Wide Web Conference |
ISWC | International Semantic Web Conference |
IJCAI | International Joint Conference on Artificial Intelligence |
AAAI | National Conference of the American Association for Artificial Intelligence |
COLING | International Conference on Computational Linguistics |
KR | International Conference on Principles of KR & Reasoning |
KDD | ACM International Conference on K nowledge Discovery and Data Mining |
CIKM | ACM International Conference on Information and Knowledge Management |
有关知识图谱所有论文引用量最高的前十篇论文为:
序号 | 论文题目 |
---|---|
1 | Distant supervision for relation extraction without labeled data–Mike Mintz, Steven Bills, Rion Snow, and Dan Jurafsky.ACL/IJCNLP,2009. |
2 | You are where you tweet: a content-based approach to geo-locating twiter users–Zhiyuan Cheng, James Caverlee, and Kyumin Lee.CIKM,2010. |
3 | YAGO2: a spatially and temporally enhanced knowledge base from Wikipedia–Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, and Gerhard Weikum.IJCAI,2013. |
4 | Knowledge vault: a web-scale approach to probabilistic knowledge fision–Xin Dong 0001, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang.KDD,2014. |
5 | Robust discambiguation of named entities in text–Johannes Hoffart, Mohamed Amir Yosef, llaria Bordino, Hagen Firstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, and Gerhard Weikum. EMNLP,2011. |
6 | BabelNet: building a very large mulingual semantic network–Roberto Navigli, and Simone Paolo Ponzetto.ACL,2010. |
7 | Driving with knowledge firom the physical world–Jing Yuan, Yu Zheng, Xing Xie, and Guangzhong Sun.KDD,2011. |
8 | Open domain event extraction from twitter–Alan Ritter, Mausam, Oren Etzioni, and Sam Clark KDD,2012. |
9 | Sentiment analysis of blogs by combining lexical knowledge with text classification–Prem Melville, Wojciech Gryc, and Richard D. Lawrence. KDD,2009. |
10 | Open information extraction: the second generation–Etzioni, Oren and Fader, Anthony and Christensen, Janara and Soderland, Stephen and Mausam, Mausam.IJCAI, 2011 |
知识图谱主要技术包括知识获取、知识表示、知识存储、知识建模、知识融合、知识理解、知识运维等七个方面,通过面向结构化、半结构化和非结构化数据构建知识图谱为不同领域的应用提供支持,具体的技术架构图如图3所示。
通用的基于本体的知识图谱构建架构如图4所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。
知识图谱的构建的原始数据包含结构化数据、半结构化数据、非结构化数据三种,通过一系列自动化或半自动化的技术手段,从原始数据中提取出知识要素(即实体及其关系),将其存入知识图谱的模式层与数据层。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:知识抽取、知识融合、知识加工。
知识图谱中的知识来源于结构化、半结构化和非结构化的信息资源,如图5所示。知识抽取技术从这些不同结构和类型的数据中提取出计算机可理解和计算的结构化数据,以供进一步的分析和利用。知识获取即是从不同来源、不同结构的数据中进行知识提取,形成结构化的知识并存入到知识图谱中。当前,知识获取主要针对文本数据进行,需要解决的抽取问题包括:实体抽取、关系抽取、属性抽取和事件抽取。
实体抽取也称为命名实体识别( named entity recognition,NER ),是指从文本语料库中自动识别出专有名词(如机构名、地名、人名、时间等)或有意义的名词性短语,实体抽取的准确性直接影响知识获取的质量和效率。
如:姚明、易建联
实体抽取是知识图谱构建和知识获取的基础和关键。为了解决早期的实体抽取方法存在的问题,规则和监督学习相结合的方法、半监督方法、远程监督方法以及海量数据的自学习方法等被相继提出。
关系抽取是利用多种技术自动从文本中发现命名实体之间的语义关系,将文本中的关系映射到实体关系三元组上。较于实体抽取,关系抽取更加复杂,研究的难点主要体现在并非所有的关系都很明显,即关系表达的隐含性;实体关系不仅有二元,还有多元,即关系的复杂性;一种关系可能会有多种表述形式,如A位于B或B的省会是A,即语言的多样性。
如:姚明 → (朋友) → 易建联
从不同信息源中采集特定实体的属性信息。
属性主要是针对实体而言的,以实现对实体的完整描述,由于可以把实体的属性看作实体与属性值之间的一种名词性关系,所以属性抽取任务就可以转化为关系抽取任务,例如,[Guo et al., 2012] 采用SVM方法将人物属性抽取问题转化为人物的关系抽取,[Suchaneketal,2007] 提出的基于规则与启发式的抽取方法能够从Wikipedia和WordNet半结构化网页中自动抽取出属性和属性值,其抽取的准确率可达95%,并因此得到了著名的本体知识库YOGO,还有直接从非结构化文本中挖掘出实体属性名称和属性值之间的位置关系模式的属性抽取的方法 [刘峤等,2016]。
如:姚明的生日、身高等信息
事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。目前已存在的知识资源(如维基百科等)所描述实体及实体间的关联关系大多是静态的,事件能描述粒度更大的、动态的、结构化的知识,是现有知识资源的重要补充。
知识融合的概念最早出现在1983年发表的文献 [HOLSAPPLEC,et al,1983] 中,并在20世纪九十年代得到研究者的广泛关注。而另一种知识融合的定义是指对来自多源的不同概念、上下文和不同表达等信息进行融合的过程[维基百科]。[A .Smirnov, et a1,2002] 认为知识融合的目标是产生新的知识,是对松耦合来源中的知识进行集成,构成一个合成的资源,用来补充不完全的知识和获取新知识。[唐晓波,魏巍,et al,2015] 在总结众多知识融合概念的基础上认为知识融合是知识组织与信息融合的交叉学科,它面向需求和创新,通过对众多分散、异构资源上知识的获取、匹配、集成、挖掘等处理,获取隐含的或有价值的新知识,同时优化知识的结构和内涵,提供知识服务。
通过知识抽取获得的信息具有以下两个问题:信息之间关系扁平化,缺乏层次性与逻辑性;存在大量冗余信息。采用知识融合解决上述问题,主要包含两个部分:实体链接、知识合并,其中,实体链接涉及共指消解、实体消歧两种技术。
实体链接(Entity Linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想从文本中通过实体抽取得到实体项,进行共指消解、实体消歧,在确认知识库中对应的正确实体对象之后,将该实体项链接到知识库中对应实体。
共指消解(Coreference Resolution)技术主要用于解决多个指称对应同一实体对象的问题。
共指是NLP领域的概念,主要指多个名词(包括代名词、名词短语)指向真实世界中的同一参照体,且这种指代脱离上下文仍然成立。
该任务通常通过混用基于实体属性值相似度计算方法(比较描述实体的属性和属性值之间的异同)和基于本体语言等价推理的方法(推理不同实体标志符间的对象共指关系)来完成。
实体消歧(Entity Disambiguation)技术主要用于解决同名实体产生歧义的问题。
该任务通常通过计算实体属性之间的相似度,利用聚类模型来完成。
2.1节中所述知识链接用于知识抽取后的半结构化数据与非结构化数据的处理,对于结构化数据,采用知识合并对冗余信息进行处理。
知识加工主要包括三个方面的内容:本体构建、知识推理、质量评估。
本体(Ontology)包含某个学科内的基本实体和实体之间的关系,是描述领域知识的通用概念模型。本体可以借助本体编辑软件手动构建,也可以以数据驱动的自动化方式构建。
知识图谱在完成本体构建后已经初具雏形,但知识之间的关系存在残缺,采用知识推理进一步知识发现,从而对知识图谱的知识进行补全。
知识推理主要分为三大类:基于规则的推理、基于图的推理、基于深度学习的推理。
质量评估也是知识库构建技术的重要组成部分,用于对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识图谱的质量。
从逻辑上看,知识图谱的更新包括概念层的更新和数据层的更新。
概念层的更新指新增数据后获得了新的概念,需要自动将新的概念添加到知识图谱的概念层中。
数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性等,并选择在各数据源中出现频率高的事实和属性加入知识图谱。
知识图谱的更新有两种方式:全面更新、增量更新。
全面更新指以更新后的全部数据为输入,从零开始构建知识图谱。该方法较简单,但资源消耗大。
增量更新以当前新增数据为输入,向现有知识图谱中添加新增知识。该方法较复杂,但资源消耗小。
通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建。表3展示的即是常识知识库型知识图谱。
1、 清华大学杨玉基的“一种准确而高效的领域知识图谱构建方法”,研究实现的众包半自动语义标注系统, 在“四步法”中起着重要作用。相比于人工标注降低了标注难度; 相比于自动标注等方法能够更好地保证标注质量, 还可以在标注过程中修改完善本体结构。本文还以地理学科知识图谱为例, 详细介绍了“四步法”构建领域知识图谱的过程。希望能为其他研究者构建领域知识图谱提供一定的借鉴。
2、华东理工大学胡芳槐的博士论文“基于多种数据源的中文知识图谱构建方法研究”【,本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息;2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势;3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识;4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据;5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。
3、博客实战推荐:
pelhans的从零开始构建知识图谱系列文章:从零开始构建知识图谱
浙江大学SimmerChan的实践篇系列文章:实践篇(一):数据准备和本体建模
4、Github六个知识图谱实战项目推荐
1)知识图谱构建,自动问答,基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。
地址:https://github.com/liuhuanyong/QASystemOnMedicalKG
本项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。 本项目将包括以下两部分的内容:
- 基于垂直网站数据的医药知识图谱构建
- 基于医药知识图谱的自动问答
2)本项目提出了中文复合事件的概念与显式模式,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
地址:https://github.com/liuhuanyong/ComplexEventExtraction
3)罪名法务智能项目,内容包括856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能。
地址:https://github.com/liuhuanyong/CrimeKgAssitant
本项目将完成两个大方向的工作: 1, 以罪名为核心,收集相关数据,建成基本的罪名知识图谱,法务资讯对话知识库,案由量刑知识库. 2, 分别基于步骤1的结果,完成以下四个方面的工作。
- 基于案由量刑知识库的罪名预测模型
- 基于法务咨询对话知识库的法务问题类型分类
- 基于法务咨询对话知识库的法务问题自动问答服务
- 基于罪行知识图谱的知识查询
4)中文人物关系知识图谱项目,内容包括中文人物关系图谱构建,基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取,基于知识图谱的知识问答等应用。
地址:https://github.com/liuhuanyong/PersonRelationKnowledgeGraph
5)军事知识图谱。基于mongodb存储的军事领域知识图谱问答项目,包括飞行器、太空装备等8大类,100余小类,共计5800项的军事武器知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想。
地址:https://github.com/liuhuanyong/QAonMilitaryKG
6)京东知识图谱,基于京东网站的1300种商品上下级概念,约10万商品品牌,约65万品牌销售关系,商品描述维度等知识库,基于该知识库可以支持商品属性库构建,商品销售问答,品牌物品生产等知识查询服务,也可用于情感分析等下游应用。
地址:https://github.com/liuhuanyong/ProductKnowledgeGraph
[1] 杨玉基, 许斌, 胡家威, 仝美涵, 张鹏, 郑莉. 一种准确而高效的领域知识图谱构建方法[J]. 软件学报, 2018, 29(10)
[2] 胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[D]. 华东理工大学, 2015.
[3] 2019知识图谱标准化白皮书
[4] https://github.com/liuhuanyong/QASystemOnMedicalKG
https://github.com/liuhuanyong/ComplexEventExtraction
https://github.com/liuhuanyong/CrimeKgAssitant
https://github.com/liuhuanyong/PersonRelationKnowledgeGraph
https://github.com/liuhuanyong/QAonMilitaryKG
https://github.com/liuhuanyong/ProductKnowledgeGraph