【知识图谱】综述

知识图谱研究进展 机器之心https://www.jiqizhixin.com/articles/2017-03-20

知识图谱构建
· 关键技术:实体关系识别技术、知识融合技术、实体链接技术、知识推理技术等
· 目的:获得大量的、让计算机可读的知识
· 三个部分:
(1)知识获取:从非结构化、半结构化、结构化数据中获取知识
(2)数据融合:将不同数据源获取的知识进行融合,构建数据间的关联
(3)知识计算及应用:基于知识图谱计算功能及应用

(1)知识获取
1.非结构化数据 (文本数据)
提取正文(过滤广告,保留用户关注的文本内容)=》自然语言技术识别文章中的实体
2.半结构化数据(表格、网页等)
包装器学习半结构化数据的抽取规则
3.结构化数据(存储在数据库中的数据)
ETL工具(extract-transform-load,抽取-转换-加载)对数据进行重新组织、清洗、检测

(2)知识融合
本体:提供统一术语的结构或者数据,构建各个术语之间的关系及其限制。
· 通过数据映射技术建立本体中术语和不同数据源抽取知识中词汇的映射关系,进而将不同数据源的数据融合在一起。
· 使用实体匹配将不同数据源相同客体的数据进行融合
· 使用本体融合技术将存在某些术语描述同一类数据的不同本体融合

[1] 徐增林, 盛泳潘, 贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4):589-606.

web 1.0:文档互联
web 2.0:数据互联
web 3.0:知识互联(目标:构建一个人与机器都可理解的万维网,使得网络更加智能化)

知识图谱(knowledge graph)
用本体模型来形式化表达数据中的隐含语义。RDF(resource description framework)、万维网本体语言(Web ontology language,OWL)
应用:智能搜索、智能问答、个性化推荐等
(智能搜索 发展:不再局限于关键词匹配,根据用户查询的情境与意图进行推理,实现概念检索)
优势:能够使计算机理解人类的语言交流模式,更加智能地反馈用户需要的答案;能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,形成一套Web语义知识库。

  • 1.1 知识图谱的定义
    Google用于增强其搜索引擎功能的知识库。
    · 本质:一种揭示实体之间关系的语义网络,可以实现对世界的事物及其相互关系进行形式化的描述。泛指各种大规模的知识库。
    · 表示方式:三元组 G=(E,R,S)
    E=e1,e2,...,e|E| 表示知识库中的实体集合,共有 |E| 种不同实体
    R=r1,r2,...,r|R| 表示知识库中的关系集合,共有 |R| 种不同关系
    SE×R×E 表示知识库中的三元组集合
    · 三元组的基本形式包括实体1、关系、实体2和概念、属性、属性值等
    -实体:知识图谱中的最基本元素,不同的实体间存在不同的关系
    -概念:主要指集合、类别、对象类型、事物的种类(eg 人物、地理等)
    -属性:对象可能具有的属性、特征、特性、特点以及参数(eg 国籍、生日等)
    -属性值:对象指定属性的值(eg 中国、1998-01等)
    每个实体可用一个全局唯一确定的ID标识
    每个属性-属性值对(attribute-value pair, AVP)可用来刻画实体的内在特性
    关系用来连接两个实体,刻画它们之间的关联

  • 1.2 知识图谱的架构
    (1)逻辑结构<数据层、模式层>
    · 数据层:由一系列事实组成,知识将以事实为单位进行存储
    eg 事实:(实体1,关系,实体2)、(实体,属性,属性值)
    存储介质:图数据库(如Neo4j、FlockDB等)
    · 模式层:构建在数据层之上,通过本体库来规范数据层的一系列事实表达
    本体:结构化知识库的概念模板(由本体库形成的知识库层次结构强,冗余程度小)
    (2)体系架构<构建模式结构>
    构建方式:
    · 自顶向下(top-down):先为知识图谱定义好本体与数据模式,再将实体加入到知识库
    · 自底向上(bottom-up):从一些开放链接数据中提取出实体,选择其中置信度较高的加入知识库,再构建顶层的本体模式(大多知识图谱采用此方式进行构建,如google的Knowledge Vault)

  • 2 大规模知识库

  • 未完。。

你可能感兴趣的:(论文阅读,知识图谱)