(一)知识图谱原理与应用概述 上

知识图谱(Knowledge Graph)

本质上是基于图的语义网络,表示实体和实体之间的关系
构建知识图谱的目的,就是让机器人具备认知能力,理解这个世界。
(一)知识图谱原理与应用概述 上_第1张图片

知识图谱与知识工程

知识图谱是web和大数据时代的知识工程新的发展形态。知识工程的核心:知识库和推理引擎。

  • 领域本体的构建:面向特定领域的形式化地对于共享概念体系的明确而详细的说明。
  • 知识抽取:从海量的数据中通过信息抽取的方式获取知识。
  • 知识融合:通过对多个相关知识图谱的对齐、关联和合并,使其称为一个有机的整体,以提供更全面的知识。

知识本体

本体的定义:

  • “本体”概念来源于哲学领域,指的是对客体存在系统的解释和说明。
  • 计算机科科学中,“本体”用于面向特定领域的形式化地对于共享概念体系的明确而又详细的说明。他提供了面向特定领域的概念、对象类型、上下位语义关系等以及它们的属性等,是对特定领域之中概念及其之间关系的形式化表达,从而方便地进行自动推理等功能。

本体语言:

DARPA提出的DAML(DARPA Agent Markup Language)、W3C提出DAML+QIL3以及目前知识图谱数据集常用的W3C所定义的RDF(S)和OWL语言等。

本体工具

Protege 和 WebOnto

知识图谱数据模型

RDF(Resource Description Framework)

RDF定义了一个简单的模型,用于描述资源,属性和值之间的关系。资源是可以用URI标识的所有事物,属性是资源的一个特定的方面或特征,值可以是另一个资源,也可以是字符串。总的来说,一个RDF描述就是一个三元组:<主语、谓语、宾语>。

用有向图表示的RDF示例:

created by
name
phone
http://www.w3.org
匿名对象
john
48382

用列表表示的RDF示例:

Subject Predicate Object
http://w3.org creates_by #anonymous
#anonymous name “john”
#anonymous phone “48382”

RDFs

在RDF数据层的基础上引入模式层,定义类、属性、关系、属性的定义域与值域来描述与约束资源,构建最基本的类层次体系和属性体系,支持简单的上下位推理。
(一)知识图谱原理与应用概述 上_第2张图片

本体语言OWL

进一步扩展RDFS词汇,可声明类间互斥关系、属性的传递性等复制语义,支持基于本体的自动推理,提供了一组合适web传播的描述逻辑的语法,对机器友好,但认知复杂性限制了工程应用。
(一)知识图谱原理与应用概述 上_第3张图片

知识抽取

知识获取的目标

从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理的数据源的不同而不同。分为:

  • 结构化数据
  • 半结构化数据
  • 非结构化文本数据

文本信息抽取

从非结构化文本数据中进行知识抽取

  • 实体识别
  • 实体消歧
  • 关系抽取
  • 时间抽取
    (一)知识图谱原理与应用概述 上_第4张图片

大规模知识抽取

Yago(Yet Another Great Ontology)、DBPedia、Freebase、wikidata

知识融合

实体对齐必然涉及到实体相似度的计算,假如两个实体的记录x和y,x和y在第i个属性上的值是xi,yi,那么需要通过两步计算:

  • 属性相似度:综合单个属性相似度得到属性相似度向量[sim(x1,y1),sim(x2,y2),]…sim(xN,yN)]
  • 实体相似度:根据属性相似度向量得到实体的相似度
  • 属性相似度计算方法:常用的有编辑距离、集合相似度(Jaccard系数、Dice)、向量相似度等
  • 实体相似度计算方法:比如聚合、聚类、表示学习等
    (一)知识图谱原理与应用概述 上_第5张图片

知识图谱与自然语言处理

自然语言处理和知识图谱研究是双向互动的关系。
(一)知识图谱原理与应用概述 上_第6张图片
从nlp研究kg,有两个代表性的topic

信息抽取

主要技术:实体识别与抽取、实体消歧、关系抽取
趋势及挑战:

  • 从封闭走向开放
  • 大规模信息抽取
  • 深层次挖掘信息背后的语义(从抽取到理解)
命名实体实体识别的方法:
  • 基于规则的实体识别方法
  • 基于机器学习的实体识别方法(crf标注,条件随机场,最大熵模型)
关系抽取

自动识别实体之间具有的某种语义关系
根据抽取文本的范围不同,分为:

  • 句子级关系抽取
  • 语料(篇级)关系抽取

关系抽取任务的难点:

  • 同一个关系可以具有多种不同的词汇表示方式
  • 同一个短语或词可能表达不同的关系
  • 同一对实体之间可能存在不止一种关系
  • 需要结合上下文
  • 关系有时在文本中找不到任何明确表示,隐含在文本中
  • 关系抽取依赖词法、句法分析等基本的自然语言处理工具,但该工具性能并不高。
事件抽取
  • 识别事件触发词及事件类型
  • 抽取事件元素(Event Argument)同时判断其角色(Argument Role)
  • 抽出描述事件的词组或句子

语义解析

语义解析就是将自然语言映射成机器可以表达的形式。
主要技术:词义消歧、语义角色标注、指代消解等。
应用:

  • 面向知识图谱的自然语言问答
  • 聊天机器人等
    (一)知识图谱原理与应用概述 上_第7张图片

@b站课程图谱学苑邹磊老师–自己整理笔记

你可能感兴趣的:(学习,KG,知识图谱,人工智能)