笔记:A Review of Relational Machine Learning for Knowledge Graphs

Ⅰ引言

在统计关系学习(Statistical Relational Learning,SRL)中,对象的表示可以包含与其他对象的关系。 因此,数据是以图形的形式,由节点(实体)和标记的边(实体之间的关系)组成。SRL的主要目标包括预测缺失的边(也即关系),预测节点属性以及根据连通性模式对节点进行聚类。 这些任务出现在许多环境中,例如社交网络和生物途径的分析。

Ⅱ 知识图谱

A.知识的表示

W3C Resource Description Framework (RDF), W3C资源描述框架
(subject, predicate, object) (SPO) triples, 主谓宾三元组
knowledge graph (KG), 知识图谱

知识图谱是由节点(subject、object)和带有标签的边(predicate,即relation)组成,例如:
笔记:A Review of Relational Machine Learning for Knowledge Graphs_第1张图片

B.封闭世界假设和开放世界假设

closed world assumption (CWA) ,封闭世界假设
open world assumption (OWA) ,开放世界假设
local closed world assumption (LCWA),局部封闭世界假设

封闭世界假设把确实的边当做是False,即如Fig.1 中Leonard Nimoy没有starredIn Star Wars的边,则认为Nimoy没有参演Star Wars。而开放世界假设则把确实的边看成是Unkown。因为KGs是不完整的,所以用OWA会更公正一点。后面也会介绍LCWA,它常常被用来训练关系模型。

c.知识库构建

Knowledge base(KB),知识库

KB的构建主要有以下4种方法:

  • 在策划方法中,三元组是由一组封闭的专家手动创建的。
  • 在协作方法中,三元组是由一群开放的志愿者手动创建的。
  • 在自动化半结构化方法中,三元组通过手工制定的规则,学习规则或正则表达式自动从半结构化文本(例如维基百科中的信息框)中提取。
  • 在自动化非结构化方法中,三元组通过机器学习和自然语言处理(NLP)技术从非结构化文本中自动提取。

策划方法和协作方法都有其局限性,自动知识库构建方法(Automatic Knowledge Base Construction,AKBC)会更令人关注。
AKBC主要有两种方法,第一种利用半结构化数据,例如Wikipedia infoboxes,项目有YAGO和DBpedia。然而,半结构化文本只占网络信息的很小一部分,因此,第二种方法尝试“read the Web”,从网页的自然语言中提取事实。例如项目NELL和Knowledge Vault.

KGs,更一般的说是KBs,根据是否采用固定或开放的词汇来形容实体和关系,可分为两类:

  • 在基于模式的方法中,实体和关系通过全局唯一标识符来表示,并且所有可能的关系都是在固定词汇表中预定义的。 例如,Freebase可能代表的事实是,奥巴马出生在夏威夷,使用三元组(/ m / 02mjmr,/ people / person / born-in,/ m / 03gh4),其中/ m / 02mjmr是巴拉克奥巴马唯一的机器ID。
  • 在无模式方法中,使用开放信息提取(OpenIE)技术来识别实体和关系,并且通过标准化但未消除歧义的字符串(也称为表面名称)来表示实体和关系。例如,OpenIE系统可以包含三元组,例如(“奥巴马 “,”出生于“,”夏威夷“),(”巴拉克奥巴马“,”出生地“,”檀香山“)等。请注意,从该表示中推断不出第一个三元组是否跟第二个三元组一样、“生于”是否与“出生地”一样。 这是OpenIE系统的主要缺点。

这篇文章只讨论基于模式的知识库(Freebase、Wikidata、DBpedia、YAGO2、Google Knowledge Graph等)。

D.知识库的使用
利用来自知识图的语义信息来增强搜索结果可以被看作是将基于文本的搜索引擎转换成语义意识问答应答服务的重要步骤。

E.知识图谱构建和策划的主要任务
链接预测:预测边的存在或概率或正确性。链接预测可以通过从已知事实中估计三元组的可信度来支持自动化知识库的构建。例如,假设信息提取方法返回一个事实,即声称巴拉克奥巴马出生在肯尼亚,并假设(出于说明的目的)奥巴马的真实出生地点尚未存储在知识图中。 SRL模型可以使用有关奥巴马的相关事实(例如他的职业是美国总统)推断这个新事实不可能是真实的,不应该被包括在内。

实体解析:(也称为记录链接,对象识别,实例匹配和重复数据删除)是识别关系数据中的哪些对象引用相同的底层实体的问题。 在基于模式的自动化知识库构建中,实体解析可用于将提取的表面名称与存储在知识图中的实体进行匹配。

基于链接的聚类:将基于特征的聚类扩展到关系学习设置,并根据关系数据中的相似性对实体进行分组。 然而,在基于链接的聚类中,实体不仅按其特征的相似性分组,而且由其链接的相似性分组。 在实体解析中,实体的相似性可以通过知识图传播,这样关系建模可以为此任务添加重要信息。 在社交网络分析中,基于链接的聚类也称为社区检测。

Ⅲ 知识图普的统计关系学习

你可能感兴趣的:(笔记:A Review of Relational Machine Learning for Knowledge Graphs)