KG | 知识融合

1 概述

知识图谱分两块,数据层和模式层
目标: 融合各层面的知识
合并之前需要确认:

  • 等价实例
  • 等价类/子类
  • 等价属性/子属性

跨语言的知识融合

知识在线融合

比如搜索引擎对搜索词进行知识融合,返回知识卡片

各种相关的名词术语

知识融合(Knowledge Fusion)
本体对齐(Ontology Alignment)
本体匹配(Ontology Matching)
实体对齐(Entity Alignment)
……
这些术语可以理解为一个意思

2 挑战

  • 数据质量的挑战
    命名模糊,数据输入错误,数据丢失,数据格式不一致
  • 数据规模的挑战
    数据量大 数据种类多样,不再仅仅通过名字匹配,更多链接等

(知识融合比赛:OAEI, 本体对齐竞赛)

3 基本技术流程

分为两部分:本体对齐实体匹配
KG | 知识融合_第1张图片

*数据预处理

ETL过程
对算法难易程度和了解数据规律很有帮助,虽然是苦活累活,但是很有必要。
主要包括 语法正规性和数据正规化

*记录链接

属性相似度:综合单个属性相似度得到属性相似度

  • 编辑距离:常见算法题
  • 集合相似度:Jaccard系数 适合处理短文本的相似度
  • 急于向量的相似度:TF-IDF

实体相似度:根据属性相似度得到实体的相似度

1 聚合:加权平均 手动指定规则 分类器
问题:
- 训练集的生成
- 分类不均衡
- 误分类
最关键的问题就是生成训练集合
方案:
- 无监督/半监督(EM,生成模型等)
- 主动学习(众包等)

2 聚类:层次聚类 相关性聚类
层次聚类:
- SingleLinkage
- CompleteLinkage
- AverageLinkage
相关性聚类:
- 最大流最小割类似
Canopy+K-means:

3 表示学习: 知识嵌入
中国国歌+作曲=聂耳
义勇军进行曲+作曲=聂耳
那么“中国国歌” “义勇军进行曲” 两个实体是相似的

*分块

分块(Blocking)是从给定的知识库中的所有实体对中,选出潜在匹配的记录对作为候选项,并将候选项的大小尽可能的缩小。

分而治之,更快,增加并行。对于不相似的相初分块

Hash
邻近分块
-Canopy聚类
-排序邻居算法
-Red-Blue Set Cover

*负载均衡

保证所有块数量相近

*结果评估

准确率 召回率 F值
整个算法的运行时间

4 典型工具

Falcon-AO

自动的本体匹配系统

相似度组合策略:
- 语言学可比性
- 结构可比性:本体间使用的原语的数目可比性
- 映射单元集成
- 映射单元选取算法

Dedupe

用于模糊匹配,记录去重和实体链接的pyhton库

Limes

基于度量空间的实体匹配发现框架,适合大规模数据链接,Java
KG | 知识融合_第2张图片

Silk

集成异构数据源的开源框架,Python

你可能感兴趣的:(Knowledge,Graph)