知识图谱与语义技术概述
典型知识库项目简介
知识图谱相关技术简介
- 知识表示、知识抽取、知识存储、知识融合
- 知识推理、知识众包、语义搜索、知识问答
典型应用案例：医药、电商、企业、金融、博物馆、媒体

知识图谱与语义技术概述

KG（Knowledge Graph）的概念演化

KG演化.png

KG辅助搜索
KG辅助问答
KG辅助决策
KG辅助AI：常识推理

当一个人听到或看到一句话的时候，他使用自己所有的知识和背景去理解。这不仅仅包括语法，也包括他的词汇知识，上下文知识，更重要的，是对相关事务的理解——Terry Winograd（自然语言理解系统SHRDLU作者）

KG的本质

Web 视角：像建立文本之间的超链接一样，建立数据之间的语义链接，并支持语义搜索

NLP 视角：怎样从文本中抽取语义和结构化书数据

KR 视角：怎么利用计算机符合表示和处理知识

AI 视角：怎么利用知识库来辅助理解人的语言

DB 视角：用图的方式去存储知识

做好KG要兼容并蓄，综合利用好KR、NLP、Web、ML、DB等多方面的方法和技术

典型知识库项目

Cyc：最初目的建立人类最大的常识知识库

Wordnet: 最著名的词典知识库，主要用于词义消歧

ConceptNet：常识知识库

Freebase：完全免费并允许商业化的开发许可协议

Wikidata、DBPedia、YAGO、Babelnet、Nell、微软 Concept Graph等

OpenKG：中文知识图谱资源库

Zhishi.me

cnSchema：开放的中文知识图谱

知识图谱技术概览

知识表示

什么是知识表示：知识表示研究怎么用计算机符号表示人脑中的知识，以及怎样通过符号之间的运算来模拟人脑的推理过程。

基于数理逻辑的知识表示——> 基于向量空间学习的分布式知识表示

RDF(Resource Description Framework ) : Triple-based Assertion model

RDF Graph：Directed Labeled Graph 基本数据模型：有向标记图

RDFS：simple Vocabulary and Schema

知识表示.png

OWL : Web Ontology Language

OWL extends RDF Schema

SPARQL

RDF的查询语言：基于RDF数据模型

可以对不同的数据集撰写复杂的连接（joins）

由所有主流图数据库支持

SPARQL Protocl and RDF Query Language

资源描述框架（Resource Description Framework, RDF）是一种描述有关 Web 资源的格式化语句集合的模型。

是一种描述有关 Web 资源的语句集合的模型。这些语句在概念上分为三部分，每条语句包含一个主题（一个 Uniform Resource Identifier (URI)）；一个谓词（也是一个 URI）；还包括一个对象（一个 URI 或字母数据值）。
要了解这类语句的特点，考虑描述 Web 页面的 HTML meta 标记。如果将其改为 RDF，
则主题将是 Web 页面本身的 URI，谓词将是表示通用描述的标准 URI，而对象将是描述的实际文本。
通过大量使用 URI，RDF 试图最小化这些语句组件标识的模糊性，从而使它们具有足够的常规性以方便机器处理。

Web Ontology Language (OWL)是一种 RDF 应用程序，通常使用 RDF/XML 编码，它添加了一种丰富的词汇表，可以用来按照格式分类并分析 RDF 资源。
SPARQL Query Language for RDF [开发阶段] 是用于查询 RDF 数据的特殊语法

知识图谱的分布式表示——KG Eembedding

在保留语义的同时，将知识图谱中的实体和关系映射到连续的稠密的低维向量空间

离散的符号表示——> 连续的向量表示

分布式表示.png

知识抽取：NLP + KR

4-知识抽取.png

主要方法

知识工程
- 正则表达式
- 模板匹配
  - BootStrap：从种子数据中识别Patterns，用于抽取更多数据，提取更多Patterns
- 规则约束
  - POS(Part-Of-Speech 词性标注)、NER(Named Entity Recognition 命名实体识别)约束、距离约束
基于本体的抽取
- 知识挖掘（推理）
  - PRA 基于图的抽取
  - TransE系列基于Embedding的抽取
基于模型的抽取
- 模型
  - SVM, Logistic Model
  - 条件随机场(CRF)
  - LSTM(Long Short-Term Memory)等循环神经网络
- 训练
  - 有监督学习
  - 无监督聚类
  - 远程监督(Distant Supervison), 从已有的知识库获取少量训练数据

知识存储

知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询 (支持推理)的优化等问题

典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储

在实践中,多为混合存储结构,图存储并非必须

知识问答

KBQA(Knowledge-Based Question Answering) 基于知识库的问题回答

以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态‘

基本实现流程

6-知识问答.png

知识推理

简单而言，推理是基于已知事实退出未知的事实的计算过程

大部分搜索引擎目前都已经支持了一定的推理能力

百度输入：姚明的女儿的妈妈的老公

5-知识推理.png

知识融合

其它相关叫法:Record Linkage,Entity Resolution,Data Linking,Knowledge Fusion,Entity Alignment......

都是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息

Dedupe, 基于Python的工具包,实现了包括fuzzy matching, deduplication, entity resolution在内的常见任务。主要处理流程是先对所有records通过Clustering/Blocking的方法进行分组,然后在组内部通过计算相似度特征和机器学习分类模型对任一一对records进行预测是否为同一实体。

适合于两个数据集有相似的结构,如果两个数据集的实体属性个数差异很大,不建议采用。

Limes: A Time-Efficient Approach forLarge-Scale Link Discovery on theWeb of Data. IJCAI2013

专门针对链接数据Linked Data设计的链接框架,不要求两个数据集的实体具有相似的结构

可灵活配置匹配规则,自定义距离计算模型 , 也支持基于 Active Learning的机器学习方法

知识众包

Wikibase

Schema.ORG

1-知识图谱概述