知识图谱概论-王昊奋

知识图谱与语义技术概论

知识图谱(KG)的概念

知识图谱(KG)得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。知识图谱(KG)的概念演化如图:


1.png

知识图谱是2012年后的提法,基础还是语义网和本体论

知识图谱的本质包含:

  • 知识表示——Knowledge Representation
  • 基于知识表示的知识库——Knowledge Base
  • 知识库的来源:知识构建、知识抽取、知识融合;
  • 知识库怎么用:语义搜索、知识问答
  • Web的视角:像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索;
  • NLP视角:怎么从文本中抽取语义和结构化数据
  • KR视角:怎样利用计算机符号表示和处理数据
  • AI视角:怎样利用知识库来辅助理解人类的语言
  • DB视角:用图的方式去存储知识;

知识图谱由文本(Texts、Documents)的链接到对象(Objects)的链接
知识图谱(KG)的作用:

  • 辅助搜索
    2.png
  • 辅助问答
    3.png
  • 辅助决策
    4.png
  • 辅助AI:常识推理
    5.png

知识图谱的深度学习的区别:
人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。
可以将深度学习和知识图谱比作是“聪明的AI”和“有学识的AI”。

  • 深度学习:主要是【学习】能力,通过强大的计算能力,感知、识别、判断来进行学习。
  • 知识图谱:主要是【推理】能力,通过已有的规则和知识,思考、语言、推理来进行学习。


    6.png

典型的知识库介绍

  • CYC知识库:常识知识库,最初目标是建立人类最大的常识知识库。
  • Wordnet:词典知识库,主要用于词义消歧。
  • ConceptNet:常识数据库,最早源于MIT媒体实验室,主要依靠互联网众包、专家创建和游戏三种方法来构建。知识库以三元组形式的关系型知识构成。侧重词与词之间的关系。ConceptNet完全免费开放,并支持多种语言。
  • Freebase:完全免费并允许商业化的开放许可协议。通过开源免费吸引吸引用户贡献数据,增值的应用及技术服务收费。
  • Wikidata:目标是构建全世界最大的免费知识库,但是仍然面临知识缺失严重的问题。
  • DBPedia:早期的语义网项目,意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。
  • YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。
  • Babelnet:类似于WordNet的多语言词典知识库,目标是解决WordNet在非英语语种中数据缺乏的问题。
  • NELL:是卡内基梅隆大学开发的知识库,主要采用互联网挖掘的方法从WEB自动抽取三元组知识。
  • 微软的Concept Graph:以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph是以概念定义和概念之间的IsA关系为主。
  • OpenKG:中文知识图谱资源库。
  • cnSchema:开放的中文知识图谱Schema

CYC 常识知识库

7.png

Wordnet:词典知识库

8.png

ConceptNet:常识数据库

9.png

Freebase

10.png

Wikidata:目标是构建全世界最大的免费知识库

11.png

DBPedia:早期的语义网项目

12.png

YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据

13.png

Babelnet:类似于WordNet的多语言词典知识库

14.png

NELL:是卡内基梅隆大学开发的知识库

15.png

微软的Concept Graph:以概念层次体系为中心的知识图谱

16.png

OpenKG:中文知识图谱资源库

17.png

cnSchema:开放的中文知识图谱Schema

18.png

知识图谱相关技术简介

19.png

知识表示

知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。

基于数理逻辑的知识表示

  • RDF: 三元组的断言模型
    20.png
  • RDF Graph: 基于数据模型的有向图
    21.png
  • RDFS: 定义简单的vocabulary和schema
    22.png
  • RDF的序列化格式,OWL、OWL extends RDF Schema、SPARQL、
    23.png
  • Ontology :Web Ontology Language
    Ontology in Philosophy
    Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well as the basic categories of being and their relations.----Merriam-Webster
    Ontology in Computer Science and Artificial Intelligence
    An ontology is a description (like a formal specification of a program) of the concepts and relationships that can formally exist for an agent or a community of agents.______ Tom Gruber, Founderof Sin
    Web Ontologies
    Ontologies based on web standards such as RDFS/OWL. OWL is based on Description Logic, a very very long history of research in Artificial Intelligence.
    24.png
25.png
  • SPARQL: 基于RDF数据模型的查询语言


    26.png

    27.png
  • JSON-LD(数据交换格式)


    28.png
  • RDFa HTML5 MicroData(在网页中嵌入语义数据)


    29.png

知识图谱分布式 表示

在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密低维的向量空间


30.png

知识抽取

知识抽取流程NLP+KR

31.png

知识抽取的主要方法

知识工程

  • 正则表达式
  • 模版匹配
    BootStrap:从种子数据中识别partterns,用于抽取更多的数据,提取更多的partterns
  • 规则约束
    POS,NER约束,距离约束

基于本体的抽取

  • 知识挖掘推理
    PRA基于图的抽取
    TransE系列 基于Embedding的抽取

基于模型的抽取

模型:SVM,logistic model,条件随机场,LSTM循环神经网络

知识存储

  • 知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题
  • 典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储
  • 在实践中,多为混合存储结构,图存储并非必须

知识问答(KBQA)

KBQA(Knowledge-Based Question Answering )基于知识库的问题回答
以直接而准确的方式回答用户的自然语言的提问的自动问答系统,将构建下一代搜索引擎的基本形态。


32.png

KBQA的基本实现流程

33.png

知识推理

知识推理,基于已知的事实推出未知的事实的计算过程。大部分搜索引擎都已经支持一定的推理能力。例如百度输入,姚明的女儿的妈妈的老公

知识推理的方法分类

按解决方法分类:

  • 基于描述逻辑的推理
  • 基于规则挖掘的推理
  • 基于概率逻辑的推理
  • 基于表示学习与神经网络的推理

按照推理类型分类

  • 缺省推理
  • 连续文化推理
  • 空间推理
  • 因果关系推理

基于描述逻辑的推理

描述逞辑( description logic )是一种用于知识表示的送辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。描述逆辑是当前语}义网发展中本体的理论基础。
主要方法:

  • 基于表运算( Tableaux )及改进的方法: FaCT + +、 Racer 、 Pellet Hermit 等.
  • 基于一阶查询重写的方法( ontology based data access , 基于本体的数据访问).
  • 基于产生式规则的算法(如 rete ) : Jena 、 Sesame 、 OWLIM 等.
  • 基于 Datalog 转换的方法知 KAON 、 RDFox 等。
  • 回答集程序 Answer set programming

基于统计规则挖掘的推理

34.png

基于表示学习与神经网络的推理

35.png

知识融合

知识融合,其它相关叫法: Record Linkage , Entity Resolution , Data L inking , Knowledge Fusion , Entity Alignment … …
都是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息

知识融合典型工具Dedupe

Dedupe ,基于 Python 的工共包,实现 T 包括 fuzzy matching , deduplication , entity resolution 在内的常见任务。主要处理流程是先对所有 records 通过 Clustering / Blocking 的方法进行分组,然后在组内部通过计算相似度特征和机荞学习分类模型对任一一对 records 进行预浏是否为同一实体。
适合于两个数据集有相似的结构,如果两个数据集的实体属性个数差异很大,不建议采用。

知识融合典型工具LIMES

Limes : A Time 一 Efficient Approach for Large 一 Scale Link Discovery on the Web of Data . IJCAI20 13
专门针对镬接数据 Linked Data 设计的健接框架,不要求两个数据集的实体共有相似的结构
可灵活配置匹配规则,白定义距离计算模型,也支持基于 Active Leaming 的机荞学习方法

知识众包

  • Wikibase
  • Schema.ORG

知识图谱典型应用案例

知识图谱的案例涉及:医疗健康、金融、电商、出版、农业、政府、电信、数字图书馆等领域。

36.png
37.png
38.png
39.png
40.png
41.png
42.png
43.png
44.png

你可能感兴趣的:(知识图谱概论-王昊奋)