01 基本概念

1 什么是知识图谱

  • 知识图谱概念:
    • 一种图模型来描述知识和建模世界万物之间的关联关系的技术方法
    • 组成:
      • 节点:
        • 实体:一个人,一本书,主机
        • 抽象的概念:人工智能、知识图谱,进程
      • 边:
        • 实体的属性:姓名、书名
        • 实体间的关系:朋友、配偶
  • 最初的理想:将基于文本链接的万维网转化成基于实体链接的语义网。
  • 1989:相比基于树的层次化组织方式,以链接为中心和基于图的组织方式更加适合互联网这种开放的系统,演化成今天的World Wide Web
  • 1998:Semantic Web
    • 仍然基于图和链接的组织方式,
    • 只是图中的节点代表的不再是网页,而是客观世界中的实体,
    • 超链接也被增加了语义描述,具体标明实体之间的关系。
    • 相比于传统的网页互联网,本质是数据的互联网或事物的互联网
    • 是传统人工智能与Web融合发展的结果
    • 是知识表示与推理在Web中的应用
    • 面向Web设计实现的标准化的知识表示语言:
      • RDF(Resource Description Framework,资源描述框架)
      • OWL(Web Ontology Language,网络本体语言)
    • 知识图谱可以看作Semantic Web的一种简化的商业实现
  • 作用领域:
    • 语义搜索
    • 智能问答
    • 辅助语言理解
    • 辅助大数据分析
    • 增加机器学习可解释性
    • 结合图卷积辅助图像分类
    • 决策分析
  • 目标:从数据中识别、发现和推断事物与概念之间的复杂关系,是事物关系的可计算模型
  • 知识图谱构建过程:
    • 知识建模
    • 关系抽取
    • 图存储
    • 关系推理
    • 实体融合
  • 利用好知识图谱的前提,利用好如下技术:
    • 知识表示
    • 图数据库
    • 自然语言处理
    • 机器学习

2 发展历史

  • 人工智能
    • 符号派:侧重于模拟人的心智;知识图谱 ; 有学识的人工智能
      • 思考
      • 语言
      • 推理
    • 连接派:侧重于模拟人脑的生理结构;人工神经网络、深度学习;聪明的人工智能
      • 感知
      • 识别
      • 判断
  • 深度学习:
    • 在处理感知、识别和判断等方面表现突出,
    • 模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰;
  • 知识定义:
    • 合理
    • 真实
    • 被相信
  • 知识通过人类观察、学习和思考客观世界的各种现象,总结出:
    • 事实(Fact)
    • 概念(Concept)
    • 规则(Rule)/原则(Principle)
  • 描述、表示和传承知识的技术:
    • 自然语言
    • 绘画
    • 音乐
    • 数学语言
    • 物理模型
    • 化学公式
  • 知识表示是现实世界的可计算模型(Computable Model of Reality)
  • 早期的专家系统:
    • 基于框架的语言:
      • 描述客观世界的类别、个体、属性及关系
      • 较多地被应用于辅助自然语言理解
    • 产生式规则
      • 描述类似于IF-THEN的逻辑结构
      • 适合刻画过程性知识
  • 知识图谱比传统专家系统有如下特点:
    • 无法单一依靠人工和专家构建
      • 传统专家系统Cyc ,仅包含700万条事实描述;20万条语义关系
      • 阿里巴巴2017年8月包含核心商品数据的知识图谱已达百亿级别

3 知识图谱价值

​ 最早的应用是提升搜索引擎的能力,知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰富的应用价值:

  • 辅助搜索:
    • 传统搜索是依靠网页之间的超链接实现网页的搜索;
    • 语义搜索是直接对事物进行搜索,这些事物可能来自文本、图片、视频、音频、Iot设备等各种信息资源;
    • 知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索
  • 辅助问答
    • 基于语义解析
    • 基于图匹配
    • 基于模版学习
    • 基于表示学习和深度学习
    • 基于混合模型
  • 辅助大数据分析:辅助进行数据分析与决策
    • 通过知识图谱和语义技术增强数据之间的关联
    • 知识图谱被广泛用来做为先验知识从文本中抽取实体和关系,如远程监督中的作用
    • 辅助实现文本中的实体消岐(Entity Disambiguation)、指代消解和文本理解
    • 预先抽取数据的语义,建立数据之间的逻辑,并依靠逻辑推理方法来实现数据分析
  • 辅助语言理解:
    • 深度语义理解
    • 当一个人听到一句话或看到一段句子的时候,会使用自己所有的知识和智能去理解,不仅包括语法、也包括拥有的词汇知识、上下文知识,更重要的是对相关事物的理解
    • 让机器能理解人类的语义
  • 辅助设备互联:
    • 机器之间的对话,也需要技术手段来表示和处理机器语言的语义;
    • 语义技术可以辅助设备之间的语义互联
    • 设备数据的语义和人类语言的语义也需要适配。
    • 2012年成立的OneM2M,全球最大物联网国际标准化组织

4 技术流程

知识图谱用于表达更加规范的高质量数据。

  • 采用更加规范而标准的概念模型、本体术语和语法格式来建模和描述数据
  • 通过语义链接增强数据之间的关联
  • 表达规范、关联性强的数据在改进搜索、问答体验、辅助决策分析和支持推理等多个方面 都能发挥重要作用

知识图谱的方法论涉及:

  • 知识表示
  • 知识获取
  • 知识处理
  • 知识利用

一般步骤如下:

  1. 确定知识表示模型
  2. 根据数据来源选择不同的知识获取手段
  3. 综合利用知识推理、知识融合、知识挖掘等技术对构建的知识图谱进行质量提升
  4. 根据场景需求设计不同的知识访问与呈现方法,如:
    • 语义搜索
    • 问答交互
    • 图谱可视化分析

4.1 知识来源

来源可以如下:

  • 文本
  • 结构化数据库:
    • 已有的结构化数据库通常不能直接作为知识图谱使用,而需要将结构化数据定义到本体模型之间的语义映射,再通过编写语义翻译工具实现结构化数据到知识图谱的转化。
    • 还需要综合采用实体消岐、数据融合、知识链接等技术,提升数据的规范化水平,增强数据之间的关联
  • 多媒体数据
  • 传感器数据:
    • 对传感器数据进行语义化
    • 定义符合语义标准的数据接口
    • 对传感数据进行语义封装和对传感数据增加上下文语义描述
  • 人工众包:打标注

4.2 知识表示与Schema工程

  • 知识表示定义:
    • 用计算机符号描述和表示人脑中的知识,以支持机器模拟人的心智进行推理的方法与技术。
    • 决定了图谱构建的产出目标
      • 语义描述框架(Description Framework)
      • Schema与本体(Ontology):定义知识图谱的类集、属性集、关系集和词汇集
      • 知识交换语法(Syntax):定义知识实际存在的物理格式,如Turtle、JSON
      • 实体命名及ID体系:定义实体的命名原则及唯一标识规范
  • 基本描述框架:如万维网的RDF。
    • 数据模型(Data Model)
    • 逻辑结构(Structure)
  • 按知识类型,知识图谱可分为:
    • 词(Vocabulary):以词为中心,并定义词与词之间的关系,如WordNet、ConceptNet
    • 实体(Entity):以实体为中心,并定义实体之间的关系、描述实体的术语体系
    • 关系(Relation)
    • 事件(Event):一种复合的实体;
    • 术语体系(Taxonomy)
    • 规则(Rule)
  • W3C的RDF把三元组(Triple)作为基本的数据模型,包含主语(Subject)、谓语(Predicate)、宾语(Object)

4.3 知识抽取

知识抽取任务可以分为:

  • 概念抽取
  • 实体识别
  • 关系抽取
  • 事件抽取
  • 规则抽取

传统专家系统主要靠专家手工录入;现代知识图谱的构建:

  • 通常大多依靠已有的结构化数据资源进行转化,形成基础数据集;
  • 再依靠自动化知识抽取和知识图谱补全技术,从多种数据来源进一步扩展知识图谱;
  • 并通过人工众包进一步提升知识图谱的质量;

结构化和文本数据是目前主要的知识来源:

  • 从结构化数据库获取知识一般使用现有的D2R工具,如:
    • Triplify
    • D2RServer
    • OpenLink
    • SqarqlMap
    • Ontop
  • 从文本中获取知识主要包括实体识别和关系抽取
    • 基于特征模版的方法
    • 基于核函数的监督学习方法
    • 基于远程监督的方法:
      • 利用一个大型的语义数据库自动获取关系类型标签。
      • 标签可能是含有噪声的,但是大量的训练数据在一定程度上可以抵消这些噪声
    • 基于深度学习的监督

4.4 知识融合

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中获取知识输入。当多个知识库融合或将外部关系数据库合并到本地只是库时,需要处理两个层面的问题:

  • 通过模式层的融合,将新得到的本体融入已有的本体库中,以及新旧本体的融合;

  • 数据层的融合,包括实体的指标、属性、关系以及所属类别,主要是如何避免实例以及关系的冲突问题,造成不必要的冗余

    • 实体和关系(包括属性)元组的融合,主要是实体匹配或者对齐
      • 实体对齐包括实体消岐和共指消解,即判断同名实体是否代表不同的含义以及知识库中是否存在其他命名实体表示相同的含义。
      • 实体消岐专门解决同名实体产生歧义的问题,通常采用聚类法,
      • 如何定义实体对象与指称项之间的相似度,常用方法:
        • 空间向量模型
        • 语义模型
        • 社会网络模型
        • 百科知识模型
        • 增量证据模型
      • 最新的方式:
        • 知识图谱签入方法进行实体对齐
        • 引入人机协作方式提升实体对齐质量
    • 对新增实体和关系进行验证和评估,以确保知识图谱的内容一致性和准确性
      • 通常采用评估过程中为新加入的知识赋予可信度值,据此进行过滤和融合

4.5 知识图谱补全与推理

常用的补全方法包括:

  • 基于本体推理的补全,主要针对TBox,及概念层进行推理,也可以用来对实体级的关系进行补全
  • 知识补全算法实现基于图结构和关系路径特征的方法,如:
    • 随机游走获取路径特征的PRA算法
    • 基于子图结构的SFE算法
    • 基于层次化随机游走模型的PRA算法
    • 以上算法共同特点是通过两个实体节点之间的路径,以及节点周围图结构提取特征,并通过随机游走算法降低特征抽取的复杂图,然后叠加线性的学习模型进行关系的预测
    • 主要依赖图结构和路径的丰富程度
  • 基于表示学习和知识图谱嵌入的链接预测:
    • 简单的预测模型:一般只能实现单步的推理
      • 翻译模型
      • 组合模型
      • 神经元模型
    • 更为复杂的模型:
      • 向量空间引入随机游走模型:在同一个向量空间中将路径与实体和关系一起表示出来再进行补全的模型
  • 文本信息也被用来辅助实现知识图谱补全:
    • 将文本中的实体和结构化图谱中的实体对齐,然后利用双方的语义信息辅助实现关系预测或抽取;
    • 这类模型一般包括三个部分:
      • 三元组解码器:将知识图谱中的实体和关系转化为低维向量
      • 文本解码器:从文本语料库中学习实体(词)的向量表示
      • 联合解码器:保证实体关系和词的嵌入向量位于相同的空间中,并集成实体向量和词向量

4.6 知识检索与知识分析

知识检索的实现形式主要包括:

  • 语义检索
  • 智能问答

5 相关技术

  • 知识图谱是交叉技术,包含如下:
    • 人工智能
    • 数据库
    • 自然语言处理
    • 机器学习
    • 分布式系统

5.1 知识图谱与数据库系统

  • 传统关系型数据库无法有效适应知识图谱的图数据模型
  • 知识图谱领域形成了RDF数据的三元组库(Triple Store)
  • 数据库领域开发了管理属性图的图数据库(Graph DataBase)
  • 知识图谱的主要数据模型:
    • RDF图:
      • 遵守W3C标准
      • 三元组库主要是由Semantic Web领域推动开发的数据库管理系统
      • 查询语言SPARQL,语法上借鉴了SQL,属于申明式
        • 三元组模式(Triple Pattern)
        • 基本图模式(Basic Graph Pattern)
        • 属性路径(Property Path)
    • 属性图
  • 查询语言:
    • 声明式
      • Cypher:开源图数据库Neo4j中实现的图查询语言
      • PGQL:Oracle开发的图查询语言
      • G-Core:LDBC组织设计的图查询语言
    • 导航式
  • 基于三元组库和图数据库能够提供的知识图谱数据存储方案:
    • 基于关系存储方案:
      • 三元组表存储方案:
        • 主谓宾一行三列的记录
        • 简单明了,行数与知识图谱的边数一样
        • 知识图谱查询翻译为SQL后自连接操作太多,效率慢
      • 水平表存储方案:
        • 每行记录存储知识图谱中一个主语的所有谓语和宾语,相当于知识图谱的邻接表
        • 所需列数目过多,表中产生大量空值,无法存储多值宾语
      • 垂直划分存储方案:
        • 每种谓语简历一张两列的表(主、宾),
        • 支持“主语-主语”作为连接条件的查询操作的快速执行
        • 有效解决了空值问题和多值宾语问题
        • 大规模知识图谱谓语表数目过多
        • 复杂查询表连接过多
        • 更新代价大
      • 六重索引存储方案:
        • 将三元组全部6种排列对应的建立6张表
        • 通过“空间交换时间”有效解决了自连接问题
        • 需要个增多存储空间开销和索引更新维护代价
      • DB2RDF存储方案:
        • 一种较新的基于关系的知识图谱存储方案,是以往存储方案的一种权衡优化
        • 三元组的灵活性表现在“行维度”上,无论多少行,只有3列固定不变
        • DB2RDF将这种灵活推广到了“列维度”,列名称不再和谓语绑定,将同一主语的所有谓语和宾语动态的分配到某列
    • 面型RDF的三元组库
      • RDF4J:Eclipse基金会旗下的开源孵化项目
        • 功能:RDF数据的解析、推理和查询等
        • 存储机制:内存、磁盘
        • 支持全部的SPARQL 1.1 查询和更新语言
        • 使用访问本地RDF库相同的API访问远程RDF库
        • 支持所有主流RDF数据格式
      • RDF-3X:为RDF优化设计的物理存储方案和查询处理方法,是实现六重索引的典型系统
      • gStore:
        • 底层存储使用RDF图对应的标签图
        • 建立”VS树“索引结构以加速查找
        • 利用“VS树”索引提供的摘要图,大幅消减SPARQL查询的搜索空间,以加快查询速度
      • Virtuoso:
        • 支持关系数据、对象-关系数据、RDF数据、XML数据和文本数据的统一管理
        • 支持W3C的Linked Data系列协议
      • AllegroGraph:
        • 遵循对W3C语义Web相关标准的严格支持,包括:RDF、RDFS、OWL和SPARQL
        • 对语义推理有较为完善的支持
        • 支持动态物化的RDFS++推理机、OWL2 RL推理机、 Prolog规则推理系统
      • GrapDB:
        • 实现了RDF4J的SAIL层,与RDF4J API无缝对接,即可以使用RDF4J的RDF模型、解析器和查询引擎直接访问GraphDB
        • 良好支持RDF推理功能,其使用内置的基于规则的“前向链”推理机,由显示知识经过推理得到导出知识,并对导出知识进行优化存储
      • Blazegraph:
        • 基于RDF三元组库的图数据库管理系统
        • 实现了Blueprints标准及Gremlin语言
        • 支持真正意义上的集群分布式存储和查询处理
          • 分布式动态分片B+树
          • 服务总线技术
      • Stardog:
        • 支持RDF图数据模型、SPARQL查询语言、属性图模型、Gremlin图遍历语言、OWL2标准、用户自定义的推理与数据分析规则、虚拟图、地理空间查询
        • 多用编程语言与网络接口支持
        • 具备全文搜索、GraphQL查询、路径查询、融合机器学习任务等功能
        • 支持多种不同编程语言和Web访问接口
    • 原生图数据库
      • Neo4j:
        • 流行度最高的图数据库产品
        • 不足之处:
          • 社区版是单机系统
          • 企业版支持高可用集群
          • 与分布式图存储系统的最大区别在于每个节点上存储图数据库的完整副本,并非将图数据划分为子图进行分布式存储
          • 如果图数据超过一定规模,系统性能就会因为磁盘、内存等限制而大幅降低
      • JanusGraph:
        • 存储后端和查询引擎是分离的,是一个分布式图数据库
        • 可使用分布式BigTable存储库Cassandra或HBase作为存储后端
        • 主要缺点:
          • 分布式查询功能仅限于基于Cassandra或HBase提供的分布式读写实现的简单导航查询
          • 对于很多稍复杂的查询类型,目前还不支持真正意义上的分布式查询处理:子图匹配查询、正则路径查询
      • OrientDB:
        • 支持图、文档、键值、对象、关系等多种数据模型
        • 底层实现主要面向图和文档数据存储管理的需求设计
        • 数据记录之间的关联并非关系数据库的主外键的引用,而是通过记录之前直接的物理指针
      • Cayley:
        • 轻量级开源图数据库
        • 目标是成为开发者管理Linked Data和图模型数据(语义Web、社会网络)的有效工具

总结:

  • 基于关系的存储系统继承了关系数据库的优势,成熟度较高,在硬件性能和存储容量满足的前提下,通常能够适应千万到十亿三元组规模的管理。
    • Oracle12C配上空间和图数据扩展组件可以管理的三元组数量可达1.08万亿条
    • 稍高配置的单机系统和主流RDF三元组数据库(Jena、RDF4J、Virtuoso)完全胜任百万到上亿的三元组的管理
  • 具备分布式存储与查询能力的数据库系统(商业的GraphDB和BlazeGraph、开源的JanusGraph)可以管理几亿到十几亿以上大规模的RDF三元组;
  • 以Neo4j为代表的图数据库系统发展迅猛,使用图数据库存储管理RDF三元组也是一种很好的选择
    • 目前大部分图数据库还不能直接支持RDF三元组存储
    • 可采用数据转换方式,先将RDF预处理为图数据支持的数据格式(如属性图模型),再进行后续管理操作
  • 还没有一种数据库系统被公认为是具有主导地位的知识图谱数据库
  • 随着三元组库和图数据库的相互融合发展,知识图谱的存储和数据管理手段将愈加丰富和强大

5.2 知识图谱与智能问答

  • 知识问答依托于一个大型知识库:

    • 知识图谱
    • 结构化数据库
  • 将用户的自然语言问题转换成结构化查询语句(如SPARQL、SQL),直接从知识库中导出用户所需的答案

  • 知识问答聚焦于解决事实型问答

  • 事实型问题按问题类型:

    • 单知识点问题
    • 多知识点问题
  • 事实型问题按问题领域:

    • 垂直领域
      • 知识图谱规模更小
      • 精度更高
      • 知识问答的质量更容易提升
    • 通用领域
  • 攻克知识问答的关键在于:

    • 理解并解析用户提出的自然语言问句
    • 自然语言处理
    • 信息检索
    • 推理等多个领域的不同技术
  • 研究方法可分为三大类:

    • 基于语义解析
    • 基于信息检索
    • 基于概率模型
  • 单知识点问答已接近人类水平

  • 更多的精力是解决复杂的多知识点事实型问答:

    • 自然语言现象更丰富,关系词的词汇组着性、多关系词间语序等
    • 研究如何将多知识点问题转化为单知识点问题
  • 模型应具备更强的推理能力和更好的可解释性:

    • 更强的推理能力满足用户的复杂提问需求
    • 更好的解释性使用户在“知其然”也能“知其所以然”

5.3 知识图谱与机器推理

  • 推理是指基于已知的事实或知识推理得出未知的事实或知识的过程
  • 典型推理包括:
    • 演绎推理
    • 归纳推理
    • 溯因推理
    • 类比推理
  • 推理主要作用是对知识图谱进行补全和知识图谱质量的校验
    • 推理出新的知识
    • 识别出错误的知识
  • 知识图谱的知识:
    • 概念层:概念之间的包含关系推理
    • 实体层:主要包括链接预测与冲突检测
    • 实体层与概念层之间:主要包括实例检测
  • 推理方法:
    • 基于规则的推理:通过定义或学习知识中存在的规则进行推理
      • 规则推理在大型知识图谱上的效率受限于它的离散性
      • Cohen提出了一个可微的规则推理机TensorLog
      • 硬逻辑规则:
        • 每条规则的真值都为1,即绝对正确
        • 人工编写的规则多为硬逻辑规则
        • 硬逻辑规则可写成知识图谱本地中的SWRL规则,然后通过如:Pellet、Hermit等本体推理机进行推理
      • 软逻辑规则:
        • 每条规则的真值区间为0到1之间的概率
        • 规则挖掘系统的结果多为软逻辑规则
        • 起学习过程一般是基于规则中结论与条件的共现特征
        • 软逻辑可通过真值重写转化为硬逻辑规则
      • 主要优点:
        • 比较接近人思考问题时的推理过程
        • 结论可解释
        • 已经沉淀的规则具有较好的演绎能力
    • 基于分布式表示学习的推理
      • 核心是将知识图谱映射到连续的向量空间中,并未知识图谱中的元素学习分布式表示为低维稠密的向量或矩阵
      • 通过分布式表示之间的计算完成隐式的推理
      • 多数表示学习方法以单步关系即单个三元组为输入和学习目标,不同的分布式表示学习方法对三元组的建模基于不同的空间假设
    • 基于神经网络的推理
      • 通过神经网络的设计模拟知识图谱推理;
      • NTN用一个双线性张量层判断头实体和尾实体的关系;
      • ConvE等在实体和关系的表示向量排布出的二维矩阵上采用卷积神经网络进行链接预测;
      • R-GCN通过图卷积网络捕捉实体的相邻实体信息
      • IRN采用记忆矩阵以及以递归神经网络为结构的控制单元模拟多步推理的过程
      • 基于神经网络的知识图谱推理表达能力强,在链接预测等任务上取得了不错的效果
      • 网络结构的设计多样,能满足不同的推理需求
    • 混合推理
      • 结合了规则、表示学习和神经网络
        • NeuralLP是一种可微的知识图谱推理方法,融合了关系的表示学习、规则学习以及循环神经网络,由LSTM生成多步推理中的隐变量,并通过隐变量生成在多步推理中对每种关系的注意力
        • DeepPath和MINERVA用强化学习方法学习知识 图谱多步推理过程中的路径选择策略
        • RUGE将已有的推理规则输入知识图谱表示学习过程中,约束和影响表示学习结果并取得更好的推理效果
        • 对抗生成网络(GAN)提升知识图谱表示学习过程中的负样本生产效率
      • 混合能将各方法结合实现优势互补,能够同时提升推理结果的精确性和可解释性
      • 基于规则的知识图谱推理
        • 研究主要分为两部分:
          • 自动规则挖掘系统
          • 基于规则的推理系统
        • 目的:提升规则挖掘的效率和准确度
        • 用神经网络的设计代替知识图谱上的离散搜索和随机游走是比较值得关注的方向
      • 基于表示学习的知识图谱推理
        • 研究主要趋势:
          • 一方面提高表示学习结果对知识图谱中含有的语义信息的捕捉能力,目前就是链接预测任务上
          • 利用分布式表示为桥梁,将知识图谱与文本、图像等异质信息结合,实现信息互补以及更多样化的综合推理
      • 基于神经网络的知识表示推理:
        • 研究的主要趋势:更加有效和有意义的神经网络结构,来实现更加高效且精确的推理
        • 通过对神经网络中间结果的解析实现对推理结果的部分解释是比较值得关注的方向

5.4 知识图谱与推荐系统

  • 推荐算法的痛点:
    • 启动阶段往往效果不佳,存在冷启动问题
    • 用户历史记录数据往往较为稀疏,使得推荐算法的性能很难让人满意
  • 知识图谱作为先验只是,可以为推荐算法提供语义特征,引入他们可以有效的缓解数据稀疏问题,提升模型性能
  • 三类基于知识图谱的推荐模型:
    • 基于知识图谱中元路径的推荐模型
      • 研究院利用图上路径的连通信息计算物品之间的相似度
      • 利用元路径在图上传播用户偏好,并结合传统的协同过滤模型,最终实现了个性化的推荐模型
      • 路径需人工选择
    • 基于概率逻辑程序的推荐模型
      • 将推荐问题形式化为逻辑程序
      • 逻辑程序对目标用户按查询得分高低输出推荐物品的结果,最终寻找到目标用户推荐物品
      • 解决了路径人工选择的问题
      • 无法有效利用物品与物品之间的关系和用户与用户之间的关系
    • 基于知识图谱表示学习技术的推荐模型
      • 获得知识图谱中实体和关系的低维稠密向量,其可以在低维的向量空间中计算实体间的关联性
      • 与传统的基于符号逻辑在图上查询和推理的方法相比,大大降低了计算的复杂度;

5.5 区块链与去中心化的知识图谱

语义网早期的理念:

  • 知识的互联:知识图谱一定程度上实现了该方面
  • 去中心化架构:强调知识已分散的方式互联和相互连接,知识的发布者拥有完整的控制权
  • 知识的可信

通过区块链的技术实现去中心化的知识互联,包含如下内容:

  • 去中心化的实体ID管理
  • 基于分布式账本的属于
  • 实体命名管理
  • 基于分布式账本的知识溯源
  • 知识签名
  • 权限管理等

知识图谱数据来源广泛,且知识的可信度量需要作用到实体和事实级别,如何有效对知识图谱中的海量事实数据进行管理追踪鉴真

知识图谱引入智能合约中,帮助解决智能合约内生知识不足的问题,解决传统智能合约数据不闭环的问题。

5.6 总结

  1. 知识图谱是一种新型的信息系统基础设施
  2. 知识图谱要求用更规范的语义提升企业数据的质量
  3. 知识图谱用链接数据的思想提升企业数据之间的关联度
  4. 终极目标:
    • 非结构化-》结构化
    • 无显示关联-》高度关联
    • 粗糙-》高质量
  5. 技术维度:
    • 知识表示
    • 关系抽取
    • 图数据存储
    • 数据融合
    • 推理补全
  6. 知识图谱的构建和利用非单个领域的单一技术,需注重系统思维
  7. 知识图谱作为AI的底层支撑从鲜有问津到逐步升温,是通往未来的必经之路

你可能感兴趣的:(01 基本概念)