知识图谱-概述

知识图谱

什么是知识图谱

表示

  • 属性图
  • RDF格式

存储

  • RDF存储格式
  • 图数据库

优势

  • 1、在关联查询的效率上会比传统的存储方式有显著的提高。
  • 2、基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。
  • 3、把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

定义

  • 知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
  • 知识图谱是一个巨大的知识网络,网络中的节点表示实体,节点之间的边表示实体和实体之间的关系。
    • 实体包含概念和实例两种。
    • 每个实体还有(属性-值)对来描述实体的内在特性。
    • 知识都可以通过(主语-谓语-宾语)的形式来描述,这种行为称为 三元组,也被称为 事实。

知识图谱分类

  • 不限领域的知识图谱(通用知识图谱)
    • 研究领域
    • DBpedia
    • YAGO
    • Freebase
    • 工程领域
    • Knowledge Graph-Google
    • 知心-百度
    • 知立方-搜狗
  • 限定领域的知识图谱(领域知识图谱)
    • 地理信息领域知识图谱-Geonames
    • 天眼查-企业领域知识图谱

如何构建知识图谱

需要大量结构化的知识转化成知识图谱

四步法

  • 一、领域本体构建
    • 构建出知识图谱的本体结构
    • 本体结构可以理解为知识图谱的框架
    • 具体方法
    • 1、归纳领域概念
      • 领域的核心概念对应的是本体中的类(owl:class),每个核心概念对应着多个实例
      • 例如“国家”概念下对应着“中国”实体、“美国”实体
      • 方法
      • 1、利用统计方法得到领域术语,再从领域术语中得到领域核心概念。
        • 可以通过领域术语的方法来得到领域概念
        • 领域的核心概念是领域术语的子集
        • 领域中的重要术语满足两个条件:
        • 术语在领域相关文档中出现的频率相对较高
        • 术语在领域相关文档中出现的频率远高于在普通文档中出现的频率
        • 领域中的重要术语和文档集合中的关键词非常类似
        • 通过统计学理论和文本挖掘技术可以减少查找范围
      • 2、参考质量较高的知识图谱或数据源
        • DBpedia
        • 一个大规模的通用知知识图谱
      • 3、在众包半自动语义标注步骤中进行完善补充
      • 本体构建的两个基本原则
      • 本体中的类的设计应当秉承独立性和共享性原则。
        • 独立性指的是这个类可以独立存在,不依赖于特定的领域
        • 共享性指的是类是可以共享的,即有被复用的可能和必要。
    • 2、定义领域关系及其约束
      • 关系是对领域中的概念、实例之间的相互作用的描述。
      • 方法
      • 1、利用OpenIE方法对领域文本进行无监督的开放关系抽取,再从中找到有意义的关系。
        • 优点:无需标注语料或其他预处理直接就可以抽取原始文本
        • 缺点:抽取出的结果大多数是无意义的关系。
      • 2、参考质量较高的知识图谱或数据源 Wikidata_和Schema.org
      • 3、根据核心概念和百科信息框来确定关系。每个核心概念下都有很多实例,大多数实例在百科中都有对应的信息框。通过整个同一概念下多个实例的信息框信息,便可以得到该概念下较为重要的关系。
      • 4、众包半自动语义标注过程中补充新的关系。在众包半自动语义标注过程中如果发现有新的关系无法用已有的关系表达时,便说明这是一个新的关系需要补充。
    • 3、本体检查
      • 检查点
      • 1、核心概念的结构是否合理
      • 2、每个概念的合理性、必要性以及相似概念间的辨析
  • 二、众包半自动语义标注
    • 将文本页面众包给多个标注者,根据步骤一构建好的本体,利用语义标注工具标注得到高质量的标注数据。
    • 基于领域本体的语义标注是指在领域本体的指导下从文档中抽取出结构化知识的过程,即将文档中的纯文本知识用RDF语言描述出来。
    • 语义标注的过程
    • 类型标注
      • 将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例
    • 关系标注
      • 找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息。标注时通常将实例及实例间的关系表示为三元组的形式(E1,R,E2),R是实例E1和E2之间的关系
    • 语义标注系统主要需求
    • 1、标注依据
      • 能够导入一个或多个本体描述文件
      • 采用包含本体信息的文件进行配置
    • 2、标注对象
      • 支持对文本文件或静态网页文件的标注
    • 3、标注方式
      • 提供基本的标注功能,包括类型标注和关系标注
    • 4、本体语言
      • 支持目前主流的本体语言,例如RDF(S)、OWL
    • 5、协同式标注
      • 支持大量标注人员的协同式标注
    • 6、标注审核
      • 用户权限控制,包括标注人员和审核人员
    • 7、标注溯源
      • 生成对应只是的同时需要保存将来能够追溯到具体的标注来源这个元数据信息,参考技术Xpointer
    • 8、标注数据存储
      • RDF数据库
      • 例如Sesame
    • 9、共指消解
      • 实例查询,当遇到相同实例的时候可以选择已经存在的实例进行标注,从而避免重新生成新的实例造成的实例共指问题。
  • 三、外源数据补全
    • 将其他来源的结构化程度较好的数据按照本体结构处理后,和标注数据整合在一起。
  • 四、信息抽取
    • 针对知识图谱中较为稀疏的实体或者关系,从文本中进行大规模的抽取和补充。
    • 扩充数据
    • 利用之前得到的标注数据和外源数据,运用机器学习等方法从文本中抽取的RDF三元组数据。
    • 方法
    • 1、实体集扩充
      • 词向量
      • 通过大量词语语料的训练,将每个词语映射到一个固定维度的向量,从而可以根据两个词语的向量之间的余弦距离来刻画两个词语的语义相关性。
        • 例如Word2Vec方法
      • 实体消歧
    • 2、关系抽取
      • 无监督
      • 基于规则的方法
        • 为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述
      • LDA模型
        • 用于识别文本中隐藏的关系类别信息,用词袋的方式来表示每类关系的特征。
      • 有监督
      • 将知识图谱中已有的关系数据作为训练数据,从文本中抽取出相应的三元组。
      • 半监督
      • 基于多语言注意力机制的远程监督方法
        • 通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果
  • Summary: 知识图谱的骨架部分,两个步骤相互迭代。本体构建指导标注,标注中遇到的新的情况又可以反向改进本体结构。保证了知识图谱的准确性。
  • Summary: 互相迭代的关系,将其他来源的结构化数据中的相关知识补充到知识图谱中。

知识图谱的应用

反欺诈

  • 整合多数据源,把非结构化数据通过机器学习、自然语言处理技术变成结构化的数据。

不一致性验证

  • 从已有的关系图谱里推导出新的关系或链接,即知识的推理,或称为“链接预测”。

组团欺诈

  • 通过知识图谱梳理隐含的关系网络,识别潜在的风险。

异常分析

  • 静态分析
    • 给定一个图形结构和某个时间点,从中去发现一些异常点
  • 动态分析
    • 分析其结构随时间变化的趋势。
    • 在短时间内知识图谱结构的变化不会太大。
    • 相关技术
    • 时序分析技术
    • 图相似性计算技术

失联客户管理

  • 挖掘出失联客户的相关更多潜在的新联系人,提高催收成功率

智能搜索及可视化展示

精准营销

  • 知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。

知识图谱的主要技术

挑战

  • 数据的噪声
    • 部分错误数据需要纠正
    • 做离线的不一致性验证
    • 数据的冗余
    • NLP的“消歧分析”
  • 非结构化数据处理能力
    • 如何从非结构化数据里提取出有价值的信息?
    • 机器学习
    • 数据挖掘
    • NLP
  • 知识推理
    • 常用的推理算法
    • 基于逻辑的推理
    • 基于分布式表示方法的推理
    • 当信息量特别多的时候,怎么把这些信息有效地与推理算法结合在一起?
  • 大数据、小样本、构建有效的生态闭环
    • 生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。

主要技术

  • 本体构建
    • 本体-定义
    • 用来描述某个领域内的概念和概念之间的关系,使得它们在共享的范围内具有大家共同认可的、明确的、唯一的定义。
    • 本体-基本特征
    • 共享化
    • 明确化
    • 概念化
    • 形式化
    • 本体构建方法
    • 人工
    • 自动
      • 本体学习
      • 目标:利用知识获取技术、机器学习技术以及统计技术等从数据资源中自动地获取本体知识,降低本体构建的成本。
      • 缺点:覆盖率和准确率很难都表现的好,比较难构建。
    • 半自动
      • 使用统计方法和无监督方法得到的本体知识,结合其他知识图谱的本体知识,构建本体,并在众包半自动语义标注过程中进行完善。
  • 语义标注
    • 概念
    • 对原始数据做标记,使其包含一定的语义信息。
    • 研究领域
    • 利用本体技术和自然语言处理等技术来进行语义标注的算法研究和应用研究。
    • 分类
    • 根据语义标注结果的存储方式分类
      • 嵌入式存储
      • 将标注结果嵌入在原始网页中
      • 标注格式
        • JSON-LD
        • MicroData
        • RDFa
      • 工具
        • Google的结构化数据标记辅助工具
      • 独立存储
      • 将标注结果保存在外部存储中
      • 外部存储
        • 文件
        • 数据库
      • 工具
        • 开源语义标注工具Pundit
    • 根据语义标注的自动化程度分类
      • 手工标注
      • 标注人员直接将语义数据写入到标注文档中
      • 典型案例
        • Wiki的语义版本-Semantic Wiki
      • 半自动标注
      • 由标注人员指定网页或者网页中的文本片段,然后由标注人员选择合适的本体概念(或属性)或者由系统自动显示可选的本体概念(或属性),最后生成并保存语义标注结果。
      • 典型案例
        • Amaya-Annotea项目-W3C主导
        • SMORE
        • Pundit
      • 参考案例
        • 基于Pundit开发的众包半自动语义标注工具
        • 包含功能
          • 标注审核
          • 标注溯源
          • 共指消解
          • 数据存储
      • 自动标注
      • 标注工具可以按照预定的规则自动产生并保存语义标注信息
      • 典型案例
        • AeroDAML
        • 把常见的概念和关系映射到DAML+OIL本体中的类和属性,并采用自然语言处理和信息抽取方法从网页文档中自动生成DAML标记的知识。
        • MnM
      • 缺点
        • 标注质量很难得到保证
  • 信息抽取
    • 实体抽取(命名实体识别)
    • 从文本中自动识别出命名实体
    • 相似任务
      • 实体集扩充
      • 根据种子实体集,从文本中抽取出相同类别的新实体。
      • Bootstrapping方法
        • 根据子实体从文本中抽取出特征模板,然后利用这些模板从文本中抽取出新的实体,再根据新实体从文本中抽取新的特征模板,反复迭代此过程,可以抽取出目标概念下大量的新实体。
        • 最大的问题
        • 语义漂移
          • 随着迭代次数的增加,扩充的新实体会逐渐偏移原来的类别。
    • 关系抽取
    • 从文本中抽取出实体和实体之间的关系,将零散的实体联系起来。
    • 算法
      • 基于规则的方法
      • 需要人工制定较多规则且难以全面
      • 基于机器学习的方法
      • 有监督
        • 需要大量质量较好的标注数据
        • 多分类问题
        • 预先将每个关系定义为一个类别,然后将句子中实体之间的关系划分到预先定义的类别中。
      • 半监督
        • 需要少量标注数据
        • 算法
        • bootstrapping算法
          • 远程监督方法
          • 方法步骤
            • 1、将每种关系的少量三元组作为种子集
            • 2、回标出同时包含种子集中三元组的两个实体的句子作为表征这一关系的训练数据
            • 3、从文本中找出符合这一关系的其他句子,这些句子中的实体和实体之间则很有可能也满足这一关系。
          • 最大的问题
            • 训练数据噪声
            • 包含两个实体的句子的语义关系可能会有很多种,但是回标的时候所有句子被当成了一种语义关系
        • 协同训练算法
        • 标注传播算法
      • 无监督
        • 不需要标注数据
    • 属性抽取
    • 从文本中抽取出实体的属性信息
      • 例如实体“中国”的“面积”、“人口数量”
    • 属性抽取问题也可以看做是关系抽取问题

知识图谱的量化标准

评价标准

  • 覆盖率
  • 准确率

你可能感兴趣的:(人工智能)