KG

一、中文知识图谱的构建

前情提要

  1. 知识图谱的本体学习
    • 术语抽取
    • 同义关系学习
    • 概念概念
    • 分类学关系学习
    • 非分类学关系学习
    • 公理和规则
  2. 实体层学习
    • 实体学习
    • 实体数据填充
    • 实体对齐
1545532394958.png

(一)、通用知识图谱的构建

通用知识图谱可用数据源

  • 结构化数据
  • 机器可读的开放本体和词典
  • 开放链接数据和开放知识库
  • 行业知识库好行业垂直网站
  • 在线百科(维基、互动、百度)
  • 文本

通用知识图谱构建过程

(1)概念和实体的学习

  • 从百科中抽取概念和实体

    • 位于分类系统中的类别标签都直接视为概念

    • 其他类别标签也是概念的候选,但是不能直接选取为概念:(空类别标签、仅包含自己的类别标签):出现在两个或三个百科中

    • 从上下位关系层次中抽取概念:当把最终得到的上下位关系组织成一个类别系统时,不是位于最低层(椰子结点)的均视作概念

  • 摘要信息

(2)实体对齐(同义词关系学习)

因为百科等平台是多人编辑的,就存在一些同义词需要去重

  • 从开放链接数据中抽取同义关系
    • 使用特定方式描述同义关系:“means” 、“owl:sameAs”。
  • 同一百科中的实体对齐
    • 重定向
    • 信息模块:中文别称、别名
  • 不同百科间的实体对齐
    • 名称匹配
  • 基于语言学模式方法
    • “X又名Y”、“X别称Y”
  • 基于SVM的自监督百科实体对齐方法(百科间实体)
  • 基于CRF的开放同义关系学习

(3)上下位关系学习

  • 从开放数据集中抽取上下位关系
    • 按照数据集编写相应的规则
  • 百科中抽取上下位关系
    • 类别之间(概念层次关系)
    • 类别和文章之间(实体与概念的从属关系)
  • 基于语言学模式的上下位关系抽取
    • 固定的语言模式用于描述上下位关系
    • “X是一种Y”、“X如Y、Z等”
  • 基于CRF的开放上下位关系学习方法

(4)属性学习

  • 概念的属性学习
    • 编写相应的规则从开放链接数据集中获取属性
    • 从百科实体的属性往上规约
    • 人工检验
  • 从百科中抽取实体属性
    • 信息模块

(二)、行业KG的构建

  • 构建方法的概述
    • 自顶向下和自底向上两种方式相结合
    • 从结构化的关系数据库中的信息为起点,进而扩展到非结构化数据
    • 人工编辑数据模式

可用数据源

  • 从结构化数据中学习(D2R)
    • 现有工作
      • D2RQ:描述关系数据库的数据模式与RDF模式及OWL映射关系的声明式语言
      • D2R Sever:把关系数据库中的数据发布到语义网中
      • 不足:只完成虚拟和映射,不生成具体的RDF数据;需要掌握RDF和SPARQL知识,使用门槛高
    • D2RML
      • 使用XML描述,易于理解和使用
      • 不需要掌握RDF和SPARQL知识,降低了使用门槛
  • 行业数据源解析
    • 行业网站中大都通过模板来生成
    • 为保证准确度,使用人机结合的半自动解析方法
      • 首先使用聚类算法对页面依据结构进行归类
      • 机器自动构建模板,人工进行模板核验
  • 从开放链接数据和百科中学习知识
    • 开放链接数据、知识库、百科和文本仍然是行业知识图谱的重要数据来源
  • 从文本中学习知识
    • 与通用知识图谱学习类似(基于规则+人机交互)

二、KG的产业化应用

知识图谱图书馆应用

  • 可视化知识图谱编辑器
  • 知识抽取和学习
  • 近4千万书籍论文实体链接

专利图谱应用

  • 海量专利文档图谱语义化检索
  • 专利大数据语义检索
  • 专利图谱关联分析

企业图谱应用

  • 全国3千万企业360°全息画像

  • 完整的企业社交谱系

  • 客观的企业风险评价和财务实力洞察

  • 已应用于券商、银行、P2P等等追踪企业动态的场景

1545568104701.png

三、总结和展望

使用KG对现有的知识及关系进行整理融合形成一个新的组织形式。

(本文根据上海海翼知信息科技有限公司 胡芳槐讲座整理)

你可能感兴趣的:(KG)