知识抽取与挖掘(一)

知识抽取与挖掘

  • 知识抽取任务定义和相关比赛
  • 面向结构化数据的知识抽取
  • 面向半结构化数据的知识抽取
  • 实践展示:基于百科数据的知识抽取

知识抽取任务定义和相关比赛

  • 知识抽取技术
    实体抽取
    关系抽取
    事件抽取
    知识抽取:从结构化数据,半结构化数据,纯文本数据进行知识抽取。
  • 知识获取关键技术与难点
    从结构化数据库中获取知识:D2R;难点:复杂表数据的处理
    从链接数据中获取知识:图映射;难点:数据对齐
    从半结构化(网站)数据中获取知识:使用包装器;难点:包装器定义,包装器自动生成、更新与维护
    从本文中获取知识:信息抽取;难点:结果的准确性与覆盖率
  • 子任务
    命名实体识别:检测、分类
    术语抽取
    关系抽取
    事件抽取:触发词,“发生爆炸”
    共指消解(指代消解)

相关竞赛和数据集

MUC

  • 任务
    命名实体识别(NER)
    共指消解(CR)

ACE

  • 五大任务
    实体检测和识别(EDR)
    数值检测与识别(VAL)
    时间表达检测与识别(TERN)
    关系检测与识别(RDR)
    时间检测与识别(VDR)

KBP

  • 任务
    实体发现与链接(EDL)
    槽填充(SF)
    事件抽取
    信念和情感
    端到端冷启动知识构建

Semantic Evaluation (SemEval)

实体抽取定义

抽取文本中的原子信息元素

人名,组织/机构名,地理位置,时间/日期,字符值,金额值

序列标注方法

人工特征
词本身的特征

  • 边界特征:边界词概率
  • 词性
  • 依存关系
    前后缀特征
  • 姓氏:李*、王
  • 地名:**省、 **市
    字本身的特征
  • 是否是数字
  • 是否是字符
HMM

有向图模型
生成式模型,找到使P(X,Y)最大的参数
假设特征之间是独立的

CRF

无向图模型
判别式模型,找到使P(Y|X)最大的参数
没有关于特征之间是独立的假设

LSTM+CRF

判别式,端到端,Dropout,特征自动提取

实体识别与链接
  • Wikipedia Miner
  • DBpedia Spotlight
  • OpenCalais
实体链接

消岐,属性消岐,上下文消岐

关系抽取简介

从文本中抽取出两个或多个实体之间的语义关系
方法分类

  • 基于模板的方法
    基于触发词的Pattern
    基于依存句法分析的Pattern
    优点:容易实验,构建简单
    缺点:特定领域需要专家构建,难以维护,召回率很低
  • 监督学习方法
    轻量级特征:实体前后的词,实体的类型,实体之间的距离
    中等量级特征:Chunk序列,词组/phrase
    重量级特征:实体间的依存关系路径,实体间树结构的距离
    深度学习方法特征设计:Position embeddings,Word embeddings, Knowledge embeddings
    方法:
  • Pipeline:CR-CNN模型,Att-CNN模型,Att-BLSTM模型
  • Joint Model:LSTM-RNNs模型
    优点:准确率高,标注数据越多越准确;
    缺点:标注数据成本太高,不能扩展新的关系
  • 半监督学习——远程监督
  • 半监督学习——Bootstrapping
    给定种子集合
    从文档中取出包含种子实体的新闻,将抽取的Pattern去文档集中匹配
    缺点:存在语义漂移问题,准确率较低
  • 弱监督学习方法
事件抽取

从自然语言中抽取事件信息,并以结构化的形式呈现出来。

  • 事件描述
  • 事件触发
  • 事件元素
  • 元素角色
    Joint Inference
    Joint Modeling
    Joint Modeling with Structured Prediction
  • 基于深度学习的事件抽取方法
    基于动态多池化卷积神经网络的事件抽取方法
    扩充语料的方法
    从网络获取事件信息

面向结构化数据的知识抽取

R2RML概述
Triple
数据库表映射
视图映射

面向半结构化数据的知识抽取

  • Zhishi.me

Web 网页数据抽取 - 包装器的生成

包装器:一个软件程序能够将数据从HTML网页中抽取出来,并将它们还原为结构化的数据

  • 手工方法
  • 包装器归纳:网页输入>网页清洗>网页标注>包装器空间的生成>包装器评估>包装器归纳结果
  • 自动抽取
比较 手工方法 包装器归纳 自动抽取
优点 对任何一个网页通用 需要人工标注训练结果 无监督方法,可用到大规模网站的信息抽取
缺点 需对网页数据标注;维护成本高 需人力去标注,可维护性差 需要相似网页作为输入,会抽取出一些无关信息
  • Web table

基于百科数据的知识抽取

实践:佛学知识图谱构建

抽取框架:Wikipedia,zhishi.me
Knowledge Collection
Knowledge Fusion

  • 主语融合
  • 谓语融合
  • 宾语融合
    单值融合,多值融合
  • 对infobox属性进行补全
  • 在线接口
    数据访问地址:www.kg-buddhism.com
    应用:问答微信公众号

你可能感兴趣的:(知识抽取与挖掘(一))