知识抽取基本定义
实现自动化构建大规模知识图谱的重要技术。目的在于从不同来源、不同结构的数据中进行知识提取并存储在知识图谱中。
知识抽取子任务
命名实体识别(如:人物、组织、地点、时间等);
关系抽取(实体与实体之间的关系)
事件抽取(识别出文本中关于事件的相关信息,并以结构化的形式呈现)
知识抽取相关竞赛
1.消息理解会议(MUC):指出召回率、精确率是评价信息抽取系统性能的重要指标。
2.自动内容抽取(ACE): 该评测涉及汉语、英语以及阿拉伯语,主要包括实体检测与跟踪、关系检测与表征、事件检测与表征。
3.知识库填充(KBP):目标是开发和评估从非结构化文本中获取知识填充知识库的技术。
其独立子任务主要包括:实体发现与链接、槽填充、事件跟踪、信念与情感。
4.语义评测:增进人们对词义与多义现象的理解。
实体抽取
1.基于规则的方法
(将规则与文本字符串匹配,小数据集有高的准确率与召回率,数据集大的话,
构建周期长,可移植性差)
2.基于统计模型的方法
常用模型:隐马尔可夫模型、条件马尔可夫模型、最大熵模型、条件随机场模型
涉及三个方面:训练语料标注、特征定义、模型训练(CRF)
3.基于深度学习的方法
目前用于命名实体识别的神经网络有:CNN、RNN、AM(引入注意力机制)。
不同的神经网络结构在命名实体识别过程中扮演编码器的角色,基于初始输入以及词的上下文信息,得到每个词的新向量表示,最后通过CRF模型输出对每个词的标注结果。
模型:LSTM-CRF模型、LSTM-CNNs-CRF模型。
LSTM-CRF模型(使用长短时记忆神经网络LSTM与CRF结合,分为Embedding层、双向LSTM层、CRF层)
LSTM-CNNs-CRF模型(与上一个模型的差异在于Embedding层加入了每个词 的字符级向量)
关系抽取
基于模板的关系抽取方法
通过模板匹配实现,如:模板1 【X】与朋友【Y】 模板2 【X】的朋友【Y】
基于监督学习的关系抽取方法
该方法是将关系抽取转化成分类问题,在大量标注数据的基础上,训练有监督学习模 型进行关系抽取。
传统的基于监督学习的关系抽取是依赖于特征工程的。近年来,主要是基于深度学习 的关系抽取方法有:流水线方法和联合抽取方法两大类。
流水线方法是将实体识别与关系抽取相互分离的,互不影响的;
联合抽取方法是将实体识别与关系抽取相互结合的;
基于弱监督学习的关系抽取方法
该方法需要大量的训练语料,模型优化更是依赖于大量的训练数据。
主要包括:远程监督方法和Bootstrapping方法。
远程监督方法:从知识图谱中抽取存在目标关系的实体对,然后从非结构化文本 中抽取含有实体对的句子作为训练样例,最后训练监督学习模型进行关系抽取。
Bootstrapping方法:该方法是通过少量的实例作为初始种子集合,然后不断学习 获取关系抽取的模板,从而抽取更多的实例加入种子集合中,不断更新迭代。
事件抽取
事件抽取任务包含的子任务:
识别事件触发词及事件类型
抽取事件元素并判断其角色
抽出描述事件的词组或句子
事件属性标注
事件共指消解
举例:基于动态多池化卷积神经网络的事件抽取模型,该模型包含:词向量学习、词汇 级特征抽取、句子级特征抽取喝分类器输出等四部分
直接映射(从关系数据库到RDF图数据的简单转换,为定义和比较更复杂的转换提供基础)
R2RML(用于从关系数据库到RDF数据集的自定义映射的语言,提供了在RDF数据模型下 查看现有关系型数据的能力,并可以基于用户自定义的结构和目标词汇表示原有的关系型数据)
相关工具:基于本体的数据库访问系统(OBDA),如: D2RQ、Mastro、Ultrawrap、Morph-RDB、Ontop
半结构化数据是指 不符合关系数据库或其他形式的数据表形式结构,但又包含标签或者其他标记来分离语义元素并保持记录和数据字段的层次结构。
面向百科类数据的知识抽取
面向web网页的知识抽取
知识挖掘是指从已有的实体及实体关系挖掘出新的知识,具体包括知识内容挖掘和知识结构挖掘。
知识内容挖掘(实体链接)
实体指称识别、候选实体生成、候选实体消歧等三个步骤。
实体指称识别:识别出文本中的实体指称
候选实体生成:确定文本中的实体指称可能指向的实体集合。
候选实体消歧:在确定文本中的实体指称和候选实体后,实体链接系统需要为每一个 实体指称确定其指向的实体。
知识结构挖掘(规则挖掘)
归纳逻辑程序设计、路径排序算法
开源工具
DeepDive