知识抽取是知识图谱与NLP的交叉领域;
核心就是NLP的序列标注问题,这里不再赘述;
最开始先是机器学习模型HMM为主,后被深度学习模型取代BiLSTM-CRF;
总结一下HMM模型即可
对于网络的Head部分有这样几个常用的结构
指针网络是将序列标注问题转化为两个子问题:先分块再分类。指针网络会贪婪地从头开始找下一个块结束的位置(开始的位置很显然,第一个块的开始位置是起始点,后面的开始位置都是前面一块的结束位置的后继位置)如上图d所示,在起始块"“后一块的结束块位置是"Jordan”,这样就得到块"Michael Jeffrey Jordan",然后将这个块进行分类确定类别,之后再继续找下一个块的结束位置,找到"was",这样就得到一个新的块"was",再将这个块进行分类,然后这样循环下去直到序列结束。指针网络主要就起到确定块起始位置的作用。
指针网络的铺垫模型
举例说明指针网络的用法: 基于Bert的阅读理解任务,根据输入
输入:
输出: 东汉、唐朝、明朝
其loss函数则为
L o s s = L s t a r t + L e n d Loss = L_{start} + L_{end} Loss=Lstart+Lend
指针网络
指针网络解决的是实体重叠问题,这类问题在NER问题中一般不存在,所以指针网络(PointerNet)最早应用于MRC中,而MRC中通常根据1个question从passage中抽取1个答案片段,转化为2个n元SoftMax分类预测头指针和尾指针。对于NER可能会存在多个实体Span,因此需要转化为n个2元Sigmoid分类预测头指针和尾指针。
将指针网络应用于NER中,可以采取以下两种方式:
实体关系抽取的任务定义:
完整的关系抽取包括实体抽取和关系分类两个子过程。实体抽取子过程也就是命名实体识别,对句子中的实体进行检测和分类;关系分类子过程对给定句子中两个实体之间的语义关系进行判断,属于多类别分类问题。
优缺点
根据使用机器学习方法不同,可以将关系抽取划分为三类:基于特征向量的方法、基于核函数的方法以及基于神经网络的方法。
基于特征向量的方法,通过从包含特定实体对的句子中提取出语义特征,构造特征向量,然后通过使用支持向量机、最大熵、条件随机场等模型进行关系抽取。
基于核函数的方法,其重点是巧妙地设计核函数来计算不同关系实例特定表示之间的相似度。缺点:而如何设计核函数需要大量的人类工作,不适用于大规模语料上的关系抽取任务。
总结
基于递归神经网络的关系抽取: 首先利用自然语言处理工具对句子进行处理,构建特定的二叉树,然后解析树上所有的相邻子节点,以特定的语义顺序将其组合成一个父节点,如下图所示。这个过程递归进行,最终计算出整个句子的向量表示。向量计算过程可以看作是将句子进行一个特征抽取过程,该方法对所有的邻接点采用相同的操作。 每个输入都由一个向量与一个矩阵组成,向量可以通过词向量构成,矩阵表示该词对临词的作用(采用高斯核函数进行初始化) 原论文: emantic Compositionality through Recursive Matrix-Vector Spaces
基于卷积神经网络的关系抽取: 基于卷积神经网络的关系抽取方法接受一个特定的向量矩阵作为输入,通过卷积层和池化层的操作将输入转换成一个固定长度的向量,并使用其他特征进行语义信息汇总,再进行抽取。基于卷积神经网络的关系抽取方法框架如图所示,除了输入层、数据表示层之外,还有窗口层、卷积层、池化层、语义信息汇总层、分类层。 原论文: Relation Classification via Convolutional Deep Neural Network
Piece-wise CNN Model: 是一个对位置敏感的CNN网络, 原论文: Relation Classification via Convolutional Deep Neural Network
多标签关系抽取,传统模型主要关注单标签关系抽取,但同一个句子可能包含多个关系。采用胶囊神经网络
可以帮助实现多标签的关系抽取。
胶囊神经网络
对于半监督学习的假设非常强,可能不太现实,会有很多噪声,所以有如下两个解决方案
而Bootstrapping会产生语义漂移问题,一些解决方案
主流关系抽取模型框架 DeepKE https://github.com/zjunlp/deepke
概念使得人们能更好地理解世界,而知识图谱理解概念则通过isA关系、subclassOf关系来构建
三种概念抽取的方法
浙大知识图谱 OpenConcept http://openconcept.openkg.cn/
事件定义
事件抽取的定义
从无结构文本中自动抽取结构化事件知识:
事件抽取一般分为两步
两种事件识别与抽取的方法
但是深度学习方法需要大量标注样本,而样本难标注,远程监督困难等问题仍然存在;
基于外部弱监督的深度学习模型
百度发表的中文事件抽取模型 DUEE https://ai.baidu.com/broad/subordinate?dataset=duee
基于深度学习的抽取方法依赖海量标注数据,在真实的场景中,数据通常是长尾的(各类别分布不均衡),数据的标注成本大等;在少样本,零样本面临严峻的挑战;对于日新月异的新知识,模型在学习新知识时会遗忘掉以往的知识;