参考:http://www.docin.com/p-1775027820.html
从文本中识别实体并抽取实体之间的语义关系
与其他两种方法相比,有监督的学习方法能够抽取更有效的特征,其准确率和召回率都更高。
有监督的关系抽取方法主要包括:
基于核函数的方法[Zhao and Grishamn 2005;Bunescu and Mooney 2006]
基于逻辑回归的方法[Kambhatla 2004]
基于句法解析增强的方法[Miller et al.2000]
基于条件随机场的方法[Culotta et al. 2006]
但是阻碍这些系统效果继续提升的主要问题在于,人工标注训练数据需要花费大量的时间和精力
针对这个局限性,Mintz 等人[Mintz et al. 2009]提出了远程监督(Distant Supervision)的思想。
作者们将纽约时报新闻文本与大规模知识图谱FreeBase进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效的解决了关系抽取的标注数据规模问题。
之后又有人从各个角度对远程监督技术提出了改进方案。
例如:Takamatsu 等人[Takamatsu et al. 2012]改进了实体对齐的技术,降低了数据噪音,提高了关系抽取的总体效果。
Yao 等人[Yao et al. 2010]提出了基于无向图模型的关系抽取方法。
Riedel 等人[Riedel et al. 2010]则增强了远程监督的假设,与[Mintz et al. 2009]相比错误率减少了31%。
以上远程监督技术都假设一个实体只对应一种关系。但是,很多实体之间具有多种关系。例如:“乔布斯创建了苹果公司”,“乔布斯是苹果公司的CEO”。因此,Hoffmann 等人[Hoffmann et al. 2011]提出采用多实例多标签(Multi-Instance Multi-lable)方法对关系抽取进行建模,刻画一个实体对可能存在多种关系的情况。类似地, Surdeanu 等人[Surdeanu et al. 2012]也提出利用多实例多标签和贝叶斯网络来进行抽取。
现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注,句法解析等自然语言处理标注提供分类特征,而自然语言处理标注工作往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。
[Socher et al. 2012]提出使用递归神经网络来解决关系抽取问题。
1. 该方法首先对句子进行句法解析;
2. 然后为句法树上的每个节点学习向量表示;
3. 通过递归神经网络,可以从句法树最顶端的词向量开始,按照句子的句法结构迭代合并,最终得到该句子的向量表示,并用于关系分类。
该方法能够有效地考虑句子的句法结构信息,但同时该方法无法很好的考虑两个实体在句子中的位置和句义信息。
[Zeng et al. 2014]提出采用卷积神经网络进行关系抽取。采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示。通过考虑实体的位置向量和其他相关的词汇特征,句子中的实体信息能够较好地考虑到关系抽取中。
后来,[Santos et al. 2015]还提出了一种新的卷积神经网络进行关系抽取,其中采用了新的损失函数,能够有效地提高不同关系类别之间的区分性。
[Miwa et al. 2016]提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM和树形LSTM同时对实体和句子进行建模。
目前基于卷积神经网络的方法在关系抽取的标准数据集SemEval-2010 Task 8 上取得了最好的效果。
上面介绍的神经网络模型在人工标注的数据集上取得了巨大成功。然而,与之前基于特征的关系抽取系统类似,神经网络关系抽取模型也面临着人工标注数据较少的问题。
[Zeng et al. 2015]尝试将基于卷积神经网络的关系抽取模型扩展到远程监督数据上。其中假设每个实体对的所有句子中至少存在一个句子反映该实体对的关系,提出了一种新的学习框架;以实体对为单位,对于每个实体对只考虑最能反映其关系的那个句子。该方法在一定程度上解决了神经网络关系抽取模型在远程监督数据上的应用,在 NYT10 数据集上取得了远远高于基于特征的关系抽取模型的预测效果。但是,该方法仍然存在一定的缺陷:该模型对于每个实体对只能选用一个句子进行学习和预测,损失了来自其他大量的有效句子的信息。
我们有没有可能把实体对对应的有噪音的句子过滤掉,然后利用所有有效句子进行学习和预测呢? [Lin et al. 2016]提出了一种基于句子级别注意力机制的神经网络模型来解决这个问题,该方法能够根据特定关系为实体对的每个句子分配权重,通过不断学习能够使有效句子获得较高权重,而有噪音的句子获得较小的权重。与之间的模型相比,该方法取得较大提升。相关代码:http://github.com/thunlp/NRE
关系抽取系统性能还有很大的提升空间,仍然有很多问题亟待解决
首先,基于句法树的树形LSTM神经网络模型在关系抽取上取得了不错的效果。这说明句法信息的引入对于关系抽取有一定帮助。然而,目前的句法分析仍然存在较多错误。在考虑句法信息的同时也引入了大量错误噪音。有研究表明,如果对于一个句子考虑其最可能的多个句法分析树,分析结果准确率可以得到较大提升。因此,一个重要的研究方向是,如何有效地将句子的多个可能句法树信息结合起来,用于关系抽取。
其次,目前的神经网络关系抽取主要用于预先设定好的关系集合。而面向开放领域的关系抽取,仍然是基于模板等比较传统的方法。因此,我们需要探索如何将神经网络引入开发领域的关系抽取,自动发现新的关系及其事实。此外,对现有神经网络模型如何对新增关系和样例进行快速学习也是值得探索的实用问题。
最后,目前关系抽取主要基于单语言文本。事实上,人类知识蕴藏于不同动态和类型的信息源中。我们需要探索如何利用多语言文本、图形和音频信息进行关系抽取。