实体和关系提取是一个结合检测实体提及和从非结构化文本识别实体的语义关系的任务。我们提出了一种混合神经网络模型来提取实体及其关系,而不需要任何手工制作的特征。混合神经网络包含用于实体提取的新型双向编码器 - 解码器L STM模块(BiL STM-ED)和用于关系分类的CNN模块。在BiLSTM-ED中获得的实体的上下文信息关键词:进一步通过CNN模块以改进关系分类。我们在公共数据集ACE05(自动内容提取程序)上进行实验神经网络,以验证我们的信息提取方法的有效性。我们提出的方法实现了实体和关系提取标记分类任务的最新结果。
实体和关系提取是检测实体提及并从文本中识别它们的语义关系。它是知识提取中的一个重要问题,在知识库的自动构建中起着至关重要的作用。传统系统将此任务视为两个独立任务的管道,即命名实体识别(NER)[1]和关系分类(RC)[2]。这个分离的框架使任务易于处理,每个组件都可以更灵活。但它很少关注两个子任务的相关性。联合学习框架是一种有效的方法来关联NER和RC,这也可以避免错误的级联[3]。然而,大多数现有的联合方法是基于特征的结构化系统[3-7]。它们需要复杂的特征工程,并且严重依赖于受监督的NLP工具包,这也可能导致错误传播。为了减少特征提取中的手工工作,最近,Miwa和Bansal [8]提出了一种基于神经网络的端到端实体和关系提取方法。然而,当检测到实体时,它们使用NN结构来预测实体标签,这忽略了标签之间的长关系。基于上述分析,我们提出了一种混合神经网络模型来解决这些问题,
我们首先训练NER模块识别实体并获得实体的编码信息,然后进一步训练RC模块根据编码信息和实体组合对关系进行分类。特别地,我们发现如果两个实体之间存在关系,则两个实体的距离总是小于约20个字,如图4所示。因此,在确定两个实体之间的关系时,我们也充分利用了这个属性,即如果两个实体的距离大于L max,我们认为它们之间不存在关系。基于图4的统计结果,ACE05数据集中的L max约为20。
从图4中,我们知道当水平轴是两个实体之间的距离时,数据分布显示长尾属性。因此,我们设置阈值L max来过滤数据。如果两个实体的距离大于L max,我们认为这两个实体没有任何关系。为了分析阈值L max的影响,我们使用Sub-CNN来基于不同的L max值来预测实体关系。效果如图5所示.L max越小,过滤的数据越多。因此,如果L max太小,它可能会过滤正确的数据并使F 1结果下降。如果L max太大,则无法过滤噪声数据,这也可能损害最终结果。图5显示当L max在10和25之间时,它可以表现良好。该范围也与图4的统计结果相匹配。
