【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第1张图片

论文链接:http://aclweb.org/anthology/D/D15/D15-1203.pdf
论文模型:PCNN
  这篇文章是Zeng在2014年CNN经典论文之后的有益著作,这篇论文提出PCNN方法,将卷积网络特征提取应用于远距离监督,而且还引入多示例学习方法。

1 摘要

  文章开头就提出两个关于使用远距离监控进行关系抽取时会出现饿问题。首先,在这种方法中,启发式地将一个已经存在的知识库与文本对齐,并将对齐结果作为标记数据处理。然而,启发式对齐可能会失败,导致错误的标签问题。此外,在以前的方法中,特征提取过程中产生的噪声会导致模型性能下降。主要的问题就是说如何在训练数据比较少的情况下,更好的获取训练数据。
  文中也给出了相关的解决方法,针对第一个问题:由于数据中有噪声的存在,所以采用多示例学习的方法,允许被标记的句子或示例中有错误标记的存在。针对第二个问题:避免使用特征工程,而是采用分段最大池化的卷积架构来自动学习相关的特征。

2 介绍

  在构建机器学习系统进行关系抽取时,主要面临的挑战就是训练示例的生成,针对此问题,一种常见的方法就是使用远距离监督方法。距离监督的方法就是说:在已有的知识库中,两个实体有关系,则所有包含两个实体的句子都会表示这种关系。
  这种方法很明显就是存在太绝对的问题。文中也提出了其的两个缺点:、假设过于牵强,一个句子,即便包含两个实体也不一定能表示两者之间的关系。有可能两个实体共享一个主题也有可能;如下面的两个句子:

【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第2张图片
  上面的句子确实表达了图1中的“公司/创始人”关系。而下面的句子没有表达这种关系,仍然被选择作为训练实例。这将会阻碍在这种噪声数据上训练的模型的性能。   ==二==、抽取关系的过程中,需要精心设计特征,这就需要使用现有的NER或者其他NLP工具,造成错误的累计并且这个累计会随着时间的增长越来越重。下图就是语法分析功能随着句子长度越长,效果越差。
【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第3张图片

  对于标记数据的错误标签问题,利用多示例学习的方法:训练集由多个包组成,每个包包含多个示例,包的标签是已知的,而包中示例的标签是未知的。考虑了标签的不确定性。Zeng在2014提出用CNN(卷积神经网络)解决句子特征提取的问题,这里他又一次将CNN延伸到远距离监督问题当中,为了捕获结构和其他潜在信息,根据两个实体的定位信息,将卷积分为3个部分进行,并设计分段最大池化层(piecewise max pooling layer),返回每一段的特征最大值。
文章贡献

  • 在远距离监督关系抽取问题上,抛弃了复杂的特征设计,而采用自动特征提取PCNN
  • 利用PCNN+多示例学习解决包含的错误标签问题,生成训练集。
  • 设计了max-pooling-layer,捕获两实体结构信息。

3 模型

  在本节中,文中提出创新的解决方案,将多实例学习融入到卷积神经网络中来完成这项任务。提出了一种不需要复杂的NLP预处理的特征自动学习算法。下图显示了远距离监督关系提取的神经网络结构。它演示了处理一个包实例的过程。该程序包括四个主要部分:矢量表示卷积分段最大池软最大输出
【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第4张图片

3.1 矢量表示

  词嵌入:多次试验证明,采用词嵌入的形式可以更好的捕捉两实体之间的语法和语义信息,这里使用预先训练好的词嵌入,将词向量先初始化在优化。文章中使用Skip-gram模型来训练词嵌入。

  位置向量:在此嵌入向量中拼接位置向量来更好的表达两实体的相对位置信息。位置向量如下面句子:Kojo Annan与son的相对距离为3,而Kofi Annan与 son的相对距离为-2,所以PF=[-3,2]。

3.2 卷积

  以图中示例为例,假设过滤器的长度为3,一个句子为S,定义n个卷积核,卷积操作描述为:

  这里的卷积操作其实就是向量表示的部分向量和卷积核进行点成操作:

【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第5张图片

3.2 分段最大池化

  在2014年Zeng提出的CNN中max-pooling不够用的原因有三个:

  1. 隐藏层缩小过快
  2. 捕捉特征过于粗糙
  3. 不足以捕获两个实体之间的结构信息

  这里我们以两个实体的位置将卷积得到的向量分为3个部分,然后分别进行max-pooling后,其长度就与句子的长度无关。max-pooling的操作就是选取别最大池化部分的最大值,如之前的结构图Piece max pooling部分:

  最后,将piece-max-pooling后的向量输出g:

3.4 softmax输出

  将上一层输出的向量g,送入一个softmax分类器:

  这里采用dropout方法,对神经网络进行dropout,此时0

4 实验

数据集:该数据集是通过与NYT语料库的Freebase关系对齐生成的,2005-2006年的句子作为训练语料库,2007年的句子作为测试语料库
预训练模型:Word2vec
实验参数设置
【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第6张图片
  与传统性能模型比较:

【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第7张图片

  手动计算提取的前100、前200和前500个关系实例的精度值

【论文阅读笔记PCNN】Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks_第8张图片

5 总结

  在本文中,利用带多实例学习的分段卷积神经网络(PCNNs)来提取远监督关系。该方法不需要复杂的NLP预处理就能自动学习特征。我们还成功地设计了一个分段最大池化层来捕获结构信息,并结合多实例学习来解决错误的标签问题。实验结果表明,该方法较可比方法有明显的改进。
  心得:整个论文的贡献就在于分段卷积神经网络和多示例学习的关系抽取应用于远距离监督问题,显然这篇文章的方法还不是特别理想,监督问题的关系抽取实体分类现在F1值已经能达到将近90,当然数据比较少的情况下,如果解决训练集自动生成问题,监督学习应该还可以继续进步。

你可能感兴趣的:(论文,自然语言处理,人工智能,深度学习,算法)