论文浅尝 | 弱监督关系抽取的深度残差学习方法

Citation: Pawar, S., Palshikar, G. K., & Bhattacharyya, P. (2017).Relation Extraction : A Survey, 1–51. Retrieved from http://arxiv.org/abs/1712.05191

 

动机

近年来基于深度学习方法的远程监督模型取得了不错的效果,但是现有研究大多使用较浅的 CNN 模型,通常一个卷基层加一个全连接层,更深的 CNN 模型是否能够更好地解决以有噪声的标注数据为输入的远程监督模型没有被探索。为了探索更深的 CNN 模型对远程监督模型的影响,本文设计了基于残差网络的深层 CNN 模型。实验结果表明,较深的 CNN 模型比传统方法中只使用一层卷积的简单 CNN 模型具有较大的提升。

 

方法

本方法的模型结构如下图所示:

1.    输入层。每个单词使用词向量和位置向量联合表示。

2.    卷基层。为了得到句子更高级的表示,采用多个卷基层堆叠在一起。为了解决训练时梯度消失的问题,在低层和高层的卷基层之间建立捷径连接。

3.    池化层和 softmax 输出层。

实验

实验在远程监督常用的数据集 NYT-Freebase 上进行。实验结果表明:

·      本文提出的方法采用 9 个卷基层时达到最好的效果,这时不适用注意力机制和 piecewise pooling 性能也接近了使用注意力和 piecewise pooling 的方法。结果如下表所示。


·      不使用残差网络的深层 CNN 模型,当层数较深时效果变差。使用残差网络可以解决其无法传播的问题,效果改善很多;结果如下图所示。


笔记整理:刘兵,东南大学在读博士,研究方向为自然语言处理。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

你可能感兴趣的:(论文浅尝 | 弱监督关系抽取的深度残差学习方法)