论文标题:Bidirectional Recurrent Convolutional Neural Network for Relation Classification
来源:ACL 2016
问题:基于深度学习的关系抽取
主要方法
本文提出了一个基于最短依赖路径(SDP)的深度学习关系分类模型,文中称为双向递归卷积神经网络模型(BRCNN),结构如下图。
文中提出双向模型,和以往的论文一样,考虑到了实体之间关系的方向性,如下图2 SDP反向,将原来(K + 1)个realtion 类扩充到(2K + 1)个类(other 不考虑方向性),BRCNN分为两个RCNN,一个前向(SDP为输入),一个后向(反向的SDP为输入)。
在每个RCNN中,将SDP中的words和 words之间的dependency relation 分别用embeddings表示,并且将SDP中的words之间的dependency relation 和words分开到两个独立channel的LSTM,使它们在递归传播的时候不互相干扰。在convolution层把相邻词对应的LSTM输出和它们的dependency relation的LSTM输出连结起来作为convolution层的输入,在convolution层后接max pooling。在pooling层后接softmax分类,共有三个softmax分类器,两个RCNN的pooling分别接一个softmax做考虑方向的(2K + 1)个关系分类,两个RCNN的pooling连到一个softmax做不考虑方向的(K + 1)个关系分类。损失函数为三个softmax的cross-entropy 加上正则项:
word embeddings 使用 word2vec 在 Gigaword 训练得到的200维的词向量初始化, dependency relation embeddings 使用50维的随机数初始化,同一 dependency relation不同方向采用不同的 embeddings.
实验数据
基于经典数据集SemEval-2010 Task8,取得了86.3的F1-score,下面是数据对比。
相关工作
基于深度学习的关系抽取这篇文章对关系抽取的监督学习和深度学习相关工作做了比较详细的介绍。
传统的有监督的关系抽取系统需要大量的人工标注的训练数据,从练数据中自动学习关系对应的抽取模式。有监督关系抽取方法主要包括:基于核函数的方法[Zhao and Grishman 2005; Bunescu and Mooney 2006],基于逻辑回归的方法[Kambhatla 2004],基于句法解析增强的方法[Milleret al. 2000]和基于条件随机场的方法[Culotta et al. 2006]。针对人工标注训练数据需要花费大量的时间和精力这个缺陷,Mintz等人[Mintz et al. 2009]提出了远程监督(Distant Supervision)的思想。作者们将纽约时报新闻文本与大规模知识图谱Freebase(包含7300多个关系和超过9亿的实体)进行实体对齐。远程监督假设,一个同时包含两个实体的句子蕴含了该实体对在Freebase中的关系,并将该句子作为该实体对所对应关系的训练正例。作者在远程监督标注的数据上提取文本特征并训练关系分类模型,有效解决了关系抽取的标注数据规模问题。
传统的有监督的关系抽取严重依赖词性标注、句法解析等自然语言处理标注提供分类特征,但是这些特征往往存在大量的错误,在之后的训练过程中,这些错误会影响关系抽取的结果。
很多研究人员开始考虑将深度学习运用到关系抽取中,[Socher et al. 2012]提出使用递归神经网络来解决关系抽取问题,主要使用句子的句法信息,实体的位置和语义信息,结合词向量,通过递归神经网络来得到句子的向量表示,再用于关系分类。[Zeng et al. 2014]提出采用卷积神经网络进行关系抽取。他们采用词汇向量和词的位置向量作为卷积神经网络的输入,通过卷积层、池化层和非线性层得到句子表示。[Santos et al. 2015]还提出了一种新的卷积神经网络进行关系抽取,其中采用了一种新的ranking损失函数。[Miwa et al. 2016]提出了一种基于端到端神经网络的关系抽取模型。该模型使用双向LSTM(Long-Short Term Memory,长短时记忆模型)和树形LSTM同时对实体和句子进行建模。[Lin et al. 2016]提出了一种基于句子级别注意力机制的神经网络模型来解决这个问题,该方法能够根据特定关系为实体对的每个句子分配权重。
简评
正如论文中提到,论文主要有两个新颖点:第一,使用两个channel LSTM分别encode SDP的words 信息和dependency relation信息,使用convolution layer将两部分连接起来,使用LSTM学习SDP的全局信息,使用convolution layer提取word之间的局部信息。结合了[Yan Xu et al. 2015]的多通道LSTM的特点和[Zeng et al. 2014]的卷积关系抽取的特点。 第二,提出了双向结构同时分别学习SDP的前向和后向的句子表示信息,增强了对实体关系方向分类的能力。
将深度学习运用到关系抽取中取得了很好的效果,但是最近几年的论文模型的创新点不多,大多是之前的论文模型的结合和改进。大多基于句法树的树形LSTM或CNN模型或两者结合,将多种信息用于不同的通道。个人感觉这样的方式来提升效果将越来越难,沿着这个方向的提升空间越来越小。目前关系抽取的深度学习模型都依然依赖于句法树分析,句法树存在较多错误。有研究表明,如果对于一个句子考虑其最可能的多个句法分析树,分析结果准确率可以得到较大提升。将句子的多个可能句法树信息结合起来用于关系抽取将是一个重要的研究方向。
参考文献
Zhao, Shubin, and RalphGrishman. Extracting relations with integrated information using kernel methods. In Proceedings of ACL, 2005.
Mooney, Raymond J., and Razvan C. Bunescu. Subsequence kernels for relation extraction. In Proceedings ofNIPS, 2005.
Kambhatla, Nanda. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations. In Proceedings of ACL, 2004.
Culotta, Aron, Andrew McCallum,and Jonathan Betz. Integrating probabilistic extraction models and datamining to discover relations and patterns in text. In Proceedings of HLT-NAACL,2006.
Mintz, Mike, Steven Bills, RionSnow, and Dan Jurafsky. Distant supervision for relation extraction without labeled data. In Proceedings of ACL-IJCNLP, 2009.
Socher, Richard, et al. Semantic compositionality through recursive matrix-vectorspaces. Proceedings of EMNLP-CoNLL, 2012.
Santos Cicero Nogueira dos, Xiang Bing, Zhou Bowen. Classifying Relations by Ranking with Convolutional Neural Networks. In Proceedings of ACL,2015.
Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou, and Jun Zhao.Relation classification via con- volutional deep neural network. COLING,2014.