论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取

本文主要复述论文["A Language-Independent Neural Network for Event Detection"] 的主要内容,以便自我回顾,也希望可以给大噶带来帮助~

摘要

提出了一个混合神经网络,用于捕获特定上下文中的序列和块信息,并使用它们来训练多种语言的事件检测器,而不需要任何手动编码的特征。对多种不同语言也能取得很好的效果。

介绍

论文中描述了事件抽取的其中一个关键点是词的二义性问题。如图Figure1中对release不同情境下的语义描述:
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第1张图片

综合事件抽取方向已提出的模型,作者开发了一个混合神经网络,结合了Bi-LSTM模型与CNN模型,从特定的上下文中对序列和块信息进行建模。学习句子中每个单词的连续表示,用以预测是否为事件触发器。
该网络先使用Bi-LSTM,结合每个词的上下文信息对其语义编码,再添加CNN网络依据当前上下文来捕获结构信息。同样的,作者也选择了skip-Gram对输入做预处理。训练时则分别以英语、汉语、西班牙语三种语言做语料库并进行评估。

Bi-LSTM

仅选择RNN模型,在其反向传播更新参数的问题中会出现梯度消失或梯度爆炸问题。在模型中应用LSTM结构,通过对单个时间步长添加门限可以控制这个问题的出现。论文中选择Bi-LSTM,即双向循环网络,词向量表示由上下文的相关性共同决定,可以更加有效地提高参数训练的精度。
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第2张图片

CNN

CNN将卷积运算应用于神经网络中,代替传统的矩阵运算从而起到系统性能的优化作用。此外,CNN还通过参数共享降低了存储需求,并提升了统计效率。CNN卷积层通常包括三级,前两级分别产生线性激活函数和非线性激活函数,第三级则采用一个池化函数来进一步调整输出。最大池化函数可以给出相邻矩阵内的最大值,从而保证平移不变性。

作者应用CNN模型来捕获局部块信息。在这一阶段,使用具有不同宽度的多个卷积滤波器来产生局部上下文表示。,从而能够捕获n-gram各种粒度的局部语义,这些语义被证明对事件检测很有用。论文中选择了宽度为2和3的多个卷积滤波器对句子中的二元组和三元组的语义分别编码。局部信息也可用来解决由于词汇二义性导致的错误。此外,作者还添加了一个位置特征PF,来表示当前词汇和候选触发器之间的相对距离。
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第3张图片

输出

通过Bi-LSTM学习到前向和后向两个特征向量F和B,令局部上下文特征为C2,通过CNN学习到的特征向量定义为C3。拼接以上所学习到的向量,作为我们的总特征向量O,然后利用softmax方法识别触发候选者并将每个触发候选者分类为特定事件类型。

模型训练

定义事件触发器识别与触发器分类作为交叉熵损失函数。table1表述了各参数的设置。
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第4张图片

与其他模型的结果比较:
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第5张图片
English
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第6张图片
Chinese
论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取_第7张图片
Spanish

你可能感兴趣的:(论文笔记 | 结合Bi-LSTM和CNN的混合神经网络来实现事件抽取)