《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks》阅读笔记

2015，ACL

论文链接：https://www.aclweb.org/anthology/P15-1017.pdf

一、动机

传统的事件抽取方法主要依赖构建的词汇特征和语境特征。

1. 词汇特征（词性，实体信息等）的构建缺乏通用性，需要大量的人力，并且因为one-hot表示存在数据稀疏性问题。

2. 语境特征（句法特征等）的构建需要复杂的自然语言处理工具，而且当论元和触发词在不同的从句中时，难以找到它们之间的依存关系。

为了解决上述问题，本文提出了一个新的事件抽取方法，不使用自然语言处理工具就能自动抽取出特征。

二、方法

针对难点一，为了减少人力，本文引入了一种词表示模型来自动捕获词的有意义的语义规律，作为词汇特征。针对难点二，需要探索整个句子的语义关系，而CNN卷积神经网络（CNN）已被证明对于捕获句子中单词之间的句法和语义非常有效。因此本文采用基于卷积神经网络（CNN）的框架来捕获语境特征（句子级特征）。但是，CNN只能捕获句子中最重要的信息，在考虑多事件句子时可能会丢失有价值的事实。所以本文提出了一种动态多池卷积神经网络（DMCNN），根据事件触发词和论元使用一个动态多池层来保留更多关键信息。

事件抽取分为两个阶段，首先是分类出触发词，然后如果一个句子有触发词，则在此基础上进行第二阶段—论元分类。后者比前者更复杂，上图是本文的论元分类的模型框架。分为四个部分：词嵌入学习，词汇特征表示，句子特征表示，和论元分类输出。

2.1 词嵌入学习和词汇特征表示

研究表明，从大量无标记数据中学到的词嵌入能有效抓住单词的语义特征。因此本文使用无监督的Skip-gram模型预训练词嵌入，然后从中挑选出候选单词和其上下文的tokens的词嵌入，组合在一起形成词汇特征向量。

2.2 句子特征表示

使用DMCNN动态多池层根据事件触发词和论元对句子进行划分，保留每个部分的关键信息，以便提取出论元和触发词之间的语义联系。

输入：由三种输入拼接而成，分别是词特征（CWF，整个句子中所有词的词向量）、位置特征（PF，当前词与待预测触发词或候选论元之间的相对距离，用来表示哪些词是待预测的触发词或候选论元）和事件类型特征（EF，上一阶段预测出的触发词的事件类型）。

卷积：卷积层旨在捕获整个句子的组成语义并将这些有价值的语义压缩到特征图中。为了获得不同的特征图，在卷积过程中通常使用多个过滤器。

动态多池化：因为一个句子可能包含多个事件，并且一个候选论元在不同的触发词下可能扮演不同的角色。所以本文根据候选论元和预测的触发词将每个特征图分成三个部分。分别保留三个部分的最大值信息，将其组合起来作为这个特征图的信息。最后将所有特征图的信息组合起来，形成一个向量，这个向量就是句子级特征。

2.3 输出

将得到的词汇特征和句子特征拼接起来形成一个向量，输入分类器中，输出预测的论元角色。

2.4 触发词分类

触发词分类比较简单，所以使用简化的DMCNN。更改部分如下：在句子级别的特征表示中，使用与论元分类相同的词特征，但是仅使用候选触发器的位置来嵌入位置特征。此外，不是将句子分为三部分，而是由候选触发器将句子分为两部分。

三、思考

这篇文章提出了一种新颖的事件提取方法，该方法可以自动从纯文本中提取词汇级和句子级特征，而无需复杂的NLP预处理。引入预训练词表示模型来捕获词汇语义线索，并设计了动态多池卷积神经网络（DMCNN）对句子语义线索进行编码。

本文验证了预训练模型对于提取词汇的语义信息的有效性。另外，还考虑了一个句子中存在多个事件的情况，不过触发词和事件论元仍然在同一个句子中。但是现实生活中还存在触发词和事件论元不在同一个句子中的情况，或者事件论元是个指示代词，真正的论元在其他句子中，就存在共指解析的问题。这两种情况该如何解决呢？是否可以通过使用bert预训练模型，将包含触发词的句子和它相邻的几个句子一起编码，就可以融入上下文，从更大的范围上提取语义信息？

《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks》阅读笔记

你可能感兴趣的:(《Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks》阅读笔记)