A Two-stage Approach for Extending Event Detection to New Types via Neural Networks

标签(空格分隔): 事件抽取 CNN


摘要

在新的扩展数据上研究事件探测,包括用少部分new type的seed instance识别event instances。

利用大量可用数据训练。在新数据上比较CNN和feature-based方法。提出一个两阶段训练算法,帮助CNN将知识从旧事件转到新事件。

introduction简介
Event detection主要是定位instance及其类型。

ED 是 event extraction中的重要任务,其中也包含了argument discovery

ED有两个主要的方法:

  1. 基于特征的(过去的主导)

  2. 抓取语言分析和知识库的discrete structures(lexicon,syntax等)用于事件发现

  3. 用CNN研究单词的continues表示.它能抓到句子的潜在结构

前人研究主要是supervised. 这种方法需要大量训练数据. 但是新事件没有足够的数据.

提出一个two-stage算法训练CNN,它能搞笑训练并且将旧事件知识转到新事件抽取.

任务定义

给定文本集D ,包含旧事件A的触发词标注DA和新事件T的触发词标注DT, DT也并没有标注所有的T. 将从D中产生的negative-instances称作DN,通常DN中包含T中未标注的触发词(false negative)

最终我们的目标是为T学习一个event detector,平衡训练数据DT,DA和DN. 工作和Jiang(2009)的研究关系类型扩展问题有关。

Models for Event Detection

将T事件探测视为二分类问题。给一个token判断是否为T中的trigger。当前的token和它的上下文组成一个触发词候选或者二分类项。
基于特征的模型
Feature-based model 用 FET表示

触发词候选首先转为rich feature向量以概括语言学有用的特征用于ED。

这个向量喂给统计学分类器如Max entropy。使用Li(2013)等的特征集用于ED.
CNN
限制了候选触发词的窗口大小, 设置窗口大小为2w+1 并且设置x = [x−w, x−w+1, . . . , x0, . . . , xw−1, xw]为候选触发词, current token放在x0位置. 输入之前每个xi都转换为向量(查表填充)

表:

  1. Word Embedding Table E
  2. Position Embedding Table: i 到 xi
  3. Entity Type Embedding Table:

转换之后的矩阵就喂给CNN了.

参照Nguyen and Grishman,2015)首先用卷积层计算global表示向量RC. 此外也按照窗口大小2d+1拼接embeding向量获得local 表示向量RL

拼接RC 和RL作为feed-forward neural network的输入,最后一层使用softmax执行trigger 识别(T). 这个CNN和Nguyen and Grishman, 2015的类似卷积层使用多窗口尺寸计算特征图

Event Type Extension Systems

The Baseline System
上面的两种模型(FET 和 CNN)都有用于事件T的baseline(Jiang 2009)

在第一个baseline(TARGET)中我们使用小部分DT和DN训练一个二分类模型用于T.

在第二个baseline(UNION)中结合DT、DA中的positive instances和DN中的negative instances用于T的二分类classifier

最终有四个Baseline:FET-TARGET, FET-UNION,CNN-TARGET, and CNN-UNION.

Hypothesis About the Baseline
假设存在general feature用于高效预测新的事件。模型在新事件类型上的表现受两个因素影响:
(1) how well the model identifies and quantifies general features
(2) how effectively the model transfers the knowledge about the general features and adapt it to the target type.

假设当seed instances小的时候UNION机制比TARGET好。这个思想来源于在UNION中的DA提供更多的证据估计特征feature的重要性

The Two-stage Algorithm
即使UNION能帮助学习通用features,它的缺点是缺少导向机制使模型针对factor(ii)。

算法

算法的第一阶段,权重矩阵,embedding table等使用UNION、TARGET等初始化。

你可能感兴趣的:(A Two-stage Approach for Extending Event Detection to New Types via Neural Networks)