事件抽取综述

1. 任务概述

1.1 定义

事件抽取主要研究如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来。

1.2 相关概念

  • 事件指称(event mention)
    对一个客观发生的具体事件进行的自然语言形式的描述,通常是一个句子或者句群。
  • 事件触发词(event trigger)
    一个事件指称中最能代表事件发生的词。
  • 事件元素(event argument)
    事件的参与者,是组成事件的核心部分,它与事件触发词构成了事件的整个框架。
  • 元素角色(event role)
    是指事件元素与事件之间的语义关系,即事件元素在相应的事件中扮演什么角色
  • 事件类别(event type)
    事件元素和触发词决定了事件的类别。

1.3 相关评测和语料资源

  • MUC评测会议
    MUC-3:针对拉丁美洲的恐怖袭击的报道进行抽取,模板的槽为18个。
    MUC-4:沿用了MUC-3的语料,模板的槽增加到了24个。
    MUC-3和MUC-4免费,6和7需LDC号和付费。
  • TDT评测会议——话题识别与跟踪(Topic Detection and Tracking)
    旨在以事件的形式组织新闻事件,对其进行研究和评测。话题为TDT中最基本的概念,粒度比事件大,包括一个核心事件以及与之直接相关的事件的集合。
    貌似也需要LDC号和付费
  • ACE评测会议
    ACE 2005是目前使用最广泛的事件抽取标注数据集。
    ACE中的事件是预定义类型的、句子级的事件,标注格式采用了可扩展标记语言(XML),每个事件都标注了事件触发词、事件类型、事件子类型、事件元素和事件元素扮演的角色信息,此外,还标注了事件的极性(polarity,肯定或否定)、事件的时态(tense)、事件的指属(genericity,特指或泛指)、事件的形态(modality,包括语气非常肯定的事件和信念事件、假设事件等)。
    需要LDC号和付费,不过博主已经弄到了资源
  • ChFinAnn
    清华大学构建的金融领域事件抽取数据集,省略了事件触发词的识别。
    免费开源

2. 限定域事件抽取

2.1 基于模式匹配的事件抽取方法

2.2 基于机器学习的事件抽取方法

3. 开放域事件抽取

3.1 基于内容特征的事件抽取方法

3.2 基于异常检测的事件抽取方法

你可能感兴趣的:(事件抽取综述)