<事件抽取>概述

目录

  • 1.概述
    • 1.1 事件
    • 1.2 组成元素
    • 1.3 事件抽取
  • 2.近年比赛
    • 2.1 CCKS 2020:面向金融领域的篇章级事件主体与要素抽取
    • 2.2 百度AI2020事件抽取
    • 2.3 科大讯飞:事件抽取挑战赛
  • 3.经典数据集ACE2005
  • 4.参考文章

事件抽取(Events Extraction,EE)是信息抽取的任务之一,本文

1.概述

1.1 事件

事件的定义为:特定的人、物在特定时间和特定地点相互作用的客观事实,一般来说是句子级的。事件是信息的一种表现形式。

在话题检测跟踪TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。

1.2 组成元素

组成事件的各元素包括: 触发词、事件类型、论元及论元角色。

元素 说明
触发词 事件发生的核心词,多为动词或名词
类型 数据集中对于事件的分类,如灾害类型可以分为火灾、地震等等
论元 事件的参与者,主要由实体、值、时间组成
论元角色 事件论元在事件中充当的角色

比如在经典的数据集ACE2005中:
<事件抽取>概述_第1张图片
其实事件抽取,就是一个抽取关键信息,然后填表的过程,如图:

1.3 事件抽取

定义:从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。简单来说,就相当于把一段文字中的关键信息提取出来,然后填入我们预先设置好的表格中。

事件抽取任务可分解为4个子任务:

  1. 触发词识别
  2. 事件类型分类
  3. 论元识别
  4. 角色分类任务

其中:

触发词识别和事件类型分类可合并成事件识别任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。

论元识别和角色分类可合并成论元角色分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

即事件抽取任务也可分解为2个子任务:

  1. 事件识别任务
  2. 元角色分类任务

ACE 会议评测任务也定义了事件抽取两大核心子任务,即事件的检测与类型识别事件论元角色的抽取。评测中事件抽取相关概念包括实体(entity)、实体描述(entitymention)、事件描述(eventmention)、事件论元角色 (eventargument)。其中,实体描述是文档中关于实体的描述,一个或多个实体描述构成一个实体;事件描述是文中具体描述事件的句子或片段;事件论元角色(也称事件元素)是在事件中担当某类角色的实体、数值或时间,包括事件参与者以及与事件相关的属性(如时间属性)。
简单来说,前者是确定事件的类型,如类型是火山爆发,而不是地震;那么后者则是确定火山爆发的具体事件元素/论元:如时间、地点、持续时间等,即填表格的过程。

例如Life/Marry 是结婚事件,Marry事件是官方活动,两人在法律定义下结婚。其模版包括一个participate slot和两个attribute slot,如下图3所示
<事件抽取>概述_第2张图片
例如Conflict/Attack是攻击事件,ATTACK事件被定义为导致伤害或损害的暴力行为。ATTACK事件包括INJURE或DIE亚型未涵盖的任何此类事件,包括没有指定代理的事件。ATTACK事件类型包括较少具体的暴力相关名词,如“冲突”,“冲突”和“战斗”。如果只是为了保持一致性,那么具有事件和武器品质的’枪火’应该总是被标记为ATTACK事件。“政变”是一种攻击(也是一场“战争”)。事件模版包括3个participate slot和2个attribute slot,如下表所示。

<事件抽取>概述_第3张图片

2.近年比赛

2.1 CCKS 2020:面向金融领域的篇章级事件主体与要素抽取

这个比赛分为两个子任务:
(一)事件主体抽取:比赛链接

(二)篇章事件要素抽取:比赛连接

测评任务的数据是互联网上的新闻文本,上市公司发布的无结构化的公告文本。
1.事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。
2.评测任务把发生特定事件类型的主体称为事件主体,如 “公司A向公司B赔付”对于事件类型“重大赔付”的事件主体是“公司A”。
3.事件要素为该事件类型的所有属性信息,如事件类型“破产清算”的事件要素包括“发布公告时间”、“破产清算的公司”、“受理法院”、 “公司所属行业”、 “裁定时间”。

2.1.1事件主体抽取
<事件抽取>概述_第4张图片

2.1.2事件要素抽取
样例、输入输出如下图:
<事件抽取>概述_第5张图片

2.2 百度AI2020事件抽取

1.百度2020语言与智能技术竞赛–事件抽取任务:比赛连接:
2. 数据样例
<事件抽取>概述_第6张图片

3.比赛方法
百度AI2020事件抽取提供的baseline是使用pipeline的形式,第一步识别触发词,第二步再识别事件要素。

使用预训练模型,第一步的触发词的识别看作是序列标注问题,触发词与标注的类别对应。比如“求婚”对应类别“结婚”。
<事件抽取>概述_第7张图片
事件的论元/元素抽取,同样看作一个标注问题:
<事件抽取>概述_第8张图片
用了两个序列标注解决事件抽取问题,不需用到关系抽取技术。

3.比赛数据

2.3 科大讯飞:事件抽取挑战赛

  1. 事件抽取挑战赛:比赛连接
  2. 两个子任务:
    任务一:事件触发词及论元抽取
    该任务旨在从文本中抽取标识事件发生的触发词和论元,触发词往往为动词和名词。触发词 对应的事件论元,主要为主体、客体、时间、地点,其中主体为必备论元。
    任务二:事件属性抽取
    该任务旨在从文本中抽取表达事件发生状态的属性,包括极性、时态。极性分为:肯定、否定、可能;时态分为:过去、现在、将来、其他。
  3. 数据
    任务一数据示例:

<事件抽取>概述_第9张图片
任务二数据示例:
<事件抽取>概述_第10张图片

3.经典数据集ACE2005

ACE05 :有标记的事件数据,在新闻、博客、访谈等数据上进行人工标注得到的。但是,标注质量不高、规模较小。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即 ACE 数据) 的事件抽取 方法和融合外部资源的事件抽取方法。

ACE05 数据集:下载地址

ACE数据集一共定义了8种大类,33个子类,每个子类都有一个事件的模板。
<事件抽取>概述_第11张图片

4.参考文章

1.https://blog.csdn.net/real_ilin/article/details/106065232
2.https://zhuanlan.zhihu.com/p/42135074
3.https://blog.csdn.net/real_ilin/article/details/106065232
4.https://blog.csdn.net/muumian123/article/details/81746583
5.https://zhuanlan.zhihu.com/p/50903358

你可能感兴趣的:(<事件抽取>概述)