Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: 一个端到端的文档级中文金融事件抽取框架

摘要

大多数现有的事件提取 (EE) 方法仅提取句子范围内的事件参数。 然而,这种句子级EE方法难以处理来自新兴应用程序(如金融,法律,医疗等)的大量文档。 其中事件参数总是分散在不同的句子中,甚至同一文档中存在多个事件类型。 为了应对这些挑战,我们提出了一种新的端到端模型Doc2EDAG,它可以生成基于实体的有向无环图,以有效地实现文档级EE(DEE)。 此外,我们使用无触发词设计重新形式化 DEE 任务,以简化文档级事件标记。 为了证明Doc2EDAG的有效性,我们建立了一个由中国财务公告组成的大规模真实数据集。

1.简介

事件提取 (EE),传统上建模为检测触发词并从纯文本中提取相应的参数, 在自然语言处理中起着至关重要的作用,因为它可以产生有价值的结构化信息来促进各种任务, 如知识库建设、问答、语言理解等。
近年来,随着金融、法律、医疗等各个领域数字化的兴起, 事件抽取已成为这些领域业务发展的日益重要的加速器。 以金融领域为例,持续的经济增长见证了数字金融文件的爆炸式增长。
鉴于在金融领域应用 EE 的必要性、金融文件的具体特征以及许多其他业务领域中的特征, 然而,对 EE 提出了两个关键挑战,特别是参数分散和多事件。 具体来说,第一个挑战表明一个事件记录的参数可能分散在文档的多个句子中, 而另一个反映了一个文档可能包含多个这样的事件记录。为了直观地说明这些挑战, 我们在图 2 中展示了一个典型的 ChFinAnn 文档,其中包含两个股权质押事件记录。对于第一个事件,entity1“[SHARE1]”是句子级别(ID 5)的正确质押股份。 然而,由于股本增量(ID 7),文档级别的正确质押股份应为“[SHARE2]”。 同样,“[DATE3]”在句子级别 (ID 9) 是正确的结束日期,但在文档级别 (ID 10) 是错误的。 此外,一些总结性的论点,例如“[SHARE5]”和“[RATIO]”,通常会在文档末尾陈述。
Doc2EDAG的关键思想是将事件表(event table)转换为基于实体的有向无环图(EDAG)。
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction_第1张图片

  • EDAG 可以将填充表任务转换为几个更易于处理的顺序路径扩展sequential path-expanding 子任务。
  • 为了有效地支持 EDAG 生成,Doc2EDAG 使用文档级上下文对实体进行编码,并设计了用于路径扩展的内存机制。 此外,为了简化基于 DS 的文档级事件标签,我们提出了一种新的 DEE 形式化,它删除了触发词标签,并将 DEE 视为基于文档直接填充事件表。 这种无触发词设计不依赖于任何预定义的触发词集或启发式来过滤多个触发候选, 并且仍然完全符合 DEE 的最终目标,将文档映射到基础事件表。
    我们首先解释几个关键概念: 1)实体提及:实体提及是引用实体对象的文本范围; 2)事件角色:事件角色对应事件表的预定义字段; 3)事件参数:事件参数是扮演特定事件角色的实体; 4) 事件记录:事件记录对应于事件表的条目,并包含多个具有所需角色的参数。

2. DocDAG模型介绍

该模型的中心思想是将表格形式的事件记录转化为基于实体的有向无环图模型,并且让该模型生成基于文档的上下文语义信息。该模型主要包括2个阶段:文档级实体编码和生成有向无环图。
Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction_第2张图片
接下来将详细介绍该模型的各个流程:

2.1 输入的表示(嵌入层)

本文将文档中的句子看作一个很长的序列;在将每个token进行词嵌入之后,将一个文档d表示为一个句子序列的集合[S1;S2;…;Sn];其中每个句子;在这里插入图片描述
为token嵌入组成的序列:在这里插入图片描述

你可能感兴趣的:(人工智能,大数据)