[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab

ACL 2018 DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data
Author Hang Yang, Yubo Chen, Kang Liu, Yang Xiao and Jun Zhao 中科院自动化所
paper https://www.aclweb.org/anthology/P18-4009

本文提出了一个事件抽取框架来从文档级财经新闻中检测事件提及并提取事件。目前为止,基于有监督学习的方法在开放数据集上表现最好。这些方法依赖人工标注的数据。但是在金融、医疗等特定领域,由于数据标记过程的成本太高,目前没有足够的标记数据。而且现有的方法大多集中在从一个句子中抽取事件,但实际上,一个事件通常由文档中的多个句子来表达。为了解决这些问题,我们提出了一个文档级中文金融事件抽取系统(DCFEE),该系统可以自动生成大规模的标记数据并从整个文档中抽取事件。实验结果证明了该方法的有效性。

1 引言

金融事件能够帮助用户获得竞争对手的策略,预测股市,做出正确的投资决策。例如,股权冻结事件的发生将对公司产生不良影响,股东应迅速做出正确的决策,以避免损失。

金融事件抽取存在的问题:

  • 训练语料较少:有监督学习需要大量标注语料
  • 文档级事件抽取:当前的事件抽取方法大多都是抽取句子中的事件,但是大多数情况下,一个事件是由多个句子描述的。在金融领域,91%的事件论元是分布在多个句子中的。

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第1张图片

Figure 1: Example of an Equity Freeze event triggered by “frozen” and containing five arguments.

为解决这两个问题,本文做了以下工作:

  • 提出了一个DCFEE模型,可以基于自动生成的标注数据从金融领域公告中完成文档级事件抽取
  • 介绍了一种用于事件抽取的数据自动标注方法,并给出了构建中文金融事件数据集的一系列有用的技巧。我们提出了一个基于神经网络序列标注模型、关键事件检测模型和参数填充策略的文档级EE系统。实验结果表明了该方法的有效性
  • DCFEE系统已成功构建为一个在线应用程序,可以快速从金融公告中抽取事件信息

2 方法

下图是DCFEE模型的结构图,主要分为两个部分:
1)数据生成:利用远程监督的方式对整个文档(文档级数据)中的事件提及,以及事件提及(句子级数据)的触发词和论元进行标注
2)事件抽取系统:包括基于句子级标注数据的句子级事件抽取(SEE)和基于文档级标注数据的文档级事件抽取(DEE)
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第2张图片

Figure 2: Overview of the DCFEE framework

2.1 数据生成

[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第3张图片

Figure 3: The process of labeled data generation.

数据来源:

自动生成数据需要两种类型的数据资源:包含大量结构化数据信息的金融事件知识库和包含事件信息的非结构化文本数据。

  • 结构化数据来源于财务事件知识库,包含9种常见的财务事件类型,并以表格形式存储。这些包含关键事件论元的结构化数据是从金融专业人士的公告中总结出来的。以股权质押事件为例,如图3左侧所示,其中关键参数包括股东名称(名称)、质押机构(ORG)、质押股份数量(NUM)、质押开始日期(BEG)、质押结束日期(End)。
  • 非结构化文本数据来源于企业发布的官方公告,以非结构化形式存储在网络上,我们从搜狐证券网获得这些文本数据。

数据生成方法:

标注数据主要包括两部分:通过标注事件触发词事件论元生成的句子级数据;通过标注文档级公告中的事件提及生成的文档级数据
现在的问题在于如何找到事件触发词。与结构化事件知识库相对应的事件论元和事件提及是从大量的公告中总结出来的。远程监督的方法在关系抽取和事件抽取上均表现出来其在自动标注数据上的有效性。受远程监督的启发,我们假设一个句子包含最多的事件参数,并且在特定触发器的驱动下,很可能是公告中提到的事件。事件提及中的论元很有可能在事件中扮演相应的角色。对于每一类金融事件,我们构建了一个事件触发词典,如股权冻结事件中的冻结事件和股权质押事件中的质押事件。因此,可以通过查询预先定义的词典从公告中自动标记触发词。通过这些预处理,结构化数据可以映射到公告中的事件论元。因此,我们可以自动识别事件提及并标记事件触发词和其中包含的事件论元,以生成句子级别的数据,如图3底部所示。然后,对于一个文档,作者定义其中的一个句子作为文档中的正例,即最能表达文档中事件的一句话,其他句子均为负例。自此,对一篇文档的标注就完成了。文档级数据和句子级数据一起构成了EE系统所需的训练数据。

技巧:

实际情况下,数据标注存在一些挑战:财务公告与事件知识库的对应性;事件论元的模糊性和缩写性。我们使用了一些技巧来解决这些问题,示例如图3所示。

  • 减少搜索空间:通过检索关键事件论元(如公告的发布日期和股票代码),可以减少候选公告的搜索空间
  • 正则表达式:通过正则表达式可以匹配到更多的事件论元,提高标注数据的召回率。例如LONCIN CO LTD (Role=Shareholder Name)在金融事件数据库中,但是LONCIN在公告中。我们可以通过正则表达式来解决这个问题,并将LONCIN标记为事件论元。
  • 规则:一些任务驱动的规则可用于自动标注数据。例如,我们可以通过计算 2017-02-23 (Role=Pledging Start Date) 和2018-02-23(Role=Pledging End Date)之间的间隔标记出12 months (Role=Pledging End Date)

2.2 事件抽取

图4描述了本文提出的事件抽取系统的总体架构,主要包括以下两个组件:旨在从单个句子中抽取出事件论元事件触发词的句子级事件抽取;旨在基于关键事件检测模型和论元填充策略从整个文档中提取事件参数的文档级事件抽取。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第4张图片

Figure 4: The architecture of event extraction.

2.2.1 句子级事件抽取

我们将句子级事件抽取作为一个序列标注任务,并对基于句子级标注数据的训练数据进行了描述。句子使用BIO标注模式进行标注。如图4左侧所示,模型使用BiLSTM+CRF进行句子级事件抽取,抽取出句子中的候选论元及触发词

2.2.2 文档级事件抽取

文档级事件抽取包括两部分:旨在从文档中发现事件提及的关键事件检测模型;用于填充事件论元的论元补足策略。

关键事件检测:

如图4右侧所示,事件检测的输入由两部分组成:一部分是来自句子级事件抽取输出的事件论元和事件触发器的表示(蓝色),另一部分是当前句子的向量表示(红色)。将两部分串联起来作为CNN的输入特征。然后将当前句分为两类:关键事件与否,即是否为文档中的正例。

论元填充策略:

我们通过文档级事件抽取获得了包含大部分事件论元的关键事件,并通过句子级事件抽取获得了文档中每个句子的事件抽取结果。为了获得完整的时间信息,我们使用论元填充策略,该策略可以自动地从周围句子中填充缺失的事件论元。如图4所示,一个完整的质押事件包括事件提及 S n S_n Sn中的事件论元,以及根据事件提及 S n + 1 S_{n+1} Sn+1中填充的事件论元 12 months。

3 评估

3.1 数据集

我们对四类金融事件进行了实验:股权冻结事件、股权质押事件、股权回购事件和股权增持事件。共有2976份公告通过自动生成数据进行了标记。我们将标记的数据分为三个子集:训练集(占公告总数的80%)、开发集(10%)和测试集(10%)。表1显示了数据集的统计信息。NO.ANN表示可以为每个事件类型自动标注的公告的数量。NO.POS表示正样本句子(事件提及)的数量,相反,NO.NEG表示负样本句子的数量。正负样本句子构成文档级数据,作为文档级事件抽取的训练数据。包含事件触发词和一系列事件论元的正样本句子,标记为SEE的句子级训练数据。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第5张图片

我们随机选取了200个样本(包含862个事件论元)来手动评估自动标注数据的准确率。平均精度见表2,这表明我们的自动标注数据具有较高的质量。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第6张图片

3.2 模型效果

我们使用准确率(P)、召回率(R)和(F1)来评估DCFEE系统。表3显示了基于模式的方法和DCFEE在提取股权冻结事件时的性能。实验结果表明,在大多数事件论元提取中,DCFEE的性能优于基于模式的方法。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第7张图片

表4显示了SEE和DEE在不同事件类型上的P、R、F1。值得注意的是,SEE阶段使用的黄金数据是自动生成的数据,DEE阶段使用的黄金数据来自金融事件知识库。实验结果表明,SEE和DEE的有效性,精度可以接受。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第8张图片

实验表明,基于远程监督的方法可以自动生成高质量的标注数据,避免了人工标注。同时验证了本文提出的DCFEE能够有效地从文档级角度中提取事件。

4 应用

DCFEE系统的应用:中文财经文本的在线电子商务服务。它可以帮助金融专业人士从财务公告中快速获取事件信息。图5显示了在线DCFEE系统的截图。不同颜色的单词代表不同的事件参数类型,下划线句子代表文档中提到的事件。如图5所示,我们可以从非结构化文本(关于股权冻结的公告)中获得一个完整的股权冻结事件。
[中文事件抽取]DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Lab_第9张图片

5 相关工作

目前的EE方法主要分为统计方法、基于模式的方法和混合方法。统计方法可以分为两类:基于特征提取工程的传统机器学习算法和基于自动特征提取的神经网络算法。基于模式的方法通常在工业上被使用,因为它可以获得更高的准确率,但同时具有较低的召回率。为了提高召回率,主要有两个研究方向:建立相对完整的模式库和采用半自动的方法建立触发器词典。混合事件提取方法将统计方法和基于模式的方法结合在一起。据我们所知,在中文金融领域,还没有一个系统能够自动生成标注数据,并从公告中自动提取文档级事件。

6 结论

本文提出了DCFEE框架,该框架能够基于自动标注的数据从中国财务公告中提取文档级事件。实验结果表明了系统的有效性。我们成功地将系统上线,用户可以通过该系统从财务公告中快速获取事件信息。

你可能感兴趣的:(论文)