分层网络用于事件参数抽取

HMEAE: Hierarchical Modular Event Argument Extraction

1. 摘要

现存的方法EE方法单独分类role,忽略了role之间的潜在关系。本文提出HMEAE的方法充分使用这些role之间高层次的信息。为高层concept 的基本unit设计神经模块网络,之后高层使用logical operation混合相关的unit到role-oriented块网络帮助分类role。

2. 简介

argument extraction 主要任务是抽取作为argument的entity,并且分类role。很多事件抽取的方法将事件抽取分为两个阶段:EAE 和 ED。如图role标签 seller和buyer 都可以在高层次上抽象为person或者organization。 这个高层次的person或者org 能够提供role之间的信息帮助role分类。


本文灵感来自于hierarchical classification works (Qiu et al., 2011; Shimura et al.,2018; Han et al., 2018) and the neural module networks (NMNs) (Andreas et al., 2016),使用NMNS网络结构灵活,能有效促进分类。
concept分类两层:更加抽象的superordinate concept 和 更加细化的argument role。一个role可能属于多个 superordinate concept。如下图所示,每个concept 都设计了块网络高层次上将它们整合到role-oriented 块网络中为其中的每个实体预测role 标签:①对于每个superordinate使用一个superordinate concept module(SCM)高亮和concept相关的信息。②对于每个argument role SCMs根据高层concept 通过logic union组合。③最后依据高层输出判断实体是否具有给定角色。


考虑高层concept之后模型的好处:强化分类器(将更多注意力集中合适的词上)、superordinate concept 模块在多个role之间共享,因此能捕获到shared information。

3. 方法

模型由3部分组成:①instance encoder 表示为embedding 并且使用feature aggregater 聚合句子信息。②hierarchical modular attention模块得到role-oriented embedding高亮和高层concept相关的信息。③argument role 分类器 依据instance embedding和role-oriented embedding 判断是该role的概率。

Instance Encoder instance是n个词的序列x={w1,…,t,…,a,…,wn},t、a表示触发词和candidate argument(命名实体)。转换词向量之后使用CNN和Bert作为编码器。feature Aggregator :DMCNN作为特征聚合器。
Hierarchical Modular Attention:根据特定的superordinate concept 给每个 词嵌入一个注意分数。考虑到一个role可能属于多个superordinate concept,使用逻辑单元将这些superordinate concept都组合起来构建role-oriented embedding。
superordinate concept module:对于每个superordinate concept我们使用一个可训练的向量u¬c表示,计算注意分数如下:


再使用一个softmax 的到注意分数


Wa和Wb在不同的superordinate之间共用。
Logic union Module:给定argument role 可能输入k个superordinate concept(c1,c2,…,ck)。针对这些计算得到的注意分数分别为:sic1,sic2,…, sick .为了将这些信息都保留,取了一个平均值。


之后乘上对应的word embedding获得role-oriented embedding。


argument Role classifier 计算如下:r为对应的 argument role 的 embedding。


ACE2005 包含 599 文本,8事件类型 33子事件类型 35 roles。

concept hierarchy design
没有能用的,手动设计了8 superordinate concepts 根据经验设计,如第一个图哪样子。


相比DMCNN和DMBERT试验结果f1提高了2% 说明设计的hierarchical concept 有用。


你可能感兴趣的:(分层网络用于事件参数抽取)