论文题目:Cross-lingual Structure Transfer for Relation and Event Extraction
论文来源:EMNLP 2019
论文链接:https://aclanthology.org/D19-1030.pdf
跨语言结构迁移方法总共包含四部分(如下图):
在树结构中,例如动词-主体关系,动词-客体关系,可以在跨语言中发现.使用依赖树作为句子的表示,因为存在83种语言的通用语言依赖解析资源.定义一个句子的基于依赖的树表达为 G = ( V , E ) G=(V,E) G=(V,E),其中 V = { v 1 , v 2 , . . . , v N } V=\{v_1,v_2,...,v_N\} V={v1,v2,...,vN}是词表, E = { e 1 , e 2 , . . . , e M } E=\{e_1,e_2,...,e_M\} E={e1,e2,...,eM}是通用语言的句法关系.N为句子中词的数量,M为单词之间的依赖关系的数量.为了使这种树表示语言通用,首先将树的结点转换为向量,拼接三种词级别的通用语言的表示:多语言的词编码,POS编码,依赖角色编码,实体类型编码.
对于关系抽取和事件论元角色标注,结构的信息是重要的,通过依赖树中每个结点的邻居生成上下文词表达.一个有N个token句子的依赖解析转换为 N × N N{\times}N N×N的邻接矩阵A,对每个结点添加自连接的边帮助捕捉当前结点自身的信息. A i , j A_{i,j} Ai,j表示结点i和结点j在依赖树中存在一条有向边.最初,每个结点包含第i个单词的分布信息,包括词编码 x i w x_i^w xiw,句法信息编码包括POS标签 x i p x_i^p xip,依赖关系 x i d x_i^d xid和实体类型 x i e x_i^e xie, h i 0 h_i^0 hi0的初始化表示如下:
在第k层的卷积,隐藏表示来自第k-1层的邻居,第i个结点在第k层的隐藏表示如下:
其中 d i d_i di代表第i个结点的度,分母表示用于中和结点度的负面影响的归一化因子.第k层后每个节点的最终隐藏表示是语言通用公共空间中每个单词 h i ( k ) h_i^{(k)} hi(k)的编码,在依赖树中合并最多k跳的邻居的信息。
GCN生成最终的隐藏表示 h i ( k ) h_i^{(k)} hi(k),对这些最终的结点表示使用max-pooling得到句子的向量表示 h s h^s hs.使用以下方法获取句子中每个提及对的关系类型分类结果:
事件论元角色标签将参数与非参数区分开来,并按论元角色对论元进行分类。为了事件触发词 x i t x_i^t xit标记候补论元 x j a x_j^a xja的角色,首先通过max-pooling操作,生成句子表示 h s h^s hs,候补论元表示 h a h^a ha和触发词表示 h t h^t ht,从潜在空间到参数角色的映射函数,由拼接 ( [ h t ; h s ; h a ] ) ([h^t;h^s;h^a]) ([ht;hs;ha]),线性层(U^a)和Softmax组成,损失函数如下,其中N为事件提及的数量, L i L_i Li是第i个事件提及的候补论元的数量.
实验数据使用ACE 2005,它包括三种不同语言(英语,汉语,阿拉伯语)的关系和事件注解,目标包括定义在ACE种的7种实体类型,18种关系子类型和33种事件子类型,下采样负训练实例通过限制每个文档的负样本的数量不超过正样本的数量.使用Stanford CoreNLP toolkit进行中文分词和英文tokenization,使用UDPipe进行阿拉伯语tokenization.使用UDPipe对三种语言进行词性标记和依存句法分析.使用下面标准进行评测:
使用fastText从Wikipedia学习的基于对齐单语嵌入的多语言单词嵌入,使用通用的词性标记(17个类别)和37个Universal Dependencies定义的依赖关系类别,7个ACE定义的实体类型:人物,地理政治实体,组织,设施,位置,武器和交通.
通过使用这三种语言的不同组合当作训练和测试数据,以训练的模型来评估其性能,实验结果如下
进行消融实验以展示每个特征对实验结果的影响,结果如下图:
比较使用人工标注的相同语言数据训练的监督单语言模型,结果如下: