基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记

论文题目:Exploiting Entity BIO Tag Embeddings and Multi-task Learning for Relation Extraction with Imbalanced Data
论文出处:ACL 2019
论文地址:https://www.aclweb.org/anthology/P19-1130

论文概述

这篇论文针对关系提取任务,核心创新点有两点,已体现在标题中。
第一是引入BIO实体标签embedding,第二是引入多任务学习,具体讲,同时进行relation identification和relation classification任务学习。

论文要点

模型结构

本文的模型结构非常简单,如下图所示:
基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第1张图片

输入部分

分为词嵌入,位置嵌入,BIO标签嵌入
其中位置嵌入不是创新点,和之前关系提取文章类似,根据与目标实体的相对距离进行查找。
BIO标签嵌入则是根据实体的NER标签进行索引。
位置嵌入和BIO标签的设定方式如下图所示:
基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第2张图片

encoding部分

多个不同尺寸的卷积核进行卷积,之后进行max pooling

loss部分

这部分是文章的另一个核心要点。
本文引入了多任务学习,loss分为两部分。
具体讲,分为关系识别和关系分类两部分loss。

关系识别部分,即判断对应两个实体之间是否存在某种标注关系,采用交叉熵:
在这里插入图片描述
关系分类部分,采用ranking loss
基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第3张图片
通过分类层计算各个类别的分数。
对类别分数采用如下操作:
基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第4张图片
其中r为设定的尺度因子, m + m^{+} m+ m − m^{-} m为设定的判定阈值,如文中叙述,通过这样的设定,为了使loss降低,希望正确类别的分数尽量高于 m + m^{+} m+,错误类别的分数尽量低于 m − m^{-} m。实际训练时,只取非正确类别中的最高分数作为 s y − s_{y^{-}} sy
并且对于负样本,只保留 L − L^{-} L部分。
这部分loss如下(负样本时只有 L − L^{-} L):
在这里插入图片描述
最后,将两个loss函数加和:

基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第5张图片

预测部分

基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第6张图片
当最高分数大于阈值时才输出对应类别,否则都记为others类。

数据

ACE2005数据集

实验结果

这里不详细叙述。BIO embedding 对模型性能有较大帮助,比基线模型有较大提升。多任务学习对基线有一定提升。
基于实体BIO标签嵌入以及多任务学习的不均衡数据关系提取[ACL 2019]阅读笔记_第7张图片

论文总结

1.论文提出利用BIO标签建立其embedding,对模型性能有较大帮助。
2.提出多任务学习,loss中包含实体关系识别与实体关系分类两部分。
3.论文中实现的基线分数看起来较低,不知道用到这个数据集的其他文章基线分数能达到多少呢?
4.论文引入了较多的阈值超参数,在实际使用时应该需要根据自己的数据集进行优化调整。

你可能感兴趣的:(自然语言处理,NLP)