NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】

《原始论文:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction》

在百度“2019语言与智能技术竞赛”(下称LIC2019)中,作者提出了一个新的关系抽取模型(参考《基于DGCNN和概率图的轻量级信息抽取模型》),后被进一步发表和命名为“CasRel”,算是当时关系抽取的SOTA。

GitHub:CasRel
GitHub:CasRel-pytorch-reimplement
GitHub:kg-2019-final
GitHub:kg-baseline-pytorch

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第1张图片

一、概述

1、三元组重叠问题

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第2张图片

根据不同的重叠情况将句子划分 为三种类型。

  • Normal表示三元组之间无重 叠;
  • EPO(Entity Pair Overlap)表 示三元组之间共享同一个实 体对
  • SEO(Single Entity Overlap) 表示三元组之间仅共享一个 实体。注意在某些复杂的情 况下,一个句子可能既是 EPO类型,同时也是SEO类型

2、已有工作

以往的方法大多将关系建模为实体对上的一个离散的标签

  • 命名实体识别(Named Entity Recognition, NER)确定出句子中所有的实体
  • 然后学习一个关系分类器在所有的实体对上做RC,最终得到我们所需的关系三元组。

缺点

  • 在实体对的组合之中,大多数实体对是没有关系链接的,这便存在很多的负例,也就造 成了关系分类的不平衡
  • 重叠三元组的问题更是一个难点,因为其存在共享的实体,甚至两个实体存在多种关系, 这便增加了难度,没有足够的训练数据,是难以学习或者根本无法学习这种关系的。

3、本文idea提出原因

1 .很少的研究工作解决三元组重叠的问题。

2 . pipline的流程可能造成实体的识别错误,也就造成关系构建的错误

4、摘要核心

1 .很少研究关注三元组重叠问题

2 .为三元组重叠提出一种新的关系抽取框架

3 .实验结果表明该方法是有效的,在NYT和WebNLG数据集上取得较好的效果

5、研究成果

提出一个全新的框架:CasRel

  1. 为重叠三元组设计了一个新的通用算法框架
  2. 融合transform模型,可以通过预训练模型融合先验知识
  3. 在两个公开数据集上达到state-of-the-art

6、本论文历史意义

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第3张图片

二、模型结构

1、CasRel网络结构

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第4张图片
BERT Encoder
Cascade Decoder

  • Subject Tagger
  • Relation-specific Object Taggers

2、tag标注

2.1 原理

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第5张图片
对于给定的句子x,提取三元组(s,r,o)

根据贝叶斯公式进行分解

  • 寻在句子中存在的subject
  • 在给定句子及subject的情 况下,对所有可能的关系relation对应的object进行识别

2.2 subject标注

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第6张图片
头尾指针标识subject的位置,使用 1进行标注,其他位置使用0

subject标注损失函数使用最大似然函数

2.3 Relation-specific Object 标注器

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第7张图片
头尾指针标识object的位置,使用1 进行标注,其他位置使用0

加入上层的subject编码信息,多个subject时取平均值

Object损失同样适用最大似然函数

2.4 log目标函数

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第8张图片
最终损失函数使用log函数,实际实现过程也就是2*(subject+object)损失函数之和

3、tricks

1 .训练时随机选择一个subject进行训练
2 .训练时直接使用输入的subject而不是预测的subject
3 .subject object的获取就近原贝

三、实验结果

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第9张图片

1、compare various model

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第10张图片
NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第11张图片

2、Different overlapping

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第12张图片
不同模型对于不同类型三元组的表现,CasRel表现良好

3、Different number

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:CasRel【关系三元组抽取:一种新的级联二元标注框架】【没用CRF】【基于Lic2019比赛】【数据集:NYT、WebNLG】_第13张图片
对于同一个句子含有多个三元组的情况,数据显示CasRel表 现较好

四、论文总结

1、关键点

新的标注策略

新的模型框架

三元组重叠

2、创新点

引入指针标注

级联式联合抽取

3、启发点

将离散的label识别问题转化为subject,(relation,object)。

Instead of treating relations as discrete labels as in previous works, our new framework models relations as functions that map subjects to objects in a sentence, which naturally handles the overlapping problem.




参考资料:
基于DGCNN和概率图的轻量级信息抽取模型
GPLinker:基于GlobalPointer的实体关系联合抽取
ACL2020-关系抽取 CASREL
关系抽取模型
NLP之关系抽取(信息抽取、三元组抽取)(附pytorch代码)

你可能感兴趣的:(#,NLP/SPO联合抽取,自然语言处理,关系抽取,三元组,联合抽取)