目录
摘要:
1 绪论
2 相关工作
3 方法
3.1 任务定义
3.2 候选实体生成
3.3 二部图链接
3.4 目标函数
4 实验
4.1 实验设置
4.2 结果与分析
5 结论
论文链接:https://arxiv.org/pdf/2205.05270.pdf
现有方法:(1)找到头尾实体的边界位置; (2) 连接特定token以形成三元组;
存在问题:误差累积,步骤(1)中每个实体的边界识别误差将累积到最终的组合三元组中;
解决问题:DirectRel,
首先:该模型通过枚举句子中的token序列来生成候选实体;
然后: 将三元组提取任务转换为“头→尾”二部图上的链接问题;
只需一步即可直接提取所有三元组;
所提出的模型比最先进的基线表现更好;
关系三元组提取,定义为从非结构化文本中以 (head,relation,tail) 或 (h,r,t) 形式提取实体对及其关系的任务;
传统的pipeline方法将此任务分为两个独立的子任务:实体识别和关系分类,同时忽略它们之间的密切联系。因此,它们遭受错误传播问题的困扰。
探索联合模型以端到端的方式提取关系三元组:根据提取过程的不同,现有的联合方法可以大致分为三类:序列标注、表格填充和文本生成。
序列标记方法:[Zheng et al., 2017; Sun et al., 2019; Yuan et al., 2020; Wei et al., 2020; Zheng et al., 2021; Ren et al., 2022] 利用各种标记序列来确定实体的开始和结束位置,有时还包括关系;
表格填充方法 [Wang et al., 2020; Yan et al., 2021]: 为一个句子构建一个表格,并用相应token对的标签填充每个表格单元格;
文本生成方法: [Zeng et al., 2018;曾等人,2020;隋等,2020; Ye et al., 2021] 将三元组视为token序列,并采用编码器-解码器架构来生成三元组,如机器翻译;
上述方法存在同样的问题:误差累积;
误差具体来说:这些方法需要先确定头尾实体的起止位置,然后在实体边界内拼接对应的token,形成三元组。不幸的是,每个边界token的识别可能会产生错误,这些错误将累积到预测的三元组中;结果,一旦一个边界token识别失败,与该token相关联的所有三元组的提取将相应地失败;
方法:如果不需要识别实体的边界token,只需一步操作就可以直接从非结构化句子中提取关系三元组,就可以解决上述问题。按照这种直觉,作者从一个新的角度重新审视三元组提取任务——二分图链接。
如下图所示,可以观察到一个实体本质上是由几个连续的token组成的。换句话说,如果详尽地枚举一个句子的标记序列,结果必须包含所有正确的实体。因此,可以通过预测两个候选实体“Stephen Chow”和“China”之间是否存在“link”国籍来直接识别三元组(Stephen Chow, Nationality, China)
(基于二分图链接的三元组提取的示例。枚举所有长度小于 2 的token序列作为候选实体)
受上述直觉的启发,作者提出DirectRel,它能够一步直接从非结构化文本中提取所有三元组;
模型具体来说,给定一个句子,
首先:通过在数据预处理期间枚举token序列来生成候选实体;
然后:为每个关系设计一个链接矩阵来检测两个候选实体是否可以形成一个有效的三元组,并将三元组提取转换为特定关系的二部图链接问题。显然,这样的解决方案会在训练阶段产生冗余的负样本。
为了解决这个问题,DirectRel 在训练期间对负面实体进行下采样。
广泛的实验结果表明,DirectRel 在两个广泛使用的基准上优于最先进的方法。
综上所述,本文的主要贡献如下:
作者提出了一种新的视角,将关系三元组提取任务转换为二分图链接问题,解决了设计中的错误累积问题;
所提出的 DirectRel 是第一个能够通过一步计算逻辑从非结构化文本中直接提取所有关系三元组的模型;
对两个广泛使用的数据集进行了广泛的实验,结果表明该模型比最先进的基线表现更好;
本文着重于从句子中联合提取关系三元组。相关方法大致可分为三类:
第一类是序列标记方法:它将三元组提取任务转化为几个相互关联的序列标记问题。
例如,经典方法 NovelTagging [Zheng et al., 2017] 设计了一个复杂的标记方案,其中包含实体开始位置、实体结束位置和关系的信息;
一些研究 [Sun et al., 2019;刘等人,2020; Yuan et al., 2020] 首先使用序列标记来识别句子中的所有实体,然后通过各种分类网络进行关系检测;
最近,Wei等人[2020]提出了CasRel,它首先识别所有可能的头部实体,然后针对每个头部实体,应用关系特定的序列标记器来识别相应的尾部实体;
PRGC [Zheng等人,2021]设计了一个预测潜在关系的组件,该组件将接下来的实体识别局限于预测的关系子集,而不是所有关系;
BiRTE [Ren et al., 2022] 提出了一个双向实体提取框架,以同时考虑头尾和尾头提取顺序;
第二类是表格填充方法:它将三元组提取任务制定为由输入句子与自身的笛卡尔积构成的表格;
例如,GraphRel [Fu et al., 2019] 通过关系加权图卷积网络考虑实体和关系之间的交互;
TPLinker [Wang et al., 2020] 将三元组提取转换为token对链接问题,并引入了特定于关系的握手标记方案来对齐实体对的边界token;
PFN [Yan et al., 2021] 利用分区过滤网络,联合生成特定于任务的特征来模拟实体识别和关系分类之间的交互;
第三类是文本生成方法:它将三元组视为token序列,并采用编码器-解码器框架来生成三元组,如机器翻译。
例如,CopyRE [Zeng et al., 2018] 使用复制机制生成其两个对应实体所遵循的关系,但这种方法只能预测实体的最后一个单词;
因此,CopyMTL [Zeng et al., 2020] 采用多任务学习框架来解决多token实体问题;
CGT [Ye et al., 2021] 提出了一种带有生成transformer的对比三元提取方法,以解决长期依赖和忠实度问题;
R-BPtrNet [Chen et al., 2021] 设计了一个二进制指针网络来提取显式三元组和隐式三元组;
上述方法同样问题:由于实体边界识别中可能存在的错误,几乎所有现有方法都存在错误累积问题;
DirectRel解决问题:与以往的方法不同,本文提出的 DirectRel 将三元组提取任务转换为二部图链接问题,而无需确定实体的边界标记。因此,我们的方法能够通过一步链接操作直接从非结构化句子中提取所有三元组,自然地解决了错误累积的问题;
提出的 DirectRel 的整体架构如下图所示。下面,首先在 3.1 节中给出任务定义和符号。然后,3.2 节介绍了候选实体生成的策略。最后,第 3.3 节说明了基于二分图链接的三元提取的细节;
(所提出方法的架构,显示处理包含两个 EPO 三元组(北京,首都,中国)和(中国,包含,北京)的句子的过程。在此示例中,下采样集 包含 5 个负实体(以灰色标记)和 2 个正实体。请注意,为了便于说明,所有错误链接都被省略了)
关系三元组提取的目标是识别给定句子中所有可能的三元组;
模型的输入: 是一个带有 L 个token的句子 ;
输出: 是一组三元组 ,其中 表示 K 个预定义关系;
值得注意的是, 表示三元组中的头尾实体,而不是句子中的所有命名实体;
在数据预处理期间,作者枚举句子中所有长度小于 C (C < L) 的连续token序列作为其候选实体;
例如,如果C = 2,则“Beijing is the capital of China”句子的候选实体为E = {“Beijing”,“Beijing is”, “is”,“is the ”,“the”,“the Capital”、“Capital”、“Capital of”、“of”、“of China”、“China”}。因此,对于具有 L 个标记的句子,候选实体的数量 为:
这样的策略会带来两个缺点:
首先,训练过程会偏向负三元组,因为它们占主导地位,这会损害模型识别正三元组的能力;
其次,由于训练句数较多,候选实体过多会降低训练效率;
为了解决这些问题,对于一个句子,作者从 中随机抽取 n 个负实体与所有 ground truth 实体一起训练模型,新的子集记为 ;
给定一个句子及其候选实体̄ ,作者采用预训练的 BERT [Devlin et al., 2019] 作为句子编码器,以获得每个token的 d 维上下文表示
其中 是第 i 个token的输入表示。是对应的token embedding和positional embedding的总和;
值得注意的是,一个实体通常由多个token组成,为了便于并行计算,需要保持不同实体表示的维度一致。
因此,取实体 的起始标记和结束标记之间的平均向量作为其表示:
然后,如上图所示,作者定义了一个用于三元组提取的有向“头→尾”二部图;
它将实体投影表示为 和 作为两部分,其中 E是由等式(3)获得的实体的 d 维表示;
分别是从token特征空间降维到头实体空间和尾实体空间的两个投影矩阵,允许模型识别每个实体的头或尾; b(·) 是偏置;
最后,对于每个关系 ,预测每个实体对之间的链接,以确定它们是否可以形成有效的三元组:
其中 σ 是 sigmoid 激活函数, 是特定关系的链接矩阵,它模拟两个实体之间关于第 k 个关系的相关性。如果相应的概率 超过某个阈值 θ,三元组 将被视为正确,否则为错误。
此外,由于实体跨度已在数据预处理阶段确定,因此从模型的输出中解码三元组变得简单明了;
也就是说,对于每个关系 ,如果 ,则预测的三元组是 ;
显然,该方法可以自然地识别嵌套实体和重叠三元组(有关不同重叠模式的更多详细信息,请参见附录 A) [Zeng et al., 2018]。
对于嵌套实体识别,正确的实体必须包含在枚举生成的候选实体中。对于 EntityPairOverlap (EPO) 情况,具有不同关系的实体对将被不同的关系特定链接矩阵识别;
对于 SingleEntityOverlap (SEO) 情况,如果两个三元组具有相同的关系,则二分图中将有两条边;如果两个三元组有不同的关系,它们将被不同的链接矩阵识别。对于 HeadTailOverlap (HTO) 情况,重叠的实体会出现在二分图的两个部分,也可以很容易地识别;
DirectRel 的目标函数定义为:
其中是用于训练的实体的数量,K 表示预定义关系的数量,是三元组黄金标签。
实验旨在评估所提出的 DirectRel 的有效性并分析其特性。在本节中,首先介绍实验设置。然后,展示评估结果和讨论:
数据集和评估指标
作者对两个广泛使用的关系三元提取基准进行了实验:NYT [Riedel et al., 2010] 和 WebNLG [Gardent et al., 2017];
NYT:数据集由远程监督生成,它自动将 Freebase 中的关系事实与纽约时报 (NYT) 语料库对齐。它包含 56k 个训练句和 5k 个测试句;
WebNLG:该数据集最初是为自然语言生成(NLG)任务开发的,旨在从给定的三元组生成相应的描述。它包含 5k 个训练句和 703 个测试句;
NYT 和 WebNLG 都有两个版本:一个版本只注释实体的最后一个单词,表示为 NYT* 和 WebNLG*;另一个版本注释了整个实体范围,表示为 NYT 和 WebNLG。下表说明了他们的详细统计数据。值得注意的是,由于本模型采用字节对编码,NYT* 和 WebNLG*中的实体也可能包含多个token
(数据集的统计,N是句子中三元组的数量,E-len表示使用字节对编码(BPE)的实体的最大长度,它决定了超参数C的设置(候选实体的长度))
继之前的作品 [Wei et al., 2020;郑等人,2021; Ren et al., 2022],作者采用标准的微精度(Prec.)、召回率(Rec.)和 F1-score(F1)来评估性能。具体来说,预测的三元组 (h,r,t) 仅在头部 h、尾部 t 及其关系 r 与ground truth相同时才被认为是正确的;
实施细节
作者使用 BERT 的 cased base version(https://huggingface.co/bert-base-cased)作为句子编码器;
因此,token 表示 的维度为 d = 768。投影实体表示的维度 设置为 900;
训练期间,学习率为 1e-5,在 NYT* 和 NYT 上,batch size 设置为 8, 在 WebNLG* 和 WebNLG 上,batch size 设置为 6;
在 NYT*/WebNLG*/NYT/WebNLG 上,候选实体 C 的最大长度分别为 9/6/12/21;
对于每个句子,从 E 中随机选择 = 100 个负实体来优化小批量的目标函数;
如果一个句子中的候选者少于 100 个,则将使用所有负实体;
在推理过程中,预测所有候选实体的链接,最大长度 C 在 NYT*/WebNLG*/NYT/WebNLG 上分别为 7/6/11/20;
所有实验均在配备 AMD 7742 2.25G CPU、256G 内存和单个 RTX 3090 GPU 的工作站上进行。
Baselines
将该模型方法与以下十个基线进行比较:GraphRel [Fu et al., 2019]、MHSA [Yuan et al., 2020]、RSAN [Liu et al., 2020]、CopyMTL [Zeng et al., 2020]、 CasRel [Wei et al., 2020], TPLinker [Wang et al., 2020], CGT [Ye et al., 2021], PRGC [Zheng et al., 2021], R-BPtrNet [Chen et al., 2021] ],BiRTE [Ren 等人,2022 年];
为了公平比较,所有基线的报告结果直接来自原始文献;
主要结果
在下表 中,作者展示了 DirectRel 与 NYT 和 WebNLG 两个版本的十个基线的比较结果。可以观察到,DirectRel 优于所有十个基线,并在所有数据集上的 F1 分数方面达到了最先进的性能;
(DirectRel 和基线的精度(%)、召回率(%)和 F1 分数(%)。 GraphRel、RSAN、MHSA、CopyMTL 使用 LSTM 作为句子编码器,而其他方法使用预训练的 BERT 来获得特征表示)
在这十个基线中,CasRel 和 TPLinker 是通过识别头尾实体的边界标记来组合三元组的代表性方法;
DirectRel 在 NYT* 和 WebNLG*的 F1 分数上的绝对收益比 CasRel 高 3.6 和 2.3;并且在 NYT*、WebNLG*、NYT 和 WebNLG 上的 F1 分数方面分别比 TPLinker 高出 1.3、2.2、0.9、3.3 绝对增益。这些结果表明,通过一步法直接从非结构化文本中提取实体和关系可以有效地解决错误累积问题。
另一个有意义的观察是 DirectRel 在 WebNLG 上获得了最好的 F1 分数。如前所述,WebNLG 上候选实体的最大长度在训练期间设置为 21,在推理期间设置为 20。因此,每个句子都会产生大量的候选实体,对该模型方法提出了很大的挑战。尽管如此,DirectRel在所有基线上的性能都是最好的,这证明了候选实体生成和负实体采样策略的有效性;
复杂场景的详细结果
为了进一步探索 DirectRel 处理复杂场景的能力,将 NYT* 和 WebNLG* 的测试集通过重叠模式和三元组进行拆分,详细提取结果如下表所示。可以观察到DirectRel 在 18 个子集中的 13 个上获得了最好的 F1-score,在其余 5 个子集上获得了第二好的 F1-score;
此外,DirectRel 在提取 EPO 三元组时获得了更多的性能提升。出色性能是因为它的两个优点:
首先,它有效地缓解了错误累积问题并确保了提取三元组的精度;
其次,它在每个实体对之间应用特定于关系的链接,保证三元组提取的召回;
总体而言,上述结果充分证明了作者提出的方法在处理复杂场景时比基线更有效和稳健;
不同子任务的结果
DirectRel 将实体识别和关系分类结合到一步二分图链接操作中,可以更好地捕捉两个子任务之间的交互。此外,一步提取逻辑可以保护模型免受级联错误和曝光偏差的影响;
为了验证这些属性,作者进一步研究DirectRel在两个子任务上的性能。
选择 PRGC 作为基线,因为 :
(1) 它是最先进的三元组提取模型之一;
(2) 它在关系判断和头尾对齐方面非常强大 [Zheng et al., 2021] .
结果如下表所示:
(三元组的结果。 (h, t) 表示实体对,r 表示关系)
可以发现 DirectRel 在所有测试实例上都优于 PRGC,除了 WebNLG* 上的实体对识别精度。这再次验证了动机,即将实体识别和关系提取集成到一步提取过程中可以有效地增强两个任务之间的相关性并提高它们各自的性能。
参数分析
模型最重要的超参数是负样本的数量 ,旨在平衡收敛速度和泛化性能;
分析 对训练时间、GPU 内存和 F1-score 对 NYT* 和 WebNLG* 的影响,结果如下图所示:
(NYT*和 WebNLG*中不同 的影响。训练时间 (ms) 是指训练一个 mini-batch 所需的平均时间,GPU 内存 (MB) 是训练一个 epoch 所需的平均 GPU 内存)
可以观察到,随着的增加,两个数据集上的训练时间、GPU 内存和 F1-score 均呈现上升趋势,这符合常识。其中,模型在 WebNLG* 上的训练时间和 GPU 内存显着高于 NYT*,原因是 WebNLG* 包含的关系比 NYT* 多得多(171 对 24)。
另一个有趣的观察是,随着的增加,模型性能呈现出先增加后降低的趋势。 这一现象表明适度充足的负样本有利于模型训练。
误差分析
DirectRel 没有明确的实体边界识别过程,那么方法中实体识别出错的主要原因是什么?
为了回答这个问题,作者进一步分析了 WebNLG 上的实体错误类型,并在下表中给出了三个错误的分布:跨度分裂错误、未找到实体、实体角色错误。
(WebNL 上三个实体识别错误的分布)
“跨度分裂错误”的比例相对较小,这证明了通过在有向“头→尾”二部图上的链接预测直接提取三元组的有效性;
此外,“实体角色错误”对方法最具挑战性。主要原因是在三元组提取过程中忽略了实体的上下文信息,将这个问题留给未来的工作。
在本文中,作者专注于解决现有关系三元组提取方法中的错误累积问题,并提出了一种基于一步二分图链接的模型,名为 DirectRel,该模型能够直接从非结构化文本中提取关系三元组,无需特定过程确定实体的开始和结束位置。两个广泛使用的数据集的实验结果表明,该模型比最先进的基线表现更好,特别是对于不同重叠模式和多个三元组的复杂场景。