DocRED数据集是由清华大学整理的文档级关系抽取数据集,近几年的文档级关系抽取的最新工作基本都是将此数据集作为主要的实验对象。
文档中的多个实体通常表现出复杂的句间关系,现有的关系提取 (RE) 方法通常侧重于提取单个实体对的句内关系,因此无法很好地处理这些问题。为了加速对文档级 RE 的研究,我们引入了 DocRED,这是一个由 Wikipedia 和 Wikidata 构建的新数据集,具有三个特点:(1)DocRED 同时标注了命名实体和关系,是最大的纯文本文档级关系抽取人工标注数据集; (2) DocRED需要阅读文档中的多个句子,通过综合文档的所有信息来提取实体并推断它们之间的关系; (3) 除了人工标注的数据,我们还提供大规模的远程监督数据,这使得 DocRED 可以用于监督和弱监督场景。为了验证文档级 RE 的挑战,我们实施了最近最先进的 RE 方法,并在 DocRED 上对这些方法进行了全面评估。实证结果表明,DocRED 对现有的 RE 方法具有挑战性,这表明文档级 RE 仍然是一个悬而未决的问题,需要进一步努力。基于对实验的详细分析,我们讨论了未来研究的多个有前景的方向。
为了加速文档级关系抽取的研究,本文提出了一个新的文档级关系抽取数据集——DocRED,这个数据集有三大特点,并且通过实验验证了DocRED 对现有的关系抽取方法具有挑战性,文档级关系抽取值得进一步去研究。
每个文档中的样例中,标注有命名实体识别(named entity mentions)、共指信息(coreferance information)、句内和句间关系(intra- and inter-sentence relations)、支持证据(supporting evidence)。在文档中大量关系事实==(什么是关系事实?)==是通过多个句子来表达的。
句子1-(Stockholm, the capotal of, Sweden) + 句子4-(Riddarhuset, locate in, Stockholm) → \to → (Riddarhuset, country, Sweden).该过程需要阅读和推理文档中的多个句子,根据本文从维基百科文档中抽取的人工注释语料库统计,至少有 40.7% 的关系事实只能从多个句子中提取出来,这是不可忽略的。因此,有必要将 RE 从句子级别推进到文档级别。
现有的一些文档级关系抽取数据集:
非人工标注:Quirk and Poon (2017) and Peng et al. (2017)是远程监督生成的数据集,没有人工标注,噪声大。
特定领域:BC5CDR(Li et al,2016)是一个人工注释的文档级RE数据集,由1500个PubMed文档组成,这些文档在生物医学的特定领域仅考虑“化学诱导的疾病”关系,使其不适合开发通用的文档级RE的目的方法。
特定方法:Levy等人(2017)通过使用阅读理解方法回答问题从文档中提取关系事实,其中问题从实体关联对转换。由于这个工作中提出的数据集是针对特定方法量身定制的,因此它也不适用于文档级RE的其他潜在方法
存在各种问题,所以提出了DocRED
即现有的文档级 RE 数据集要么只有少量手动注释的关系和实体,要么显示来自远程监督的嘈杂注释,要么服务于特定领域或方法。为了加速文档级RE的研究,我们迫切需要一个大规模的、人工标注的、通用的文档级RE数据集。
DocRED是由维基百科和维基数据构建而成的大规模人工标注的通用文档级关系抽取数据集,有以下特点:
为了评估 DocRED 的挑战,本文实施了最近最先进的 RE 方法,并在各种设置下对 DocRED 进行了彻底的实验。实验结果表明,现有方法在 DocRED 上的性能显着下降,表明文档级 RE 该任务比句子级 RE 更具挑战性,仍然是一个悬而未决的问题。此外,对结果的详细分析还揭示了多个值得追求的有前途的方向。
数据集构建的最终目标:包含命名实体识别、实体共指、所有实体对的关系和关系实例的支持证据的人工标注数据和大规模远程监督数据的数据集。
(1)为维基百科文档生成远程监督标注。
(2)标注文档中提及的所有命名实体和共指信息。
(3)将命名实体提及链接到维基数据项。
(4)标签关系及相应的支持证据。
根据ACE 注释过程其中(2)、(4)步都需要对数据进行三次迭代:(1) 使用命名实体识别 (NER) 模型生成命名实体,或使用远程监督和 RE 模型生成关系推荐。 (2) 人工更正和补充建议。 (3) 审查并进一步修改第二遍的注释结果,以提高准确性和一致性。为了确保注释者得到良好的训练,采用了有原则的训练程序,并且要求注释者在注释数据集之前通过测试任务。并且只有经过精心挑选的有经验的标注者才有资格进行第三遍标注。
使用维基百科文档多种的介绍部分作为语料库(corpus),因为它们通常是高质量的并且包含大部分关键信息。
而维基数据是与维基百科紧密集成的大规模知识库,语料库的文本和知识库之间是强对齐的。
We use the 2018-5-24 dump of English Wikipedia and 2018-3-20 dump of Wikidata.
为维基百科文档生成弱监督标注
长度小于128字的文档被丢弃。为了鼓励推理,我们进一步丢弃包含少于4个实体或少于4个关系实例的文档
输入:维基百科文档、维基数据数据项
输出:107,050个具有远程监督标签的文档,其中我们随机选择5053个文档和最常见的96个关系进行人工注释。
生成的中间语料库包含各种命名实体类型,包括不属于上述类型的人员、位置、组织、时间、数量和其他实体的名称。
输入:stage 1中的命名实体提及建议
输出:修正后的实体提及和共指信息
输入:命名实体和维基数据项
输出:关系建议
关系和支持证据的注释基于阶段2,并面临两个主要挑战。第一个挑战来自文档中大量的潜在实体对。一方面,考虑到文档中潜在实体对的数量是实体数量的二次元数(平均19.5个实体),穷竭地标记每个实体对之间的关系会导致繁重的工作量。另一方面,文档中的大多数实体对不包含关系。第二个挑战在于我们的数据集中存在大量细粒度关系类型。因此,注释者从头开始标记关系是不可行的。通过为人工注释人员提供来自RE模型的建议,以及基于实体链接的远程监督(阶段3)来解决这个问题。 → \to →为了缓解标注压力,说明提供给人工注释人员哪些关系建议
输入:关系建议
输出:关系实例、支持证据
从106926个文档中删除了5053个人工注释文档,并使用剩下的1010873个文档作为远程监督数据的语料库。
将分析DocRED的各个方面,以便更深入地理解数据集和文档级RE的任务。
代表性关系抽取数据集:
DocRED在很多方面都比现有的数据集要大,包括文档、单词、句子、实体的数量,特别是在关系类型、关系实例和关系事实方面。我们希望大规模的DocRED数据集能够推动从句子级到文档级的关系提取。
DocRED涵盖了人(18.5%)、地点(30.9%)、组织(14.4%)、时间(15.8%)、数字(5.1%)等多种实体类型。它还涵盖了不属于上述类型的各种各样的实体名称(15.2%),如事件、艺术作品和法律。每个实体平均被注释1.34次。
These types include “Person (PER)”, “Organization (ORG)”, “Location (LOC)”, “Time (TIME)”, “Number (NUM)”, and “other types (MISC)”(miscellaneous entity names). The types of named entities in DocRED and their covered contents are shown in Table 9.
我们从开发和测试集中随机抽取300个文档,其中包含3820个关系实例,并手动分析提取这些关系所需的推理类型。表2显示了我们数据集中主要推理类型的统计数据。从推理类型的统计中,我们发现:
总之,DocRED需要丰富的推理技能来综合文档的所有信息。
我们发现每个关系实例平均与1.6个支持句相关,其中46.4%的关系实例与一个以上支持句相关。此外,详细分析表明,40.7%的关系事实只能从多个句子中提取,这表明DocRED是文档级RE的一个很好的基准。我们还可以得出结论,对于文档级RE来说,多句阅读、综合和推理能力是必不可少的。(40.7%的关系事实只能从多个句子中提取和大多数关系实例(61.1%)需要推理来识别,这两个数据的差别在哪些地方?)
我们分别为监督和弱监督场景设计了两种基准测试设置。对于这两种设置,RE系统都在高质量的人工注释数据集上进行评估,这为文档级RE系统提供了更可靠的评估结果。表3显示了用于这两种设置的统计数据。
使用5053个监督文档,随机分为训练集,开发集和测试集。监督设置为文档级RE系统带来了以下两个挑战:
此设置与监督设置相同,只是训练集被远程监督数据替换(第 2.2 节)。除了上述两个挑战外,远程监督数据不可避免的错误标记问题是弱监督环境下 RE 模型的主要挑战。许多努力致力于缓解句子级 RE 中的错误标签问题(Riedel 等人,2010 年;Hoffmann 等人,2011 年;Surdeanu 等人,2012 年;Lin 等人,2016 年)。然而,文档级远程监督数据中的噪声明显多于句子级的噪声。例如,对于在人类注释数据收集的第 4 阶段(第 2.1 节)中头尾实体同时出现在同一个句子中的推荐关系实例(即句内关系实例),41.4% 被标记为不正确,而 61.8% 的句间关系实例被标记为不正确,表明错误标记问题对于弱监督文档级 RE 更具挑战性。因此,我们相信在 DocRED 中提供远程监督数据将加速文档级 RE 远程监督方法的发展。此外,还可以联合利用远程监督数据和人工注释数据来进一步提高 RE 系统的性能。
为了评估 DocRED 的挑战,我们进行了综合实验,以评估数据集上最先进的 RE 系统。具体来说,我们在监督和弱监督基准设置下进行实验。我们还评估人类表现并分析不同支持证据类型的表现。此外,我们进行消融研究以调查不同特征的贡献。通过详细分析,我们讨论了文档级 RE 未来的几个方向。
前三个模型仅编码器不同。将文档 D D D利用CNN/LSTM/BiLSTM作为编码器得到隐藏状态向量 { h i } i = 1 n \{h_i\}^{n}_{i=1} {hi}i=1n ,然后计算实体的表示,最后预测每个实体对的关系。
对于每个词,提供给编码器的特征是其 GloVe 词嵌入(Pennington 等人,2014 年)、实体类型嵌入和共指嵌入的串联。实体类型嵌入是通过使用嵌入矩阵将分配给单词的实体类型(例如,PER、LOC、ORG)映射到向量中获得的。实体类型由人工为人工标注数据分配,由微调的 BERT 模型为远程监督数据分配。与同一实体相对应的命名实体提及项被分配了相同的实体 ID,该 ID 由其在文档中首次出现的顺序确定。实体 ID 作为共指嵌入映射到向量中。
命名实体提及的词向量由隐状态的平均得到,实体的词向量由命令实体提及的平均得到。
[ ⋅ ; ⋅ ] [·; ·] [⋅;⋅]表示连接, d i j d_{ij} dij和 d j i d_{ji} dji是文档中两个实体第一次提及的相对距离, E E E是嵌入矩阵, r r r是关系类型, W r W_r Wr, b r b_r br是依赖于关系类型的可训练参数。
A c c u r a c y = ( T P + T N ) ( T P + T N + F P + F N ) Accuracy = \frac{(TP+TN)}{(TP+TN+FP+FN)} Accuracy=(TP+TN+FP+FN)(TP+TN)
P r e c i s i o n = T P ( T P + F P ) Precision = \frac{TP}{(TP+FP)} Precision=(TP+FP)TP
R e c a l l = T P ( T P + F N ) Recall = \frac{TP}{(TP+FN)} Recall=(TP+FN)TP
F 1 = 2 ∗ ( P r e c i s i o n ∗ R e c a l l ) ( P r e c i s i o n + R e c a l l ) F1 = \frac{2*(Precision*Recall)}{(Precision+Recall)} F1=(Precision+Recall)2∗(Precision∗Recall)
F1值就是Precision和Recall的调和平均数,如果只考虑精确度或者只考虑召回率都不能够作为评价一个模型好坏的指标,所以使用F1值来调和两者,兼容到精确度和召回率。F1值最大值为1,最小值为0,精确度越高越好,召回率越高越好,可以在0~1的这个值域内,F1越大越好。
然而,一些相关事实同时存在于训练集和开发/测试集中,因此模型可能会在训练期间记住它们之间的关系,并以一种不受欢迎的方式在开发/测试集上取得更好的性能,从而引入**评估偏差。**然而,训练集和开发/测试集之间的关系事实重叠是不可避免的,因为许多共同的关系事实可能在不同的文档中共享。因此,我们还报告了F1分数不包括训练集和开发/测试集共享的那些相关事实,表示为 Ign F1。
AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。ROC曲线全称为受试者工作特征曲线(receiver operating characteristic curve),它是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率为纵坐标,假阳性率为横坐标绘制的曲线。
T P R a t e = T P T P + F N TP_{Rate}=\frac{TP}{TP+FN} TPRate=TP+FNTP
F P R a t e = F P F P + T N FP_{Rate}=\frac{FP}{FP+TN} FPRate=FP+TNFP
结果:
为了评估人类在DocRED上的文档级RE任务中的表现,我们从测试集中随机抽取了100个文档,并要求其他众包工作人员识别关系实例和支持证据。以与第2.1节相同的方式确定的关系实例被推荐给众包工作者提供帮助。第2.1节中收集的原始注释结果作为ground truth。我们还提出了联合识别关系实例和支持证据的子任务,并设计了一个管道模型。表5显示了RE模型和人的性能。人类在文档级RE任务(RE)和联合识别关系和支持证据任务(RE+Sup)上都取得了有竞争力的结果,说明DocRED的上限性能和注释者之间的一致性都比较高。此外,RE模型的总体性能明显低于人类的性能,这表明文档级RE是一项具有挑战性的任务,并表明有足够的改进机会。
为了研究从不同类型的支持性证据中综合信息的难度,我们将开发集中的12,332个关系实例分为三个不相干的子集。
TP知道、FN知道,当一个模型预测了一个错误的关系时,我们不知道哪些句子被用作支持证据,因此预测的关系实例不能被归入上述子集?
因此只能计算recall,不能计算precision。
单一的召回率为51.1%,混合的召回率为49.4%,而多重的召回率为46.6%。这表明,虽然mix中的多个支持性句子可以提供互补的信息,但要有效地综合丰富的全局信息是具有挑战性的。此外,对多个句子的表现不佳表明,RE模型在提取句子间的关系方面仍有困难
我们对 BiLSTM 模型进行特征消融研究,以研究不同特征在文档级 RE 中的贡献,包括实体类型、共指信息和实体之间的相对距离(等式 1)。表 6 显示上述特征都对性能有贡献。具体来说,实体类型由于对可行关系类型的约束而贡献最大。共指信息和实体之间的相对距离对于合成来自多个命名实体提及的信息也很重要。这表明 RE 系统在文档级别利用丰富的信息很重要。
我们提出了一项新任务来预测关系实例的支持证据。一方面,联合预测证据提供了更好的可解释性。另一方面,从文本中识别支持证据和推理相关事实自然是具有潜在相互促进作用的双重任务。我们设计了两种支持证据的预测方法:(1)启发式预测器。我们实现了一个简单的基于启发式的模型,该模型将所有包含头部或尾部实体的句子视为支持证据。 (2) 神经预测器。我们还设计了一个神经支持证据预测器。给定一个实体对和一个预测关系,句子首先通过单词嵌入和位置嵌入的串联转换为输入表示,然后输入 BiLSTM 编码器进行上下文表示。受 Yang 等人 (2018) 的启发,我们将 BiLSTM 在第一个和最后一个位置的输出与可训练关系嵌入连接起来,以获得句子的表示,用于预测该句子是否被用作给定关系的支持证据实例。如表 7 所示,神经预测器在预测支持证据方面明显优于基于启发式的基线,这表明 RE 模型在联合关系和支持证据预测方面的潜力。
从以上的实验结果和分析中我们可以得出结论,文档级的RE比句子级的RE更具挑战性,需要加紧努力来缩小RE模型的性能与人类之间的差距。我们认为以下研究方向是值得关注的。
近年来为RE构建了多种数据集,极大地促进了RE系统的发展。
DocRED 由具有丰富信息的众包工作者构建,并且不限于任何特定领域,这使其适合训练和评估通用文档级 RE 系统。
为了促进RE系统从句子层面到文档层面的发展,我们提出了DocRED,一个大规模的文档级RE数据集,其特点是数据量大,要求对多个句子进行阅读和推理,并为促进弱监督的文档级RE的发展提供了远距离监督数据。实验表明,人类的表现明显高于RE基线模型,这表明未来有大量的改进机会。