DocRED: A Large-Scale Document-Level Relation Extraction Dataset

1. 介绍

目前RE研究多集中于单句子关系提取:

但本文研究发现有40%左右的关系需从多句中提取。当前docRE数据集:Quirk and Poon(2017) and Peng et al. (2017)基于远程监督构建了docRE数据集(准确度不高); BC5CDR (Li et al., 2016)构建了领域docRE数据集(范围小)。

2. 数据集构建
2.1 人工标注数据集

这里使用的是维基百科词条的介绍部分,因其质量高且包含大部分关键信息。
1)远程监督标注生成
在远程监督的假设下,将维基百科文档与wikidata对齐,从而选择用于人工标注的文档。
百科文档中进行命名实体识别ER->wikidata->确定实体对及其关系。
因推理需要多个实体或者关系,所以丢弃少于128字的文档以及少于4个实体或关系的文档。
2)人工ER以及实体共指(entity coreference)
3)实体链接
使用entity linking toolkit TagMe工具,为减小连接错误导致的损失,将每个实体连接多个wikidata项。
4)根据之前的信息,人工识别关系以及支持这些关系的证据。

2.1 远程监督数据集

使用bert确认人工与远程监督具有同样分布。每个实体连接到一项wikidata,关系通过远程监督标注。

3. 数据分析

Data Size:大
Named Entity Types:人,地名,组织,时间,数字,其他
Relation Types:96种常见关系
Reasoning Types(通过哪种推理得出的关系):模式识别,逻辑推理,共指推理,常识推理
Inter-Sentence Relation Instances:平均每个relation需要1.6个句子的支撑,40%的句子必须通过多句推理得到关系

4.实验

对于文档级远程监督标注将带来更多的错误。
RE模型使用 CNN (Zeng et al., 2014),LSTM (Hochreiter and Schmidhuber, 1997),BiLSTM (Cai et al., 2016),Context-Aware model (Sorokin and Gurevych, 2017)
每个单词输入到编码器的特征是词嵌入,实体类型嵌入,共指嵌入


接下来有些不太明白,有时间看看代码再理解理解。
k个共指实体ei的平均表示
其中每个实体mk
将关系预测看成多分类问题
其中,是文档中第一次提到的两个实体的相对距离,E是嵌入矩阵,是关系类型,,是关系类型相关的可训练参数

你可能感兴趣的:(DocRED: A Large-Scale Document-Level Relation Extraction Dataset)