关系抽取(relation extraction)综述

关系抽取的各大数据集的sota方法网址:https://paperswithcode.com/task/relation-extraction

关系抽取的定义

关系抽取就是从一段文本中抽取出**(主体,关系,客体)**这样的三元组,用英文表示就是(subject, relation, object)这样的三元组。所以关系抽取,有的论文也叫作三元组抽取。从关系抽取的定义也可以看出,关系抽取主要做两件事:

  1. 识别文本中的subject和object(实体识别任务)
  2. 判断这两个实体属于哪种关系(关系分类)。

例如,给出如下的句子:刘翔,1983年7月13日出生于上海,中国男子田径队110米栏运行员。我们可以抽取出实体关系三元组实例 (刘翔,出生地,上海)。

关系抽取的现实意义:关系抽取可以为知识图谱的自动构建、搜索引擎、问答等下游任务提供支撑。

关系抽取的分类

1. 根据训练方式分类

根据训练模型的方式是全监督还是半监督,可分为全监督的关系抽取和远程监督关系抽取。
全监督关系抽取
全监督关系抽取任务并没有实体识别这一子任务,因为数据集中已经标出了subject实体和object实体分别是什么,所以全监督的关系抽取任务更像是做分类任务。模型的主体结构都是特征提取器+关系分类器。特征提取器比如CNN,LSTM,GNN,Transformer和BERT等。关系分类器用简单的线性层+softmax即可。

全监督关系抽取常用的数据集是 SemEval-2010 Task 8 dataset,TACRED

经典论文:

  1. Relation Classification via Convolutional Deep Neural Network. COLING 2014
  2. Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification. ACL2016
  3. Classifying Relations by Ranking with Convolutional Neural Networks. ACL2016
  4. Graph Convolution over Pruned Dependency Trees Improves Relation Extraction. EMNLP2018

最新进展(2020以后)

  1. Enriching Pre-trained Language Model with Entity Information for Relation Classification.
  2. Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers.
  3. Downstream Model Design of Pre-trained Language Model for Relation Extraction Task.

远程监督关系抽取
全监督关系抽取的弊端是需要人工标注,这样会耗费大量的人力物力。远程监督是通过已有的外部知识库来标注已有的文本数据。这种方法基于距离监督假设:如果知识库中的实体对之间存在关系,那么每个包含该实体对的文档都会表达该关系。比如只要文本中出现了中国和北京,就将这两个实体标注为首都这个关系,这显然是不正确。

远程监督假设是一个强假设并且会导致错误标签问题,即提到两个实体的句子不一定表达他们在知识库中的关系。因此一般都将远程监督关系抽取任务作为一个多示例学习问题来放宽假设 。

多实例学习:
比如知识库中存在这样的三元组(A, C, B),有句子:[sent1, sent2, sent3, sent4],这个四个句子中都出现了(A,B)实体对,将这四个句子称为一个包(bag),这个包的标签是C。多示例学习是对包标签预测,而不是为每个句子预测关系标签。它假定,如果实体对存在关系,则包中至少有一个示例反映给定实体对的关系。

远程监督关系抽取常用的数据集是: NYT(53种关系)。

远程监督关系抽取,通常来说含有大量的噪声数据(也就是标错的数据),其主要任务是给数据集降噪。

经典论文:

  1. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. EMNLP2015
  2. Neural Relation Extraction with Selective Attention over Instances. ACL2016
  3. Relation Extraction with Multi-instance Multi-label Convolutional Neural Networks. COLING 2016
  4. DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction. ACL18

最新进展(2019以后)

  1. GAN Driven Semi-distant Supervision for Relation Extraction. NAACL19
  2. Fine-tuning Pre-Trained Transformer Language Models to Distantly Supervised Relation Extraction. ACL19
  3. Cross-relation Cross-bag Attention for Distantly-supervised Relation Extraction. AAAI19

2. 根据模型是pipeline还是joint分类

前面提到关系抽取的两个主要任务就是实体识别和关系分类,pipeline方法是将两个任务分离开来分别进行,先进行实体识别,再进行关系分类。这样存在的问题是会存在误差传播的情况,也就是实体识别的误差会影响到后面的关系分类任务,但是关系分类任务却无法对实体识别造成的误差进行优化。为了解决这个问题,目前各种joint方法正在兴起。

pipeline 方法

经典论文:

joint方法

常用数据集:NYT(24种关系),WebNLG

经典论文:

  1. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. ACL2017
  2. Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism. ACL2018

最新进展(2020以后)

  1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. ACL2020
  2. TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking
  3. Joint Entity and Relation Extraction with Set Prediction Networks

未完待续。

你可能感兴趣的:(信息抽取)