下面主要从关系抽取的定义、关系抽取的主流评测数据集、关系抽取的主流方法、关系抽取相关的经典论文、相关代码资源几个方面进行介绍。
转载请注明出处:https://blog.csdn.net/CSDN_wujian/article/details/100136621
关系抽取是从一段文本中提取出发生在两个实体或多个实体之间的语义关系的任务。关系抽取Relation Extraction,也称关系分类Relation Classification(判断实体Entity之间属于哪种关系,多分类
问题)
根据处理数据源的不同,关系抽取可以分为以下三种:
根据抽取文本的范围不同,关系抽取可以分为以下两种:
根据所抽取领域的划分,关系抽取又可以分为以下两种:
包含599 docs. 定义了7 种关系
(收费的)官网:https://www.ldc.upenn.edu/language-resources/data/obtaining,官网注册会员,花钱购买
NYT是远监督关系抽取
(distantly supervised relationship extraction)所用的标准预料数据,发布于 Riedel et al, 2010.该篇论文中。
包含的文本来源于纽约时报New York Times所标注的语料,其中的命名实体是通过 Stanford NER 工具并结合 Freebase知识库进行标注的。命名实体对之间的关系是链接和参考外部的Freebase知识库中的关系,结合远监督
方法所得到的。
Example:
Elevation Partners, the $1.9 billion private equity group that was founded by Roger McNamee
(founded_by, Elevation_Partners, Roger_McNamee)
TACRED 是一个大规模的关系抽取数据集,包含106,264 样本,和41种关系类型,文本内容主要是新闻文本和 TAC Knowledge Base Population (TAC KBP) 竞赛的文本语料. 例如(e.g., per:schools_attended and org:members) or “no_relation ” 这些样本来自于TAC KBP 竞赛中的人为标注和众包。
Example:
Billy Mays, the bearded, boisterious pitchman who, as the undisputed king of TV yell and sell, became an inlikely pop culture icon, died at his home in Tampa, Fla, on Sunday.
(per:city_of_death, Billy Mays, Tampa)
The Few-Shot Relation Classification Dataset (FewRel) .该数据集包含70000条句子,100种关系,每种关系包含700条句子。通过 Wikipedia 语料和众包完成。The few-shot learning(小样本学习)
task follows the C-way K-shot meta learning setting. 它是目前最大的监督关系抽取的数据集,也是目前最大的FewShot学习的数据集,FewRel数据获取
这三种方法中,有监督学习法因为能够抽取并有效利用特征,在获得高准确率和高召回率方面更有优势,是目前业界应用最广泛的一类方法。
限定域关系抽取方法:
有监督的关系抽取方法:
弱监督的关系抽取方法:不需要人工标注大量数据。
开放域关系抽取方法:
华盛顿大学课程中关系分类的方法总结:
Supervised RE: summary
Reference:https://courses.cs.washington.edu/courses/cse517/13wi/slides/cse517wi13-RelationExtraction.pdf
参考:http://nlpprogress.com/english/relationship_extraction.html
The main metrics used are either precision at N results or plots of the precision-recall
评测指标:横坐标为召回率Recall,纵坐标为精准率Precision,画出PR(precision-recall)曲线,例如目前最新最好的效果为Recall=0.1时,Precision=0.849;Recall=0.3时,Precision=0.728
评测指标:macro-averaged F1
,在评测时不考虑“Other”这一种关系。
对各个混淆矩阵分别计算Precision和Recall,从而使用宏精准率macro_precison、宏召回率macro_recall、宏F1 macro_F1
分类模型的效果评估
The main evaluation metric used is micro-averaged F1
over instances with proper relationships (i.e. excluding the no_relation type).
micro_F1: 对各混淆矩阵中对应元素(TP、FN、FP、TN)分别求平均值,从而使用微精准率micro_precison、微召回率micro_recall、微F1 micro_F1
few-shot learning:样本种类很多,选取其中的C个类别进行学习,每个类别选取K个样本,进行学习,然后预测这C个类别中样本,即C-Way-K-Shot小样本学习,内在主要是判断每种类别之间的差异,相似样本之间进行类比。例如,小朋友学习认识小动物,选取5种动物,每种动物选取2张照片,进行学习,然后在一堆这5种动物的照片给他指认,这就是一个5-Way-2-Shot的一个小样本学习。FewShot介绍
http://www.zhuhao.me/fewrel/
https://www.cnblogs.com/theodoric008/p/7874373.html
Relation Classification via Convolutional Deep Neural Network
论文信息:Zeng et al. Proceedings of COLING 2014
模型名称:DNN
论文内容:第一次把CNN卷积神经网络用在关系分类中,使用Lexical Level Features特征:实体1词向量、实体2词向量、实体1的左右词的词向量、实体2的左右词的词向量、实体1和实体2在Wordnet中的上位语义词的词向量,以及 Sentence Level Features特征:[Word Features, Position Features],最后将Lexical Level Features和 Sentence Level Features进行拼接,利用CNN,max pooling进行分类。在SemEval2008数据集上实现了F值0.827的效果。该论文开启了CNN深度学习模型在关系抽取的先河,后续很多论文都引用这篇论文。
Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks
论文信息:Zeng et al. 2015 EMNLP
模型名称:PCNN
论文内容:非常经典的文章,分段式的max pooling
Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification
作者信息:中科大自动化所 Zhou ACL 2016
模型名称:BLSTM + ATT
论文内容:简单有效。使用BLSTM对句子建模,并使用word级别的attention机制。
Neural Relation Extraction with Selective Attention over Instances
作者信息:清华 Lin et al. 2016
模型名称:CNN+ATT / PCNN+ATT
论文内容:使用CNN/PCNN作为sentence encoder, 并使用句子级别的attention机制。近几年标杆的存在,国内外新论文都要把它拖出来吊打一遍。
Deep Residual Learning forWeakly-Supervised Relation Extraction
作者信息:Yi Yao Huang 台湾国立大学 EMNLP 2017
模型名称:ResCNN-9
论文内容:本文使用浅层(9)ResNet作为sentence encoder, 在不使用piecewise pooling 或者attention机制的情况下,性能和PCNN+ATT 接近。这就证明使用更fancy的CNN网络作为sentence encoder完全是有可能有用的。不光光可以在本任务中验证,其他的NLP任务同样可以使用。可以参考知乎笔记: https://zhuanlan.zhihu.com/p/31689694
Distant Supervision for Relation Extraction with Sentence-Level Attention and Entity Descriptions
作者信息:Ji 2017 中科院自动化所 AAAI 2017
模型名称:APCNNs(PCNN + ATT) + D
论文内容:引入实体描述信息,个人认为没什么亮点,引入外部信息固然有效,但是很多时候实际问题中遇到的实体大多是找不到实体描述信息的。参考知乎笔记: https://zhuanlan.zhihu.com/p/35051652
论文名称: Learning with Noise: Enhance Distantly Supervised Relation Extraction with Dynamic Transition Matrix
作者信息: ACL 2017 Luo 北大
模型名称:CNN + ATT + TM (这名字是我给起的)
论文内容:文章出发点很好。既然远程监督数据集最大的问题在于噪音非常之多,那么对于噪音进行描述则是非常有意义的。本文创新点有两个。第一个是,我们让模型先学习从输入空间到真实标签空间的映射,再用一个转移矩阵学习从真实标签空间到数据集标签空间的错误转移概率矩阵。这不是本文提出的方法,本文在此基础之上进行改进,将该矩阵从全局共享转化为跟输入相关的矩阵,也就是文中提到的动态转移矩阵,性能有提升。第二个出创新点在于使用了课程学习。课程学习的出发点在于模型如果先学习简单样本再学习难样本,这样一种先易后难的学习方式比随机顺序学习更好。最终在NYT数据集上有小小的提升,但是本文的思路非常值得借鉴。可只可惜没有源代码。参考知乎笔记 https://zhuanlan.zhihu.com/p/36527644
Effectively Combining RNN and CNN for Relation Classification and Extraction
作者信息: SemEval 2018 四项任务 三项第一,一项第二 ETH Zurich
模型名称:作者没起名字
论文内容:这是一篇打比赛的文章,工程性的内容很多。核心技巧在于使用CNN, RNN模型集成。文中还提到了多种方法,不择手段提升最终模型的性能。虽然该模型训练速度可以说是非常慢了,但是还是有很多地方可以借鉴。 参考知乎笔记:https://zhuanlan.zhihu.com/p/35845948
Joint Extractions of Entities and Relations Based on a Novel Tagging Scheme
作者信息: Zheng 2017 中科院自动化所
模型名称:LSTM-CRF, LSTM-LSTM,LSTM-LSTM-Bias
论文内容:把关系抽取内容转换成序列标注任务 参考知乎笔记https://zhuanlan.zhihu.com/p/31003123
https://github.com/thunlp/OpenNRE
https://github.com/crownpku/Information-Extraction-Chinese
https://github.com/thunlp/NRE
https://github.com/bojone/kg-2019
https://github.com/thunlp/FewRel
https://github.com/ShomyLiu/pytorch-relation-extraction
https://github.com/buppt/ChineseNRE
https://github.com/yuanxiaosc/Entity-Relation-Extraction
https://github.com/hadyelsahar/CNN-RelationExtraction
https://github.com/yuhaozhang/tacred-relation
https://github.com/roomylee/cnn-relation-extraction
https://github.com/lawlietAi/pytorch-acnn-model
https://github.com/ShulinCao/OpenNRE-PyTorch
https://github.com/thunlp/JointNRE
https://github.com/darrenyaoyao/ResCNN_RelationExtraction
https://github.com/Sshanu/Relation-Classification-using-Bidirectional-LSTM-Tree
https://github.com/yuanxiaosc/Schema-based-Knowledge-Extraction
https://github.com/thunlp/Chinese_NRE
分类模型的效果评估
关系抽取(分类)总结:http://shomy.top/2018/02/28/relation-extraction/
知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?
CIPS青工委学术专栏第3期 | 基于深度学习的关系抽取
实体关系抽取 entity relation extraction 文献阅读总结
读书笔记:关系抽取和事件抽取
Relation Extraction Survey