关系抽取总结:信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实体之间的语义关系。如:句子“Bill Gates is the founder of MicrosoftInc.”中包含一个实体对(Bill Gates, Microsoft Inc.),这两个实体对之间的关系为Founder。
串联抽取方法:
论文一:Neural Relation Extraction with Selective Attention over Instances.2016ACL
使用模型:输入:句子à向量表示(降维)àCNN(卷积层、池化层、非线性层)àAttentionà输出
向量表示:一个句子是多维的把高维降成低维,用word2vec工具分为(world,position)
CNN:(卷积层、池化层、非线性层)
Attention:将CNN的全连接层换成了选择性关注机制
论文二: Distant Supervisiopn for Relation Extraction via PiecewiseConvolutional Neural Networks.2015ACL
使用模型:输入:句子à向量表示(降维)àCNN(卷积层、池化层、非线性层)àSoftmax Layers(特征分类à输出
CNN:原始句子经过CNN处理就成为了一个具有多个特征的向量
论文三:Attention-Based Bidirectional LongShort-Term Memory Networks for RelationClassification.2016ACL
使用模型:输入:句子à词嵌入àLSTMàAttentionà输出
输入层:将原始句子输入该层;
向量层:将每个单词映射到一个低维向量,使用word2vec工具。
LSTM层:利用BLSTM从输入的向量得到该句子的强特征
关注层:产生一个权重向量,将LSTM中的每一个时间节点通过这个权重向量联结起来;
输出层:将上面得到的向量运用到关系分类任务上。
联合抽取方法:
论文四:JointEntity and Relation Extraction Based on A Hybrid Neural Network.2017 Neurcomputing
使用模型:输入:句子à词嵌入àBi-LSTM编码àLSTM解码àsoftmaxàCNNàsoftmax layerà输出
Bi-LSTM编码àLSTM解码àsoftmax:用于进行NER(命名实体识别)
CNN:关系分类
通过底层的模型参数共享,在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。
论文五:Aneural joint model for entity and relation extraction from biomedical text.Li etal. BMC Bioinformatics (2017) 18:198 DOI 10.1186/s12859-017-1609-9
使用模型:输入句子à词嵌入àCNNàBi-LSTM-RNNàsoftmax layerà输出
词嵌入:使用工具:word2vec
CNN:实体识别
Bi-LSTM-RNN:关系分类
输出:ADE(不良药物事件抽取)
Given a sentence “A woman who was treated for thyrotoxicosisdiseasewith methimazoledrug developed agranulocytosisdisease.”,the outputs will be three entity mentions
and an ADE relation {methimazoledrug, agranulocytosisdisease}ADE.
论文六:End-to-End RelationExtraction using LSTMs on Sequences and Tree Structures.2016ACL
采用端到端的方式基于序列层和依赖树的结构信息对文本进行关系抽取
使用模型:输入句子àword/pos embeddingà Bi-LSTMàhidden层àsoftmax layerà输出
BI-LSTM/LSTM:特点在于具备强大的序列建模能力,它们能够很好地捕捉上下文信息,同时具备神经网络拟合非线性的能力,LSTM的优点在于获取长时间序列上样本与样本之间的关系,而BiLSTM可以更有效的获取输入语句前后的特征.
End-to-End模型:端到端模型让feature的提取和模型的学习不再分离,通过统一的模型,让机器自己去挖掘feature,自己去分类,真正达到学习的目的。
输入:原始数据(而不需要进行手工提取特征)
输出:期望的输出
论文七:Global Normalization of ConvolutionalNeural Networks for Joint Entity and Relation Classification.Proceedingsof the 2017 Conference on Empirical Methods in Natural Language Processing,pages 1723–1729 Copenhagen, Denmark, September 7–11, 2017. 2017 Association for Computational Linguistics
使用模型:输入:一个句子+两个查询实体àCNNà线性层àCRFà输出(实体,关系,实体)
CNN:本质上卷积层是一个特征抽取层,池化层是一个降维操作,形成最后的特征
CRF:在NER中的应用是给定一系列的特征去预测每个词的标签(关系分类),优点:立足于局部最优解,可求出最大概率的分类标签。为了建一个条件随机场,我们首先要定义一个特征函数集,每个特征函数都以整个句子s,当前位置i,位置i和i-1的标签为输入。然后为每一个特征函数赋予一个权重,然后针对每一个标注序列l,对所有的特征函数加权求和,必要的话,可以把求和的值转化为一个概率值(参考链接:https://www.jianshu.com/p/55755fc649b1)(区别softmaxlayer)
Softmaxlayer:一般是用于分类任务,用softmax可以将最后节点的输出概率限定在0-1之间且所有节点的输出概率之和为1.(参考链接:http://blog.csdn.net/yimixgg/article/details/79582881)
论文八:JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.2017ACL
使用模型:输入句子àword/pos embeddingà Bi-LSTM编码àLSTM解码àsoftmax layerà输出(实体,关系,实体)
特点:提出了一种新的标注策略把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体三元组(目前是最新的方法)
主流模型:BI-LSTM+CRF