1、本文把实体关系抽取分为三部:关系识别,识别实体,实体对和关系配对。以前的方法多任务方法CasRel,将关系三元组提取分为两个阶段,把object实体对应所有关系。这种方法包含很多不合法的操作,基于span的抽取策略只关注实体的起始和结束位置,扩展性不好。由于其subject-object对齐机制,一次只能处理一个subject,效率低下,部署难度大 。对应一步的TPLinker,为了克服subject-object对齐时的偏差,它利用了一个相当复杂的解码器,导致标签稀疏和收敛速度低,而基于跨度的提取的关系冗余和泛化性差的问题仍未解决。
2、关系识别:用潜在关系预测模块预测可能的关系,而不是保留所有冗余的关系,这样不仅减少计算复杂度还得到更好的结果。特别是对于数据集中包含很多关系的时候。识别实体:本文使用RelationSpecific Sequence Tagging模块分别提取subject和object并且处理嵌套。实体对对齐:不像TPLinker设计一个基于关系的token对矩阵,本文设计了一个关系独立的Global Correspondence矩阵去决定一个subject-object对在一个三元组中是否合法。
3、给定一个句子,PRGC首先预测关系子集,一个全局矩阵包含所有subject和object之间的correspondence得分(被用于最后一步subject和object对齐),然后用序列标注提取对于潜在的关系的subject和object。最后枚举所有预测的实体对,然后由全局对应矩阵修剪。 实验中对各种嵌套的实体(单个实体嵌套、实体对嵌套、subject和object之间嵌套)进行了实验,都达到了很好的效果。
4、首先用bert对句子进行encoder,其decoder中包括上面三个框架,用公式预测每个句子的潜在关系,得到Prel,把它作为一个多标签二分类任务,如果Prel超过阈值,关系标签赋值为1,否则赋值为0。识别实体:进行两个序列标注分别识别subject和object,进行两次的原因是处理subject和object嵌套问题。预测的时候,使用全连接层进行预测,得Pi,j,sub和Pi,j,obj。其中uj是第j个关系表示,其从一个训练的矩阵U中得到。配对: Correspondence矩阵是和预测关系子集的时候一起训练的,因为其和关系没有关系。首先枚举所有可能的subject和object对(识别实体之后的实体对),然后在全局矩阵中检查其得分,如果其得分超过阈值,则将其保留,否则舍弃。由公式得Pi,sub,j,obj,其中hi,sub和hj,obj是两个词encoder的表示.。
1‘、现有的方法都是借助外部资源和背景知识提高关系抽取的结果,忽略了实体对之间的关联性,本文构建了一个实体对图来表示实体对之间的关系,依赖图卷积网络捕获实体对图的拓扑特征。本文的模型EPGNN还结合了由预训练bert产生的句子的语义特征。因此本文充分利用了语料库,放弃对外部资源和背景知识的需求。获取外部资源的方式一般都是由NLP工具生成的,例如解析树,可能会产生误差传播和误差累积。
2、现在的关系抽取模型都是把每个实体对当做一个独立的个体,然而,一个实体对之间的关系可能会由其他的实体对推出。关系抽取模型应该把实体对之间的依赖信息考虑进去。实体对图:实体对作为节点,具有相同的关系类别的,并实体对中有相同部分的节点之间构造边。
3、句子和实体进入bert,句子的表示进入全连接,实体的表示为图中的节点的表示,然后句子的语义特征(全连接层的输出)和图拓扑结构特征(GCN的输出)进行拼接,进入softmax。实体表示:将句子经过bert后的最后一层输出,找出两个实体所在的位置,将其embedding求平均,得到两个实体的向量表示(一维),经过一个全连接,得到实体新的向量表示(fhead、ftail)。把bert的隐藏层表示的第一个token的表示作为句子的初始表示(fcls),和fhead、ftail进行拼接,进入后面的全连接,得到句子的语义特征fc。
1、将句子和两个给定实体映射到知识图 (KG) 中的规范事实。 尤其是对于目前的RE设置,一个句子经常会造成特征稀疏。本文介绍KGPool方法可以解决稀疏问题,用KG中的另外的事实动态的扩增文本。使用神经网络学习这些事实(实体别名、实体描述等)的表示,用来补充序列文本。不像目前存在的方法,使用的是所有事实, KGPool可以根据句子有选择的使用事实。本文KGPool使用自注意力机制在GCN中,为了从KG图中选择子图。
2、目前研究主要是两种RE的变体:多实例RE和句子RE。多实例RE是假设在给定很多句子的前提下,如果两个实体组成一个关系,那么存在至少一个句子和这两个实体包含目标关系,这样研究者就集合上下文信息去支撑RE。在预测 KG 关系时,句子 RE 将文档上下文的范围仅限于输入句子(忽略其他实体对的出现) 。因此,句子RE比多实例RE更困难。RE 的最新方法不仅基于 KG 用于关系库存,而且还考虑将其用于扩展上下文知识以进一步改进 RE 任务 ,虽然知识图很有用,但并不是其中所有的信息都有效,有实验证明,如果把其中所有相关的信息加入,会降低效果。因此,如何动态使用其中的信息至关重要。
3、分为三块:
(1)构建图。把实体、句子、实体属性(别名、描述、instance-of、标签)作为节点,每个实体和其属性进行连接边,实体和其所在的句子连接边,节点表示都是把word embedding和char embedding进行拼接后进入lstm得到,就得到了异构信息图 (HIG) 。
(2)Context Pooling,由3层GCN和一层readout,最后一层GCN有一个pooling。HIG图经过GCN,每一层都设计了一个readout层,设计KG Self-Attention Mask,计算每个节点的重要性,其中的pool只作用在实体属性上,如果一个实体的属性不能提供信息,就会被移除。为了选择相关的实体属性,使用自注意力分数Z,设计节点选择方法来选择属性节点,最后的节点表示都是前面几层的拼接。
(3)Context Aggregator,将所有节点的表示进行拼接,然后进入全连接,softmax,得到分类结果。
1、小样本RE在长尾分布问题中很重要,特别是对于一些特殊领域(卫生或公共安全领域),其含有较少的数据量。目前很多小样本RE方法大多数没能精确的进行分类,因为较少的样本和缺乏相关知识,为了解决这个问题,本文提出实体概念增强的少样本RE策略,它介绍了实体的潜在概念,从而为RE提供了线索。首先概念句子注意力模块,通过计算句子和概念之间的语义相似性来挑选每个实体最接近的概念。其次,基于融合的自注意力模块从不同的语义空间作为一个桥梁弥补概念embedding和句子embedding之间的空隙。
2、目前的少样本RE可以分为两类:直接使用原始数据,不使用外部信息。另一种为使用外部信息,去弥补少样本RE信息不足的问题,例如加入实体的描述信息。
3、sentence representation module使用bert得到句子embedding,concept representation使用预训练的概念embedding,关系分类器使用全连接层。因为句子embedding和实体concept embedding是使用不同的预训练模型得到,其不在一个空间上,所以使用一个映射矩阵P,来讲这两个embedding映射到一个空间,这里P是由一个全连接层实现,然后计算句子embedding和concept embedding之间的相似度,然后将其经过softmax,用一个阈值筛选到底哪个concept 可以用。
4、又是因为这两个embedding不在一个语义空间,设计一个基于融合的自注意力模块,首先将句子embedding和concept embedding进行拼接,然后进入自注意力模块,自注意力模块计算concept和句子中每个word的相似值。
1、相比于新闻领域,从生物医学文本中进行信息抽取需要大量的领域知识,然而,很多之前的方法在推理过程中没有使用外部知识。因为人们为了理解科学文本去寻找相关信息受启发,本文提出结合外部知识的框架,叫做KECI (Knowledge-Enhanced Collective Inference)。经过分析数据,发现数据集中65%的数据都是生物实体的缩写词
2、给定一个文本,KECI首先构建初始span图,其代表对文本的初始理解。实体作为节点,实体之间构建边,为实体之间的关系。然后使用实体linker构建知识图,其包含实体在文本中的背景知识(外部知识库)。其包含语义类型、定义信息、关系信息。然后使用注意力机制融合span图和知识图得到修正的图。KECI 通过使用GCN将全局关系信息集成到本地表示中,采用集体方法将mention spans链接到实体。与之前仅基于局部上下文将mention链接到实体的方法不同,本文的框架采用更集体的方法通过利用全局主题一致性来同时链接多个语义相关的mention。本文的假设是多个mention共现在同一个上下文中,那么它们可能语义相关,并且它们的实体在外部知识库中也应该是连接的。KECI在linking之前用GCN把全局关系信息转化到mention和实体表示中。本文分析表明KECI在没有任何实体链接的情况下,可以自动的选择相关候选实体。并且,由于KECI在预测的时候把文本span作为一个独立的单元,所以其可以处理嵌套实体。