关系抽取论文笔记【研一下&研二上】01

一、《GDPNet: Refining Latent Multi-View Graph for Relation Extraction

1、构建了一个潜在多视图去捕获token之间各种可能的关系,然后进一步改善这个图去选择对关系抽取重要的词。最终改善的图和基于bert的输出进行拼接做最后的关系抽取。(GDPNet

2、首先把所有实体作为节点,它们的表示是由bert的输出得到的。然后用graph pooling operations 改善图,以得到关系抽取中的indicative words。节点之间的边代表两个节点之间的关系。这里的关系包括复杂的句法关系和抽象的语义关系。提出了Gaussian Graph Generator (GGG) 初始化图中的边。在GGG中,首先把每个节点的表示转换为多个高斯分布,边的权重是由计算高斯分布之间的KL散度决定。因为KL散度是不对称的,所以最后的图是有向图。初始化之后,如果句子特别长,整个图会非常大,这会使RE模型很难找到用于关系预测的indicative token。因此提出了Dynamic Time Warping Pooling(DTWPool)进一步改善这个图。

3、每一句话构建一个图(task-specific graph)。

二、《N-ary Relation Extraction using Graph State LSTM》

1、之前的在多个句子上的n元关系抽取都是把输入作为一个文档图,其中结合了不同的句内和句间的依赖性。目前最好的方法是是把输入分成两个有向无环图,然后应用结构化的DAG LSTM网络作用在每个图上面。尽管这种方法通过建立图之间的边可以获得丰富的语义信息,但在分割的过程中会丢失一些重要的信息。

2、一个潜在的解决方案是不分为两个图,而是只有一个图,但是如果只有一个图,则这个图中含有环,简单的tree LSTM无法在这样的图上建模。借鉴于GCN是通过邻居节点聚集信息,本文构建了图LSTM

2、图状态 LSTM 模型,该模型使用并行状态对每个单词进行建模,通过消息传递循环地丰富状态值。 和原来的DAGLSTM模型相比,此模型可以保留原有的图结构,并且允许并行化,可以加速计算。

4、具体的,整个图作为一个单独的状态,图中的词为其子状态。转态在整个图中循环的进行转移,并且允许词级的状态通过边相互转换。在每一次循环中,一个词由其本身的状态和其邻接词的状态聚合而成。所以通过多轮循环,每个词都获得了整片文档中其他词的信息

5、本论文和BI DAG LSTM模型进行对比,详细介绍了baseline的构建过程

三、《Prototypical representation learning for relation extraction

1、从远程标签数据集中学习关系表示非常困难,因为远程标签数据集中含有大量的标签噪音和人类语言的一些复杂的表示。本文从远程标签数据中学习可预测的、可解释的、鲁棒性好的关系表示。我们建议从上下文信息中学习每个关系的原型,以最好地探索关系的内在语义。原型是特征空间中的表示,抽象了句子中实体之间关系的基本语义。我们基于具有清晰几何解释的目标学习原型,其中原型是均匀分散在单位球中的单位向量,语句嵌入集中在球表面上相应原型向量的末端。最终我们可以学习到对最终的分类有意义、可解释的原型。

2、我们为每个关系增加一个原型,并从每个语句的语义中学习表示,而不仅仅是从嘈杂的远距离标签中学习。

3、这些原型本质上充当不同关系的数据表示类簇的中心,并被表达相同关系的语句包围。

四、《Improving Relation Extraction with Relational Paraphrase Sentences》

1、之前的模型依赖人工标注的数据,其不能覆盖丰富的关系表示,我们可以增加标注者或用远程监督的方法来扩大标签数据,但这样代价比较高。本文提出一种可替代的方案,通过relational paraphrase 句子丰富表示,来提升RE系统。首先基于标注好的数据,我们自动构建基于任务的paraphrase数据。然后,一个新的模型用于学习丰富的关系表示中的信息。

2、本文使用paraphrase数据,它收集用不同措辞(different wording)表达相同含义的句子。平常的paraphrase数据集对应实体和关系没有明确的线索,如果直接用,会影响最后的效果。本文自动的构建了基于任务的paraphrase数据,它有清晰的线索。

3 paraphrase数据构建的过程就是一个来回翻译的过程,本文使用了三个翻译器,都是把英文翻译成中文,再把中文翻译回去,就形成一条新的样例。但在翻译的过程中存在几个问题:实体位置会丢失,这个问题有两个解决方面,要进行实体对齐,首先可以在翻译之前对句子进行预处理,其次是在翻译之后再对句子进行处理,本文尝试使用的是提前处理的方式,在每个实体的两侧加一个#,但这种方法不可行,因此针对这个问题,设计了一个基于上下文相似性的方法去匹配实体。第二是翻译的过程中可能会翻译错误,针对此问题,本文提出了多实例(mult-iinstance)学习模块对多个paraphrase句子进行建模。第三是如何保证句子的多样性,本文把每个翻译系统作为一个独立的知识库,每个翻译系统都会按照自己的方式翻译句子。把来回翻译后的句子和原始句子一起作为总的训练数据Relational Paraphrase (ReP) Data

4、对齐过程:使用bert得到原句子和翻译后的句子的embeddingst,然后计算余弦相似度得到。

5、模型分为三个部分:sentence encoder,把句子弄成分布式表示,mult-iinstance learning module,把paraphrase句子从一个输入单元转为混合分布表示,relation extractor,把最终的表示进行分类。

五、《SENT: Sentence-level Distant Relation Extraction via Negative Training

1、远程监督关系抽取一般使用统一的标签集合,但是直接使用这些标签集合会产生很多噪音,因此影响最终结果。本文提出负例训练,训练一个模型,让其判断哪些实例的类别不属于这个标签集合中的任何一个,因为选择一个真实标签作为补充标签的概率很低,因此产生的噪音就少一些。并且,这样训练出的模型可以从训练数据中判断出噪音数据,基于此,本文提出基于句子的框架(SENT),作用在远程关系抽取。本模型不仅可以过滤出噪音数据,而且还可以为噪音数据重新打标签,让其成为有用的训练数据。

2、远程监督是对数据库和原始文本进行对齐,但这种方法会产生很多噪音。多实例学习可以解决这个问题,在多实例学习中,训练和测试过程表示为一个bag级别,一个bag包含的噪音句子中包含相同的实体对,但是肯定不是具有相同的语义含义。多实例学习可以分为两大类:软降噪方法,加soft权重,hard降噪方法,直接从bag中删除句子。但是这种bag-level方法不能给在bag里的句子打上清晰的标签。这会给下游任务造成问题。一般是对整个bag打标签,无法准确的知道bag里的每个句子的具体的标签,并且句子真实的标签可能也不在bag标签集合中。

3、在远程REbag级别标签的基础上,三部走,首先筛选出训练数据中的噪音数据,然后尽可能的给噪音数据打标签,最后,结合前两步提高性能。

你可能感兴趣的:(自然语言处理,pytorch,深度学习)