【关系抽取】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》

Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised Relation Extraction

Abstract

 和往常的远程监督关系抽取差不多,首先说下远程监督的优点,可以省去标注人力物力;缺点就是按照外部知识来进行标注,容易导致标注的关系是错误的,因此作者提出了CCL(collaborative curriculum learning)来解决远程监督产生的噪音数据,用到了两个selection models来降低噪音数据产生的影响,其中用到的loss函数分别为conflicts loss(文中对该loss进行了大量的实验)或者small loss,最终实验效果达到了sota(当前最好的效果),同时证实了针对远程监督的关系抽取,该模型确实具有降噪的作用。

Introduction

 该部分主要讲了远程监督的关系抽取定义、优缺点和主要的贡献,主要贡献有三点:

1.第一次提出了CCL(collaborative curriculum learning)的概念。

2.不是像以往那样先想法分离噪音数据,然后再训练模型预测,该模型一次训练,实现简单。

3.利用自注意力机制的CNNs提升效果。

4.实验效果达到了SOTA

Related Work

 该部分主要讲了相关的远程关系抽取的方法,这里不多介绍。

Methodology

首先输入:

和以往一样,word Embedding+positionEmbedding

【关系抽取】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》_第1张图片

中间分表包括:zeng的piece-wise pooling CNN(改进,加了个自注意力机制) 和CCL两个模块,最终通过conficts loss 首尾。

【关系抽取】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》_第2张图片

图中(a)主要是用来获取更好的一个句子向量表示x_{i},后面用到了一个包的概念,就是该包里面存在相同实体对的不同句子(当然这个包里很可能包含噪音数据),那么再训练过程中,一个批次中同样存在多个包,那么怎么更好的得到包的表示呢,图(b)就主要说了怎么更好的得到包的表示,分别通过上面的NetAtt模块和NetMax模块,NetAtt模块感觉是借鉴了刘志远老师的论文,通过对每个句子赋值一个权重\alpha系数,然后把包内所有的句子向量表示按不同的权重求和,最后得到S_{bag}^{att}包的表示,NetMax感觉是借鉴了Zeng的PCNN的文章,通过求最有可能代表该包的句子,以该句子的向量表示作为该包的表示S_{bag}^{max},最终通过Conficts 算法进行loss计算,如下图所示:

【关系抽取】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》_第3张图片

其中,loss 函数如:

最后补充一句:文中感觉仅仅利用Algorithm 1 算法来更新权重是否可以换用一种利用额外的神经网络来控制v的大小,而不是简单的0,1两个值切换,因此作者提出了Small loss trick,但是可能该方法效果不好,作者的实验里就提到了两个关于该结果的值,也没有花费大文章解释,因此这里也不再过多介绍。

到此,本论文方案基本介绍结束,如有错误的地方多多交流,改进的地方多给建议,哈哈,晚安喽!

你可能感兴趣的:(【关系抽取】《Self-Attention Enhanced CNNs and Collaborative Curriculum Learning for Distantly Supervised》)