【论文笔记】Global Textual Relation Embedding for Relational Understanding

一句话概括:

使用全局共同出现的文本和知识库(KB)数据统计来训练embedding

Introduction

动机

  • 在词级别、entity级别至句子级别之间的embedding是缺失的
  • 许多任务需要relation的理解。相比于自己之前提出来的GloRE(global relation embedding)(挺无聊的,就是借鉴了一下glove,创新点非常小,换了个domain耍猴),强调了自己这一波要训练一个general purpose的relation embedding。因为之前的工作训练出来的embedding不是很具有通用性。

行为

这次选用大规模,领域独立的数据并用远程监督来进行标注。

贡献

  • 通用的relation embedding
  • 创造了大规模的通过远程连接标注的数据集(我寻思着也能叫contribution,这不是有手就能做
  • 实验表明我们的方法牛皮

方法

筛选出垃圾relation这是肯定的,这就没什么说的了,没什么技术含量
使用Transformer作为encoder

Textual Relation Embedding Training

input是&{obj<- founded -> subj}&(这一,虽然这个作者写的混淆不清的,但是我自己看来,肯定是不能包含obj和subj的信息的)encoder的输入。
encoder的输出mapping到一个embedding z z z,给定一个textual relation t t t和他的embedding z z z
设定所有的在KB中的relation为 { r 1 , r 2 , . . . , r n } \{r_1, r_2, ..., r_n\} {r1,r2,...,rn} p ( r j ∣ t i ) ~ \tilde{p(r_j|t_i)} p(rjti)~作为全局共现概率。
最终优化目标为:
L = − ∑ i , j p ~ ( r j ∣ t i ) l o g ( p ( r j ∣ t i ) ) L = -\sum_{i,j} \tilde{p}(r_j|t_i)log(p(r_j|t_i)) L=i,jp~(rjti)log(p(rjti))

其中 p ~ ( r j ∣ t i ) \tilde{p}(r_j|t_i) p~(rjti)是共同出现概率。
其中 p ( r j ∣ t i ) p(r_j|t_i) p(rjti)是计算所得,那么计算的公式,就是通过之前的 z i z_i zi了!
p ( r j ∣ t i ) = ( s o f t m a x ( W z i + b ) ) j p(r_j|t_i) = (softmax(Wz_i + b))_j p(rjti)=(softmax(Wzi+b))j

也就是说,作者首先通过全局的共同出现概率作为他们的标准训练信号(或者说label)通过encoder将包含texitual relation t t t的句子转换为embedding z z z,在训练过程中希望embedding z z z能够表征出t。

这就没了。。。。这就没了???

思考 & 自抛自扣

  • relation embedding在类似于transE的工作中已经有了,为什么作者还要做一个embedding呢?
    有趣,因为作者一直强调的是textual realtion,是隐藏在文本中的关系!而tranE之类的工作是在KG上的embdding,会比文本中要简单和纯洁很多:比如,位于这个关系在KG或者KB中,只有单一的表达方式, 但是在textual中有多种表达方式:这个建筑坐落于xx, 这个建筑位于xx都表示了位于这个概念。因此还是有很大区别的。
  • 我不是很明白他的输出最后要表征的textual relation是怎么用的,
    我猜测他所说的embedding应该是除了subj和obj之外的句子+textual relation,通过decoder之后得出的embedding,这个叫做textual relation embedding(你咋不叫 textual relation encoder呢?,哦,原来是encoder不是你想出来的,而是大名鼎鼎的transformer啊。(虽然我是猜的,但我有99.99%的把握。))
  • 我寻思这结果大部分不就比之前的方法高了1%都不到么。。。
    【论文笔记】Global Textual Relation Embedding for Relational Understanding_第1张图片

你可能感兴趣的:(神经网络,自然语言处理,深度学习)