Holographic Embeddings of Knowledge Graphs
基于向量的循环相关
P r ( ϕ p ( s , o ) = 1 ∣ Θ ) = σ ( η s p o ) = σ ( r p T ( e s ◦ e o ) ) Pr(\phi_p(s,o)=1|\Theta)=\sigma(\eta_{spo})=\sigma(\mathbf{r}_p^T(\mathbf{e}_s◦\mathbf{e}_o)) Pr(ϕp(s,o)=1∣Θ)=σ(ηspo)=σ(rpT(es◦eo))
ϕ p ( s , o ) \phi_p(s,o) ϕp(s,o):特征函数
◦ :复合算子,从嵌入 e s \mathbf{e}_s es, e o \mathbf{e}_o eo创建 ( s , o ) (s,o) (s,o)的复合向量表示。
min ∑ i = 1 m l o g ( 1 + e x p ( − y i η i ) ) + λ ∣ ∣ Θ ∣ ∣ 2 2 \min\sum_{i=1}^mlog(1+exp(-y_i\eta_i))+\lambda||\Theta||_2^2 mini=1∑mlog(1+exp(−yiηi))+λ∣∣Θ∣∣22
对于关系数据,最小化 logistic 损失具有额外的优势,它可以帮助为复杂的关系模式找到低维的嵌入。
min Θ ∑ i ∈ D + ∑ j ∈ D − max ( 0 , γ + σ ( η j ) − σ ( η i ) ) \min_\Theta\sum_{i\in{D_+}}\sum_{j\in{D_-}}\max(0,\gamma+\sigma(\eta_j)-\sigma(\eta_i)) Θmini∈D+∑j∈D−∑max(0,γ+σ(ηj)−σ(ηi))
例如将现有三元组的概率排序为高于不存在三元组的概率。
d+,d−:表示存在和不存在的三元组的集合。
η j > 0 \eta_j>0 ηj>0:指定边距的宽度。
为了将张量积的表达能力与TransE的效率和简单性结合起来,使用向量的循环相关来表示实体对。
在HOLE中,不只是存储关联,而是学习能最好地解释所观察到数据的嵌入。
1. 复合算子
a ◦ b = a ∗ b a◦b=a\ast b a◦b=a∗b
∗ \mathbf{*} ∗:表示循环相关
P r ( ϕ p ( s , o ) = 1 ∣ Θ ) = σ ( r p T ( e s ∗ e o ) ) Pr(\phi_p(s,o)=1|\Theta)=\sigma(\mathbf{r}_p^T(\mathbf{e}_s\ast \mathbf{e}_o)) Pr(ϕp(s,o)=1∣Θ)=σ(rpT(es∗eo))
使用复合算子相对于卷积的优点
- Non-commutative:对建模有向图的非对称性很有必要。
- Similiarity Component:对实体相似性的关系建模有帮助。
SGD
使用随机梯度下降
e o t + 1 ← e o t − μ ∂ L ∂ f ∂ f ∂ η ( r p t ∗ e s t ) \mathbf{e}_o^{t+1}\leftarrow\mathbf{e}_o^{t}-\mu\frac{\partial L}{\partial f}\frac{\partial f}{\partial \eta}(\mathbf{r}_p^t\ast e_s^t) eot+1←eot−μ∂f∂L∂η∂f(rpt∗est)
μ \mu μ:学习率
把实体和关系都表示为向量。给定一个事实 ( h , r , t ) (h,r,t) (h,r,t),首先使用循环相关操作将实体表示形式组成 h ∗ t ∈ R h*t∈R h∗t∈R。
然后将组合向量与关系表示形式匹配,以对事实进行评分。
公平起见,评价时使用相同的损失和优化方法对参与比较的模型重新训练。
Filter:由于对于给定的 predicate-object,测试集中可以存在多个正确的三元组,因此从 R p ( s ′ , o ) = 1 R_p(s^{'},o)=1 Rp(s′,o)=1 and $ s\neq s{’}$的排序中删除所有实例,只考虑测试实例在所有错误实例中的排序。同理从$R_p(s,o{’})=1$ and $ o\neq o^{’}$的排序中删除所有实例。
l o c a t e d I n ( c , r ) locatedIn(c,r) locatedIn(c,r):c:countries(国家),r:regions(地区)。
l o c a t e d I n ( c , s ) locatedIn(c,s) locatedIn(c,s):s:subregions(次区域)。
任务S1
设置:对于test/valid中,只将 l o c a t e d I n ( c , r ) locatedIn(c,r) locatedIn(c,r)的countries设置为missing。
性能:丢失的三元组几乎可以完美预测。
任务S2
设置:将 l o c a t e d I n ( c , s ) locatedIn(c,s) locatedIn(c,s)中countries和subregions设置为missing。
性能:相对于其他数据集表现最好。
任务S3
设置:将 l o c a t e d I n ( n , r ) locatedIn(n,r) locatedIn(n,r)中countriesn的neighbors,regions设置为missing。
性能:预测难度最大,但相对于其他数据集表现较好。
RESCAL和ER-MLP较差的结果很可能是过拟合导致。