Knowledge Graph Embedding by Translating on Hyperplanes

Knowledge Graph Embedding by Translating on Hyperplanes

0. 问题

  • TransE 无法解决 Reflexive, 1-N, N-1, N-N 等关系
  • TransE 中构造负三元组样本的方式是随机替换三元组中的 h h h t t t, 由于知识图谱不可能包含所有的知识, 可能会构造出正确的三元组, 却把它当作负样本来处理, 引入假阴性的标签

1. 总结

  • 提出一种基于翻译的模型 TransH, 将 r e l a t i o n relation relation 看作是在低维空间中由 h e a d head head t a i l tail tail 在某个超平面上的一种翻译
  • 提出了一种构造负三元组样本的方法, 为每种替换设置不同的概率. 使得 1 − n 1-n 1n 关系中 “替换掉h” n − 1 n-1 n1 关系中 “替换掉t” 有着更大的概率.

2. 主要思想

  • 每个 r e l a t i o n relation relation 由超平面的法向量 w r \mathbf{w}_{r} wr 和该超平面上的翻译向量 d r \mathbf{d}_{r} dr 表示. 约束 h \mathbf{h} h t \mathbf{t} t 在该超平面上的投影 h ⊥ \mathbf{h}_{\perp} h t ⊥ \mathbf{t}_{\perp} t 满足 h ⊥ + d r = t ⊥ \mathbf{h}_{\perp} + \mathbf{d}_{r} = \mathbf{t}_{\perp} h+dr=t .

3. TransH 方法

约束 ∥ w r ∥ 2 = 1 \left\|\mathbf{w}_{r}\right\|_{2}=1 wr2=1, 可得
h ⊥ = h − w r h w r t ⊥ = t − w r t w r \begin{aligned} \mathbf{h}_{\perp} &=\mathbf{h}-\mathbf{w}_{r} \mathbf{h} \mathbf{w}_{r} \\ \mathbf{t}_{\perp} &=\mathbf{t}-\mathbf{w}_{r} \mathbf{t} \mathbf{w}_{r} \end{aligned} ht=hwrhwr=twrtwr
设置三元组分数为
f r ( h , t ) = ∥ h ⊥ + d r − t ⊥ ∥ 2 2 = ∥ ( h − w r h w r ) + d r − ( t − w r t w r ) ∥ 2 2 \begin{aligned} f_{r}(\mathbf{h}, \mathbf{t}) &=\left\|\mathbf{h}_{\perp}+\mathbf{d}_{r}-\mathbf{t}_{\perp}\right\|_{2}^{2} \\ &=\left\|\left(\mathbf{h}-\mathbf{w}_{r} \mathbf{h} \mathbf{w}_{r}\right)+\mathbf{d}_{r}-\left(\mathbf{t}-\mathbf{w}_{r} \mathbf{t} \mathbf{w}_{r}\right)\right\|_{2}^{2} \end{aligned} fr(h,t)=h+drt22=(hwrhwr)+dr(twrtwr)22
损失函数: margin-based loss fuction​
L = ∑ ( h , r , t ) ∈ Δ ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ( h , r , t ) ′ m a x ( 0 , [ f r ( h , t ) + γ − f r ′ ( h ′ , t ′ ) ] ) \mathcal{L}=\sum_{(h, r, t) \in \Delta}\sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta_{(h, r, t)}^{\prime}} max(0, \left[f_{r}(\mathbf{h}, \mathbf{t})+\gamma-f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]) L=(h,r,t)Δ(h,r,t)Δ(h,r,t)max(0,[fr(h,t)+γfr(h,t)])
其中 f r ( h , t ) f_{r}(\mathbf{h}, \mathbf{t}) fr(h,t)表示正样本的分数, f r ′ ( h ′ , t ′ ) f_{r^{\prime}}(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}) fr(h,t)表示负样本. γ \gamma γ m a r g i n margin margin, 最小化损失函数表示约束
f r ( h , t ) + γ ≤ f r ′ ( h ′ , t ′ ) f_{r}(\mathbf{h}, \mathbf{t})+\gamma \le f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right) fr(h,t)+γfr(h,t)
为了保证约束
∀ e ∈ E , ∥ e ∥ 2 ≤ 1 , //控制数据规模 ∀ r ∈ R , ∣ w r ⊤ d r ∣ / ∥ d r ∥ 2 ≤ ϵ , / / 保 证 w r 与 d r 正 交 ∀ r ∈ R , ∥ w r ∥ 2 = 1 , / / 单 位 法 向 量 \begin{array}{l}{\forall e \in E,\|\mathbf{e}\|_{2} \leq 1, \text {//控制数据规模}} \\ {\forall r \in R,\left|\mathbf{w}_{r}^{\top} \mathbf{d}_{r}\right| /\left\|\mathbf{d}_{r}\right\|_{2} \leq \epsilon, //保证 \mathbf{w}_{r}与\mathbf{d}_{r}正交} \\ {\forall r \in R,\left\|\mathbf{w}_{r}\right\|_{2}=1, //单位法向量 }\end{array} eE,e21,//控制数据规模rR,wrdr/dr2ϵ,//wrdrrR,wr2=1,//
对给优化函数加上正则项
L = ∑ ( h , r , t ) ∈ Δ ∑ ( h ′ , r ′ , t ′ ) ∈ Δ ( h , r , t ) ′ m a x ( 0 , [ f r ( h , t ) + γ − f r ′ ( h ′ , t ′ ) ] ) + C { ∑ e ∈ E m a x ( 0 , [ ∥ e ∥ 2 2 − 1 ] ) + ∑ r ∈ R m a x ( 0 , [ ( w r ⊤ d r ) 2 ∥ d r ∥ 2 2 − ϵ 2 ] ) } \mathcal{L}=\sum_{(h, r, t) \in \Delta}\sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta_{(h, r, t)}^{\prime}} max(0, \left[f_{r}(\mathbf{h}, \mathbf{t})+\gamma-f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]) + C\left\{\sum_{e \in E}max(0,\left[\|\mathrm{e}\|_{2}^{2}-1\right])+\sum_{r \in R}max(0, \left[\frac{\left(\mathbf{w}_{r}^{\top} \mathbf{d}_{r}\right)^{2}}{\left\|\mathbf{d}_{r}\right\|_{2}^{2}}-\epsilon^{2}\right])\right\} L=(h,r,t)Δ(h,r,t)Δ(h,r,t)max(0,[fr(h,t)+γfr(h,t)])+C{ eEmax(0,[e221])+rRmax(0,[dr22(wrdr)2ϵ2])}
其中C为超参数, 控制正则项的权重

4. 负采样方法

设每个 t a i l tail tail 对应的 h e a d head head 数量的平均数为 t p h tph tph, 每个 h e a d head head 对应的 t a i l tail tail 数量的平均数为 h p t hpt hpt, 定义参数为 t p h t p h + h p t \frac{t p h}{t p h+h p t} tph+hpttph 的二项分布来抽样,即

  • t p h t p h + h p t \frac{t p h}{t p h+h p t} tph+hpttph 的概率来替换 头实体
  • h p t t p h + h p t \frac{h p t}{t p h+h p t} tph+hpthpt 的概率来替换 尾实体

5. 评估任务

  • 连接预测 (Link Prediction)
  • 三元组分类 (Triplets Classification)
  • 关系抽取 (Relation Fact Extraction)

你可能感兴趣的:(知识表示)