知识图谱中的知识表示学习(Representation Learning)

Word Representation

1. one-hot representation

  • 长度为词典长度,每个词在词典中的位置置1,其余置0
  • Curse of Dimension, 不适合太大的字典
  • 互相正交,难以表示词语之间的相似性

2. distributed representation(词向量)

  • 稠密、实值、低维的向量
  • 便于Deep Learning
  • 相似度用距离表示
  • word2vec
  • king-queen = man-woman

Knowledge Graph

基础

  1. 结构
    • node = entity or class
    • edge = relation
  2. Fact
    • (head, relation, tail)
    • head = subject
    • relation = predicate
    • tail = object

表示

传统使用RDF格式表示知识图谱
目标: 将知识图谱编码到向量空间
方法: Trans系列

1. TransE (translating embedding)

对每个三元组,关系表示成从head到tail的向量,relation看做从head到tail的翻译。

h+r=t


pseudo

第12行是损失函数,让正例的距离趋近0,让反例的距离尽量大。使用随机梯度下降法(SGD)训练。

2. TransH (translating on hyperplanes)

TransE过于简单,很难对一对多,多对一和多对多关系建模。TransH把关系映射到另一个空间。

h+r=t

h=h(wr)Thwr

t=t(wr)Ttwr

transh

3. TransR (translation in the corresponding relation space)

TransE和TransH中,实体和关系全都在一个平面上,然而实体和关系都是不同类型的数据,全在一个平面上不合适。

一个实体是多种属性的综合体,不同关系关注实体的不同属性。直觉上一些相似的实体在实体空间中应该彼此靠近,但是同样地,在一些特定的不同的方面在对应的关系空间中应该彼此远离。

TransR为每个关系r设置了对应的矩阵M_r和向量r,h和t通过映射矩阵M_r转换为关系r相关的实体。

hr+r=tr

hr=Mrh

tr=Mrt

transr

4. TransD (embedding via dynamic mapping matrix)

TransR中的映射矩阵M只和关系r有关,TransD是TransR的加强,它为每个实体和关系定义了两个向量,一个向量用来标识实体或关系的,另一个向量是projection vector, 用来将实体转换为不同关系空间上的向量并用来生成映射矩阵。 TransD相比TransR/CTransR的计算,需要的属性更少,公式中没有矩阵乘以向量的运算,能运用在大规模的图计算上面。

h=Mrhh

t=Mrtt

融合文本和知识图谱

  • 实体融合(多种名称,一词多义)
  • 关系融合
  • 实例融合

1. 实体描述的知识表示学习模型(DKRL)

文本表示方面的2种模型
1. CBOW模型:将文本中的词向量简单相加作为文本表示;
2. 卷积神经网络(convolutional neural network, CNN):能够考虑文本中的词序信息
用于知识图谱补全

2. 文本与知识库融合的知识表示学习

TranE + Word2Vec
利用word2vec学习维基百科正文中的词表示,利用TransE学习知识库中的知识表示,同时,利用维基百科正文中的链接信息(锚文本与实体的对应关系),让文本中实体对应的词表示与知识库中的实体表示尽可能接近,从而实现文本与知识库融合的表示学习


关系路径

1. Path Ranking Algorithm

对于给定的某种关系,判断两个实体之间是否有这种关系。

知识图谱中的知识表示学习(Representation Learning)_第1张图片

思路: 用连接两个实体的路径作为特征,来预测两个实体之间的关系。学习阶段分为特征抽取、特征计算和构造分类器三个部分。预测阶段是使用分类器对任务进行预测。
优点: 可解释性强,自动发现关联规则,准确率高。
缺点: 难以处理稀疏数据,难以处理低连通图,计算耗时。

2. PTransE (Path-based TransE)

从TransE出发,将实体、关系以及路径都在低维的向量空间中表示。
PTransE需要建立关系路径的向量表示,参与从头实体到尾实体的翻译过程。这是典型的组合语义问题,需要对路径上所有关系的向量进行语义组合产生路径向量。
语义组合操作:相加、按位相乘和循环神经网络;其中相加的组合操作效果最好

知识图谱中的知识表示学习(Representation Learning)_第2张图片

你可能感兴趣的:(知识图谱,知识图谱,知识表示,词向量,TransE)