知识图谱嵌入的衡量指标:MRR,MR,HITS@n

       衡量知识图谱嵌入(Knowledge Graph Embedding,KGE)模型性能中最常用的几个指标:MRR,MR,HITS@n。

       在进行KG嵌入时,首先把实体以及关系随机初始化为一定维度的向量,然后进行训练,目的使(头实体+关系)向量与尾实体向量在空间中的表示尽可能相近。训练完成后,需要衡量嵌入质量。

      在评估时,对于一个三元组,将尾实体替换成任意一种其他的实体(共n-1个,只改变尾实体,其他不变),这样得到了(n-1)个新的关系三元组,然后求这n个三元组的实体关系距离,将这n个三元组按照距离从小到大排列。例如,有一个三元组(小明,出生在,苏州),假如还有其他实体{香皂,火车,橡皮,武汉},将三元组尾实体分别替换成其他地点实体,并计算实体关系距离,并对这n个三元组进行排名,如下表所示:

 h       r       t         score   rank
小明   出生在   香皂        0.789    1
小明   出生在   苏州        0.753    2  
小明   出生在   火车        0.695    3
小明   出生在   橡皮        0.456    4
小明   出生在   武汉        0.234    5 

       由上述可知我们得到了(小明,出生在,苏州)这个三元组实体关系在空间中的距离排名为2,这一个三元组计算完了,然后再计算其他三元组,{苏州,地级市,江苏}、{整数,含于,实数}、{飞机,速度快,火车}等等,方法与上述方法相同。假如求得所有三元组的排名分别为2,6,1,2,4。然后用如下几种方法求嵌入质量。

一、MRR

        MRR的全称是Mean Reciprocal Ranking,即平均倒数排名。具体的计算方法如下:

       其中S是三元组集合,|S|是三元组集合个数,rank_i是指第i个三元组的链接预测排名(距离得分)。MRR值越大越好,表明排名符合事实情况,那么嵌入效果就好。那么根据上述结果:

二、MR

        MR的全称是Mean Rank。具体的计算方法如下:

知识图谱嵌入的衡量指标:MRR,MR,HITS@n_第1张图片

       求解思路和MRR相同,就是把倒数排名换成不是倒数排名,MR值越小越好

三、HITS@n

        该指标是指在链接预测中排名小于等于n的三元组的平均占比。具体的计算方法如下:

       符号与上述一样,另外Ⅱ(·)是indicator函数(若条件真则函数值为1,否则为0)。一般地,取n为1、3或者10,HITS@n指标越大越好。例如HITS@1即为选排名为1的三元组为1,其他为0,计算为:

       再如HITS@3即为选排名为3名以内的的三元组为1,其他为0,计算为:

你可能感兴趣的:(big,data)