皮尔逊相关系数(Pearson Correlation)

欧几里德距离

欧几里德距离(Euclidean Distance)是机器学习中常见的相似度的计算方式。它被用来求两个向量间的距离,取值范围为0至正无穷。两个向量间的距离较小,两个向量越相似。欧几里德距离计算时默认对每一个维度给予相同的权重,如果某一维度较之其它维度而要取值范围差别很大,结果很容易被某个维度所决定。因此,可以使用加权欧几里德距离,给不同维度赋予不同权重。

欧几里德距离的计算公式如下,其中Xi表示用户X对物品i的评价,Yi表示用户Y对物品i的评价:

现有数据集如下:

critics={

    冯小刚: {复仇者联盟: 4.3,哈利波特: 1.1},

    张艺谋: {复仇者联盟: 1.8,哈利波特: 3.2},

}

欧几里德距离以用户共同评价的物品为坐标轴,将参与评价的用户共同绘制到图中,以此考察彼此远近的方式。将上述数据集映射到偏好空间中,如图1-1所示:

皮尔逊相关系数(Pearson Correlation)_第1张图片 图1-1 二维向量空间的欧式距离表示

余弦距离

余弦距离,也称余弦相似度。它用向量空间中两个向量夹角的余弦值度量两个个体间差异的大小。余弦距离不关心向量的长度,只关心向量的夹角余弦值。余弦距离的应用场景为文本分类时计算两篇文本之间的距离。

余弦距离比皮尔逊相关系数更加严格。对于皮尔逊相关系数而言,即便两个向量之间有夹角,只要其同升同降,那么皮尔逊相关系数就是1,即距离为0。而对于余弦距离而言,其距离是他们之间的夹角余弦值。通俗来说,皮尔逊相关系数只跟向量间是否同升同降有关,而余弦距离除了跟向量间是否同升同降有关系外,还跟向量间升降的程度有关。

余弦距离的计算公式如下:

 

表2-1中所示用户a对物品X的评价为5分,Y的评价为4分,Z的评价为1分,R的评价为5分。用户b对物品X的评价为4分,Y的评价为3分,Z的评价为1分,R的评价为未评分。用户c对物品X的评价为2分,对物品Y的评价为2分,对物品Z的评价为5分,对物品R的评价为1分。如果计算用户a和用户b的余弦距离,可以将a表示为a=(5,4,1),b表示为b=(4,3,1)。

表2-1 用户-物品评价

用户/物品

X

Y

Z

R

a

5

4

1

5

b

4

3

1

?

c

2

2

5

1

皮尔逊相关系数

皮尔逊相关系数(Pearson Correlation)是衡量向量相似度的一种方式。输出范围为-1到+1,其中0代表无相关性,负值代表负相关,正值代表正相关。皮尔逊相关系数在欧几里德距离上做出了优化,对向量的值做了中心化处理,即对两个向量中的所有维度都减去元素的平均值,中心化后所有维度的平均值基本为0;然后对中心化结果求余弦距离,但余弦距离的计算要求每个向量中所有的值都必须非空,若两个向量v1=(3,2,4)、v2=(-1,2,null),则无法进行余弦距离计算的。皮尔逊相关系数把向量中所有null维度赋值为0,再对结果进行余弦计算。

皮尔逊相关系数的计算公式如下:

两个向量X、Y,计算出的皮尔逊相关系数含义做如下理解:

  1. 当相关系数为0时,X和Y两向量不相关
  2. 当X的值增大(减小),Y值减小(增大),X和Y两向量负相关,相关系数在-1.0到0.0之间。
  3. 当X的值增大(减小),Y值增大(减小),X和Y两向量正相关,相关系数在0.0到+1.0之间。

通常通过以下取值范围判断向量的相关程度:

  1. 0.8-1.0 极度相关
  2. 0.6-0.8 强相关
  3. 0.4-0.6 中等程度相关
  4. 0.2-0.4 弱相关
  5. 0.0-0.2 极弱相关或无相关

结论:皮尔逊相关系数既是欧几里德距离的升级,即它提供了对于变量取值范围不同的处理步骤,不同变量量纲上的差别在计算过程中去掉了;又是余弦相似度在维度值缺失情况下的一种改进。

你可能感兴趣的:(推荐引擎)