关于皮尔逊相关系数(Pearson Correlation Coefficient)的一点理解

对于两个向量


应该如何度量它们之间的相似度?

一种度量思路是考虑它们之间的欧几里德距离:

另外一个度量思路是考虑它们之间的皮尔逊相关系数:

公式的定义与概率论中相关系数的定义一致,反映了两个随机变量之间的相关性。

对于上述公式,在分子分母上同时乘以向量的维数n,可以得到如下的公式:

将向量X,Y中每一项减去向量的平均值,即将向量做一下平移:

可以看到上式即为向量X', Y'之间夹角的余弦值:

故,利用欧几里德距离计算X, Y的相似度,将X,Y看成高维空间中的两个点,反映了高维空间中两点之间的距离;利用皮尔逊相关系数计算X,Y之间的相似度,将X,Y看成高维空间中的两个向量,反映向量之间的夹角大小。

参考资料:

http://segmentfault.com/q/1010000000094674

https://www.cnblogs.com/muffled/p/3812084.html

 

你可能感兴趣的:(关于皮尔逊相关系数(Pearson Correlation Coefficient)的一点理解)