相似度计算(2)——皮尔逊相关系数

皮尔逊相关系数

一、定义

  皮尔逊相关系数( Pearson correlation coefficient,PC),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。相关系数的绝对值越大,相关度越强,相关系数的绝对值越小,相关度越弱。

二、公式

公式一:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商,公式一定义了总体相关系数,常用希腊小写字母ρ作为代表符号。
在这里插入图片描述
其中μx和σx的期望和标准差,cov是计算协方差。
注:最后一个公式计算过程,带入计算可得。
相似度计算(2)——皮尔逊相关系数_第1张图片
公式二
相似度计算(2)——皮尔逊相关系数_第2张图片
公式三
相似度计算(2)——皮尔逊相关系数_第3张图片
注:公式转化过程,带入计算可得。
相似度计算(2)——皮尔逊相关系数_第4张图片
公式四
相似度计算(2)——皮尔逊相关系数_第5张图片

三、性质

  ①|ρ|≤1。
  ②若σx>0且σy>0,则|ρ|=1当且仅当存在常数a,b(a≠0),是P{Y=aX+b}=1,而且当a>0时,ρ=1;当a<0时,ρ=-1。
    当|ρ|=1时,Y与X的变化可完全由X的线性曲线函数给出。
    当|ρ|=0时,X和Y不相关。
  ③当随机变量X和Y相互独立时,ρ=0,X与Y不相关;反之,若X与Y不相关,X和Y不一定相互独立。但对于二维正态分布的X和Y相互独立的充要条件是参数ρ=0。即二维正态随机变量X和Y不相关与X和Y相互独立是等价的。
  ④系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

你可能感兴趣的:(推荐算法,推荐算法,算法,大数据)