如何证明 Pearson 相关系数的值域为 -1 到 1

Pearson 相关系数是一个用来度量2个变量间线性关系强度的统计量。这听起来有点绕,但用图形解释会很直观:

图中的 ρ 即为 Pearson 相关系数。这张图表示计算得到的 Pearson 相关系数的不同情况。

(在二维坐标下)2个变量形成一个点,这些点是否大致沿着一条直线发展。如果正好在一条直线上,那么相关系数是1,或者-1。

但问题来了,为什么是 1 或 -1 ?更进一步,为什么各种地方都说 Pearson 相关系数的值域是[-1, 1] ?我搜索了一些地方,但是没有直接的证明,所以看看能不能自己填补一下这个。

根据国内某教材给出的计算公式[1],我完全看不出来为什么:

如果我是当年还在上学的我,觉得考试能得分就行了,顶多就把公式背下来,恶劣一点还会想办法不用背下来。但今天,学习是为了解决问题,不多理解一点这个公司在现实中的因果(而不是在分数上的因果),不太敢拿来解决问题[2]

其实,Pearson 相关系数更本质的计算方法是,变量1的各个数据点到平均数的距离(以标准方差为一个距离单位,下同)乘以变量2对应的数据点到平均数的距离,的平均值。或者说,就是变量1的各个数据点的 P 值,乘以变量2对应的数据点 P 值,的平均值。

写成表达式,就是:

最后得到的表达式意味着啥?

假设我们有两个向量,一个向量是:

另一个向量是:

再想想向量的点乘是什么:

这样,表达式的分子就是 x.y

而分母是||x|| . ||y||

x.y / ||x|| . ||y|| 也就是 cosø,cosø 的值域是 [-1, 1]。

关键词

Pearson’s r, Pearson coefficient correlation, range, prove, 线性相关系数,皮尔逊相关系数,值域,证明,


  1. 《统计学》 贾俊平 中国人民大学出版社 ↩

  2. 虽然有时候还是先用再说 ↩

你可能感兴趣的:(如何证明 Pearson 相关系数的值域为 -1 到 1)