统计学习知识系列1——相关系数

杂谈

最近在看complex networks,震惊于人家的综述100多页,能有将近300个公式,反观DL,ML,不得不说,DL真香哈哈哈。因为文章太难,公式看不懂,所以来学点统计学知识。

先验知识

在讲相关系数前,可以先再回顾一下协方差,我自己貌似也没很认真的学过协方差。统计学与质量051 - 相关性 - 自变量与因变量 协方差(Covariance)看完这个视频后我又产生了一个新的问题,那就是为啥方差的分母是n-1。

为什么方差的分母是n-1?

为什么样本方差(sample variance)的分母是 n-1?,个人非常喜欢张英锋答主和马同学的回答,这里建议先看张英锋答主的,他的回答真的非常友好,像我这种渣渣都能完全明白,本节是对参考文献的理解而写的。
首先知道方差的公式如下:
σ 2 = ∑ i = 1 n ( x i − u ) 2 n \sigma^2 = \frac{\sum_{i=1}^{n}{(x_i-u)^2}}{n} σ2=ni=1n(xiu)2注意:这里的 σ 2 \sigma^2 σ2是全体的方差, u u u是全体的均值, n n n是全体变量的数量,而实际情况中不可能所有的样本都进行检验,因此就有了通过随机采样得到的样本方差。
s 2 = ∑ i = 1 n ( x i − x ^ ) 2 n − 1 s^2 = \frac{\sum_{i=1}^{n}{(x_i-\hat{x})^2}}{n-1} s2=n1i=1n(xix^)2这里我不会打均值所以用 x ^ \hat{x} x^来代替了,显然 σ 2 \sigma^2 σ2 s 2 s^2 s2有显著的差别,一个是客观事实,另一个则是一种估计。
那么对样本采样要满足相互独立的要求,否则会有偏差,而采样得到的 { x 1 , x 2 , x 3 , . . . , x n } \{ x_1, x_2, x_3,...,x_n\} { x1,x2,x3,...,xn}由于 x ^ \hat{x} x^的存在使得其不是完全独立,已知n-1个就能推出最后一个,这也就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。而这个n-1叫做样本的自由度,不觉得很形象吗!
那么为什么自由度减少后会影响样本方差呢?首先方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差越大,数据之间越是趋同,方差越小。由于自由度减少了,导致一个样本受到了其他样本的约束,使其和其他数据趋同,减少了差异性,最终导致样本方差减小。此时的
s b i a s e d 2 = ∑ i = 1 n ( x i − x ^ ) 2 n s^2_{biased} = \frac{\sum_{i=1}^{n}{(x_i-\hat{x})^2}}{n} sbiased2=ni=1n(xix^)2那么样本偏差变小了,那干脆让分母变小,增大样本方差就行了。样本方差 s 2 s^2 s2公式里的分母n-1,就是这么来的,那个减去的1,就是用来校正 x ^ \hat{x} x^所带来的偏差,他不代表某一个样本,而是对自由度的补偿,让缩小的样本方差重新变大一点。

方差和协方差

统计学习知识系列1——相关系数_第1张图片方差和协方差的概念
统计学习知识系列1——相关系数_第2张图片
神同步的协方差(正相关)统计学习知识系列1——相关系数_第3张图片
唱反调的协方差(负相关)
统计学习知识系列1——相关系数_第4张图片
举个栗子
协方差可以很容易的解决方向问题(正相关还是负相关),但是其由于存在量纲问题,如x,y的单位不统一,那这计算就会出现问题,因此引入本文正主:Pearson, Spearman

相关系数

Pearson correlation coefficient

参考:统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数
统计学习知识系列1——相关系数_第5张图片
这里的 S x S_x Sx S y S_y Sy是标准差
统计学习知识系列1——相关系数_第6张图片
取值范围
统计学习知识系列1——相关系数_第7张图片
适用范围

总结:简单来说Pearson correlation coefficient就是将协方差的量纲进行了统一而已.

Spearman correlation coefficient

统计学习知识系列1——相关系数_第8张图片
适用范围统计学习知识系列1——相关系数_第9张图片
举个栗子
统计学习知识系列1——相关系数_第10张图片
相关强度判定,这里是指绝对值后的数据

总结:Spearman correlation coefficient就是先将样本进行排序,注意这里的排名必须唯一,及不能存在并列第几。得到排名后就是对排名做一次Pearson correlation coefficient即可。

Reference

统计学与质量051 - 相关性 - 自变量与因变量 协方差(Covariance)
为什么样本方差(sample variance)的分母是 n-1?
统计学与质量052 - 皮尔逊 (Pearson) 相关系数 & 斯皮尔曼 (Spearman) 相关系数

你可能感兴趣的:(算法学习,概率论,机器学习,人工智能)