数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数

相关系数

相关系数是衡量两个变量之间相关性大小的量。最常用的相关系数有两种,皮尔逊相关系数和斯皮尔曼相关系数,在选取用何种相关系数时,需要根据不同的条件进行计算和分析,否则容易建模出错。

总体和样本
总体是指所要考虑对象的全部个体。我们通常需要求总体数据的均值方差标准差等特征。
样本是从总体中抽取的一部分个体,叫做总体的一个样本。
多数情况下,我们无法直接求总体的特征值,需要通过计算抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值和总体的标准差。
数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数_第1张图片

皮尔逊相关系数

协方差在一定条件下可以表示变量X、Y的相关性,但与两个变量的量纲有关,不适合做比较。
因此要想用协方差来做比较,就必须消去量纲的影响,而要消去量纲,只需将两个变量标准化,这样就得到了皮尔逊相关系数
皮尔逊相关系数就将变量X和Y标准化后的协方差。

总体皮尔逊相关系数计算公式

数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数_第2张图片

样本皮尔逊相关系数计算公式

数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数_第3张图片

皮尔逊相关系数的意义

皮尔逊相关系数表示两个变量相关性的大小。大于0时表示两个变量正相关,小于0时负相关。
容易证明得到皮尔逊相关系数的取值范围在-1到1之间。越接近于-1或1时相关性越高,当为0时几乎不想关。
在这里插入图片描述
具体可见下方可视化的图:
数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数_第4张图片
从图中可以看出当相关性为-1时,成** Y= - X + b **分布,越接近于0时相关性越弱。

皮尔逊相关系数的注意事项

皮尔逊相关系数是衡量两个变量线性相关程度的指标。划重点,是线性相关。因此如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的相关性弱。
在不确定两个变量是什么关系的情况下,不能轻易计算皮尔逊相关系数,即时计算出来的相关系数很大,也不能说明相关性很强,甚至可能不相关。
如下四幅图所示:
数学建模——相关系数、皮尔逊相关系数、斯皮尔曼相关系数_第5张图片
四幅图中两个变量的皮尔逊相关系数都为0.816,但很明显不能说明都是正确的。图一种由散点图很明显两个变量是线性相关,可以用皮尔逊相干系数,但图2很明显不是线性的,所以不能用。图3图4都受到的异常值的影响,图4甚至不能说两个变量相关。

因此使用皮尔逊相关系数的关键是先画散点图判断两个变量是否线性相关,是才能使用皮尔逊相关系数。

对相关系数矩阵进行美化

你可能感兴趣的:(数学建模,协方差,数据分析,算法)