数学建模——相关系数(1)——皮尔逊相关系数(Person)

文章目录

  • 一、 相关系数专栏简介
  • 二、相关的基本数学概念
    • 总体和样本
  • 三、皮尔逊相关系数(Person)
    • 1. 协方差(用于引出相关系数的定义)
    • 2. 总体皮尔逊Person相关系数
    • 3. 样本皮尔逊Person相关系数
    • 4.皮尔逊相关系数的使用范围
  • 四、需要注意的地方

一、 相关系数专栏简介

  • 本专栏内容设计讲解两种最为常用的相关系数:皮尔逊Person相关系数斯皮尔曼Spearman等级相关系数
  • 相关系数可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析。
  • 该部分是建模论文中最容易用错的方法。
  • 关于如何使用Matlab、Spss、Excel等工具解决相关系数问题,将会在后面的部分单独写一篇博客进行讲解。
  • 本专栏注重的方面是如何使用相关方法去解决对应的数学建模问题,而对于原理部分的讲解不会特别深入。

二、相关的基本数学概念

总体和样本

  • 总体:所要考察对象的全部个体
  • 样本:从总体中所抽取的一部分个体叫做总体的一个样本。
  • 我们可以通过计算样本的统计量来估计总体的统计量
    • 例如:使用样本均值、样本标准差来估计总体的的均值(平均水平)和总体的标准差(偏离程度)

三、皮尔逊相关系数(Person)

1. 协方差(用于引出相关系数的定义)

数学建模——相关系数(1)——皮尔逊相关系数(Person)_第1张图片

  • 协方差的大小表示的是两个变量的总体的误差。
  • 协方差用于度量各个维度偏离其均值的程度。
  • **若协方差的值为正值,则说明两者是正相关的;若为负值,则说明两者是负相关的;若为0,则就是统计上说的“相互独立”。**即,协方差为0时,两者独立。协方差的绝对值越大,两者对彼此的影响越大,反之,越小
  • 由协方差可以引出相关系数的定义。

参考资料链接:https://blog.csdn.net/GoodShot/article/details/79940438

  • 我们观察协方差的公式,可以发现,X,Y(即,两个变量)的量纲会影响协方差的大小,因此并不适合比较大小,由此引出了相关系数。

2. 总体皮尔逊Person相关系数

数学建模——相关系数(1)——皮尔逊相关系数(Person)_第2张图片

  • 观察总体Person相关系数的公式:我们发现皮尔逊相关系数可以看成消除了两个变量量纲影响,即将X和Y标准化后的协方差。 因此,我们可以使用皮尔逊相关系数来衡量两个变量线性相关的程度。

3. 样本皮尔逊Person相关系数

数学建模——相关系数(1)——皮尔逊相关系数(Person)_第3张图片

4.皮尔逊相关系数的使用范围

  • 两个变量之间是线性关系,且是连续数据。
  • 两个变量的总体是正态分布,或接近正态的单峰分布。
  • 两个变量的观测值是成对的,且每对观测值之间相互独立

四、需要注意的地方

1. 相关系数只是用来衡量两个变量线性相关程度的指标
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第4张图片

2. 通过绘制散点图可以很容易地判定两个变量x和y之间的相关性
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第5张图片

图片来源[美]作者Pang‐Ning Tan 《数据挖掘导论》

3. 非线性相关也会导致线性相关系数很大
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第6张图片
该散点图对应的数据的person相关系数为0.816.

4. 离群点对相关系数的影响很大
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第7张图片
该散点图对应的数据的person相关系数为0.816.若去掉离群点,相关系数为0.98

5. 如果两个变量的相关系数很大也不能说明两者相关。(因为必要的前提是这两个变量线性相关)
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第8张图片
该散点图对应的数据的person相关系数为0.816.

6. 相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
数学建模——相关系数(1)——皮尔逊相关系数(Person)_第9张图片
7. 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系。(推荐使用Spss)

参考内容:清风数学建模

你可能感兴趣的:(数学建模)