【数学建模】清风数模正课5 相关性分析

 相关系数

相关性分析的关键是计算相关系数,在本节课中将会介绍两种常用的相关系数:皮尔逊相关系数(Pearson)和斯皮尔曼相关系数(Spearman)。

它们可以用来衡量两个变量间相关性的大小,对于不同类型的数据,我们要用不同的相关系数进行计算分析。

统计学概念

在学习这两个系数之前,我们需要了解一些必要的概率统计中的概念,以便于公式的理解和推导。

总体 所要考察对象的全部个体
样本 从总体中抽取的一部分个体

为了对考察对象进行分析,我们总是希望得到总体数据的一些特征,例如均值、方差、标准差等;

但总体数据往往过多,以致于难以进行计算,因此我们可以计算从从总体中抽取的样本的统计量,以此来估计总体的统计量。

皮尔逊相关系数

总体皮尔逊相关系数

【数学建模】清风数模正课5 相关性分析_第1张图片

X和Y的变化方向相同:当X大于其均值时,Y也大于其均值,当X小于其均值时,Y也小于其均值

协方差的本质:若X和Y的变化方向相同,则协方差为正;若X和Y的变化方向相反,则协方差为负;若X和Y的变化方向无关联,则协方差正负抵消为零。

注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。

皮尔逊相关系数的本质:可以看作剔除了两个变量量纲影响、将X和Y标准化后的协方差。

样本皮尔逊相关系数

【数学建模】清风数模正课5 相关性分析_第2张图片

 相关系数可视化

在计算相关系数之前,需要通过绘制散点图来判断X和Y之间的相关性,如果散点图显示二者不相关,那么计算出的相关系数也就没有意义了。

只有先确定两个变量是线性相关的,相关系数才能告诉我们这两个变量的相关程度如何。

【数学建模】清风数模正课5 相关性分析_第3张图片

  事实上,比起相关系数的大小,我们往往更关注的是其显著性,这就需要进行假设检验。

对皮尔逊相关系数进行假设检验

进行假设检验可以判断我们所求得的皮尔逊相关系数是否准确,若检验结果越显著,就表示我们求得的相关系数越不准确。

第一步:提出原假设和备择假设,两者是截然相反的;如果我们已经计算得到了一个皮尔逊相关系数,我们要检验它是否显著异于0,则可以设定原假设和备择假设为:H0:r=0    H1:r≠0

第二步:在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量

第三步:将我们要检验的值带入统计量中,可以得到一个特定的检验值

第四步:我们可以根据统计量的分布绘制一个概率密度函数图像,并给定一个置信水平,一般为95%,根据这个置信水平查找到临界值,并画出检验统计量的接受域和拒绝域

第五步:看我们计算出来的检验值是落在了接受域还是拒绝域,并下结论。

皮尔逊相关系数假设检验的条件

第一,实验数据通常是成对地来自于正态分布的总体;

第二,实验数据之间的差距不能太大,皮尔逊相关系数受异常值的影响比较大;

第三,每组样本之间是独立抽样的。

从上面可以知道,我们需要正态分布的数据,才可以进行假设检验,所以我们还需要进行正态分布检验。

正态分布检验使用的方法是JB检验,JB检验也是一个假设检验的过程。

若实验数据足够多,那我们就可以使用Q-Q图来检验,只要图上的点近似地在一条直线附近,我们就可以说样本数据近似于正态分布。

斯皮尔曼相关系数

【数学建模】清风数模正课5 相关性分析_第4张图片

对斯皮尔曼相关系数也要进行假设检验。

两个相关系数的比较

【数学建模】清风数模正课5 相关性分析_第5张图片

 

 

你可能感兴趣的:(数学建模,数学建模,matlab)