皮尔逊相关系数

两种最常用的相关系数：皮尔逊person相关系数和斯皮尔曼spearman等级相关系数。

他可以用来衡量两个变量之间相关性的大小，根据数据满足不同的条件，我们要选择不同的相关系数进行计算和分析。

注：用皮尔逊相关系数进行分析时，选取两两变量，需要 通过作图 看出两两变量 有线性相关性 才可进一步获知其相关系数。

若上述满足了，得出了皮尔逊相关系数，还要看每个相关系数是否显著异于0，这样之后才能看出两两变量线性相关性有多大。

但是此时样本数据需要满足 正态分布，若不满足不可进行假设检验。因此有几种检验数据是否正态分布的方法。

若满足正态分布，得出了p值矩阵，和显著性比较后可以知道是否显著异于0，用*表示出来，这才完成了相关性检验的步骤，得出了这个两两变量间是显著正相关还是负相关，或者是不显著的相关。

皮尔逊相关系数介绍

总体 ——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征（例如均值方差等）
样本 ——从总体中所抽取的一部分个体叫做总体的一个样本.

1. 总体皮尔逊相关系数

先算均值
再算协方差
再算标准差（方差）
最后算相关系数

image.png

2. 样本皮尔逊相关系数

image.png

两者的区别只在于n变成了n-1.

皮尔逊相关系数的一些误区

相关系数很大，但是图像不是线性相关
- 非线性相关也会导致线性相关系数很大，例如图2。
- 离群点对相关系数的影响很大，例如图3，去掉离群点后，相关系数为0.98。
- 如果两个变量的相关系数很大也不能说明两者相关，例如图4，可能是受到了异常值的影响。

image.png

图像有相关性，但是相关系数很小
- 相关系数计算结果为0，只能说不是线性相关，但说不定会有更复杂的相关关系（非线性相关）

image.png

因此：

必须先确定两个变量是线性相关的，然后才能通过相关系数知道相关程度如何。
在不确定两个变量是什么关系的情况下，即使算出皮尔逊相关系数，发现很大，也不能说明那两个变量线性相关，甚至不能说他们相关，我们一定要画出散点图来看才行。

描述性统计

对整体的数据进行不同角度的统计。

用matlab统计

image.png

用Excel统计

数据-数据分析

image.png

用SPSS统计

image.png

矩阵散点图：两两变量间作图

用于查看两两变量间的关系，看看是否有线性关系

image.png

求皮尔逊相关系数的函数corrcoef()

可以对一个矩阵两两列求相关系数，也可以求给的两向量的相关系数。

image.png

美化相关系数矩阵

这里用excel来做

对获得的矩阵复制到excel中，调整行高，使他为正方形
然后选中数据，然后条件格式|色阶即可

image.png

image.png

条件格式|管理规则里修改改规则，把最小值设为数值-1，最大值设为数值1，因为相关系数在[-1,1]之间。这样的图才准确

假设检验

假设检验一般步骤：

image.png

假设检验-p值：

image.png

对皮尔逊相关系数进行假设检验，得显著性水平

手动计算出检验值和临界值，进行假设检验

第一步：提出原假设和备择假设

已知皮尔逊相关系数，我们想检验他是否显著地异于0

第二步：在原假设成立的前提下，利用要检验的量()构造符合某一分布的统计量

对于皮尔逊相关系数r而言，在满足一定的条件下，我们可以构造出统计量：

是服从自由度为n-2的分布。至此我们根据构造出了一个分布（证明略）

第三步：将要检验的值带入该统计量，得到特定值

如相关系数，样本数量为30，则

第四步：根据分布和置信水平找到临界值，就可以找到接受域和拒绝域

方法：
- 查表：t分布，置信水平0.95，则右侧累积置信水平0.975，自由度28，找到临界值2.048
- 函数计算：临界值=tinv(0.975,28) % 这个函数是累积密度函数tcdf的反函数
判断结果
- 检验值>临界值，拒绝原假设-->相关系数r和0有显著差异（即可以视这个相关系数为0）
- 检验值<临界值，接受原假设-->相关系数r和0没有显著差异

计算p值检验

单个相关系数检验显著性：

已知检验值为3.055，自由度28，双侧检验，求其p值：

p=(1-tcdf(3.055,28))*2 
% tcdf：t分布的累计概率密度函数

另一种便捷方法：直接得出相关系数矩阵及其p值矩阵：

[R,P]=corrcoef(X)
% R 为相关系数矩阵
% P 为p值矩阵

皮尔逊相关系数假设检验的条件

要进行假设检验，你这个实验数据要符合一些条件，才能进行检验，得显著水平：

image.png

这里只要保证第一个：实验数据符合正态分布即可。

那么，

如何检验数据是否是正态分布？

雅克贝拉检验JB检验（Jarque-bera test）

要求大样本，n>30。

matlab：[h,p] = jbtest(x,alpha)

h为结果，1拒绝原假设，0接受原假设。
p为p值，与alpha显著水平比较，小于则拒绝原假设，大于接受原假设
x为一个向量
alpha为显著水平，一般为0.05，此时置信水平为0.95

如：

[h,p]=jbtest(Test(:,1),0.05)

夏皮洛-威尔克检验（Shapiro‐wilk）

小样本 3≤n≤50。

这里用SPSS检验。

image.png

Q-Q图

要求数据量很大，500以上吧，不然会有偏差。而且QQ图不太常用。

image.png

matlab使用：

qqplot(x)
% x为向量

[数学建模第五讲] 皮尔逊相关系数

皮尔逊相关系数

皮尔逊相关系数介绍

1. 总体皮尔逊相关系数

2. 样本皮尔逊相关系数

相关性可视化

皮尔逊相关系数的一些误区

描述性统计

用matlab统计

用Excel统计

用SPSS统计

矩阵散点图：两两变量间作图

求皮尔逊相关系数的函数corrcoef()

美化相关系数矩阵

假设检验

对皮尔逊相关系数进行假设检验，得显著性水平

手动计算出检验值和临界值，进行假设检验

计算p值检验

相关系数的显著性水平表示方法

皮尔逊相关系数假设检验的条件

如何检验数据是否是正态分布？

雅克贝拉检验JB检验（Jarque-bera test）

夏皮洛-威尔克检验（Shapiro‐wilk）

Q-Q图

你可能感兴趣的:([数学建模第五讲] 皮尔逊相关系数)

[数学建模第五讲] 皮尔逊相关系数

皮尔逊相关系数

皮尔逊相关系数介绍

1. 总体皮尔逊相关系数

2. 样本皮尔逊相关系数

相关性可视化

皮尔逊相关系数的一些误区

描述性统计

用matlab统计

用Excel统计

用SPSS统计

矩阵散点图：两两变量间作图

求皮尔逊相关系数的函数corrcoef()

美化相关系数矩阵

假设检验

对皮尔逊相关系数进行假设检验，得显著性水平

手动计算出检验值和临界值，进行假设检验

计算p值检验

相关系数的显著性水平表示方法

皮尔逊相关系数假设检验的条件

如何检验数据是否是正态分布？

雅克贝拉检验JB检验（Jarque-bera test）

夏皮洛-威尔克检验 （Shapiro‐wilk）

Q-Q图

你可能感兴趣的:([数学建模第五讲] 皮尔逊相关系数)

夏皮洛-威尔克检验（Shapiro‐wilk）