皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。
总体——所要考察对象的全部个体叫做总体.
我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本
计算这些抽取的样本的统计量来估计总体的统计量:
例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
假设检验:参阅《概率论与数理统计》第八章
就是概率论学的相关系数。一般我们认为不加前缀说明的相关系数都是皮尔逊相关系数
首先我们要理解协方差
关于协方差:如果X、Y(相对于均值)变化方向相同则乘积为正,反之为负
注:协方差的大小和两个变量的量纲有关,因此不适合做比较。
所以我们引入皮尔逊相关系数剔除了量纲的影响,即将X和Y标准化后的协方差
以上的相关系数只是用来来衡量两个变量线性相关程度的指标;即我们必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何(先画散点图)
eg.形式上必须大致满足 Y = a*X+b
例如下面几个错误示例
总结:
一般相关系数大小与相关性的参照如上。**但是!!!**上表所定的标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。
所以,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)
注:
在数理统计中,第二步的原假设和备择假设中的应该改为, 其中为未知的总体相关系数,实际上我们关心的是总体的统计特征。(意思喃大概就是这么个意思,深究我就看不懂了)
t分布表:https://wenku.baidu.com/view /d94dbd116bd97f192279e94a.html
(2)p值判断法
这种方法要简单一点
补充:0.5、0.5* 、0.5**、0.5***的含义(显著性标记)
一般我们默认的置信水平是95%(即显著性水平是5%)
计算各列之间的相关系数以及p值matlab代码
[R,P] = corrcoef(Test)
%R返回的是相关系数表,P返回的是对应于每个相关系数的p值
第一、 实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。
第二、实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大。
第三、每组样本之间是独立抽样的。构造 t 统计量时需要用到
检验样本是否符合正态分布
(1)JB检验(雅克‐贝拉检验) :大样本 n>30
峰度和偏度:
峰度就是样本的三阶矩,偏度是四阶矩。偏度左正右负,峰度越大越尖
x = normrnd(2,3,100,1);
% 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x) %偏度
kurtosis(x) %峰度
matlab在的JB检验函数
[h,p] = jbtest(x,alpha)
%当输出h等于1时,表示拒绝原假设;h等于0则代表不能拒绝原假设。
%alpha就是显著性水平,一般取0.05,此时置信水平为1‐0.05=0.95
%x就是我们要检验的随机变量,注意这里的x只能是向量。
(2)Shapiro-wilk检验(夏皮洛‐威尔克检验):小样本: 3 < n < 50
这个通过SPSS较为方便
得到的这个表只用看最后一列就好啦
这样检验的话还可以得到一些QQ图
(3)Q-Q图
在统计学中,Q‐Q图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。
首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。
这里,我们选择正态分布和要检验的随机变量,并对其做出QQ图,可想而知,如果要检验的随机变量是正态分布,那么QQ图就是一条直线。要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大!!!)
qqplot(Test(:,1))
注:另一种定义:等级之间的皮尔逊相关系数
这个是可以证明的,但是实际应用中结果可能与第一种定义有所不同(因为这个规定:如果有的数值相同,则将它们所在的位置取算术平均)。如果数据没有相同的则理论上与第一种定义结果相等。
metlab斯皮尔曼相关系数的句法:
(1)corr(X , Y , 'type' , 'Spearman')
%这里的X和Y必须是列向量
(2)corr(X , 'type' , 'Spearman')
%这时计算X矩阵各列之间的斯皮尔曼相关系数
%matlab用的是第二种定义
(1)小样本( < ) :直接查临界值表
临界值表
% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')
斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。
注:(1)定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
eg. 优良差用123表示,加减乘除没有意义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序
(2)斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用