MATLAB中数据相关性所求相关系数的有关内容(1)

数学建模中有两种最为常用的相关系数:皮尔逊pearson相关系数斯皮尔曼spearman等级相关系数。它们可用来衡量两个变量之间的相关性的大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析(建模论文中最容易用错的方法)。

学习起来相关系数,最好是在学习完《概率论与数理统计》之后再进行学习。

我们先回顾《概率论与数理统计》中的数理统计部分:

数据统计出的结果分为总体和样本之分:

总体――所要考察对象的全部个体叫做总体.总体――所要考察对象的全部个体叫做总体。
我们总是希望得到总体数据的一些特征((例如均值方差等)

样本――从总体中所抽取的一部分个体叫做总体的一个样本.
计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)。

(我们一般见的相关系数如果不特别说明,一般指代的是皮尔逊相关系数)

总体皮尔逊Pearson相关系数:MATLAB中数据相关性所求相关系数的有关内容(1)_第1张图片

直观理解协方差:如果X、Y变化方向相同,即当x大于(小于)其均值时, Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果x、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较。 

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将x和Y标准化后的协方差。

至于为什么绝对值小于1的,便引用csdn上一位博主的讲解:浙大《概率与数理统计》第四版证明随机变量X,Y的相关系数的绝对值小于1,及一些疑问_u013238941的专栏-CSDN博客_证明相关系数绝对值小于1这里的证明方法来自浙大《概率与梳理统计》108页:需证明命题:对任意两个随机变量X,Y,证明其相关系数的绝对值小于1。对任意两个随机变量X,Y,证明其相关系数的绝对值小于1。对任意两个随机变量X,Y,证明其相关系数的绝对值小于1。证明思路:先构造a+bX和Y的均方误差的期望E{[Y−(a+bx)]2}先构造a+bX和Y的均方误差的期望E\left\{ \left[ Y-\left( a+...https://blog.csdn.net/u013238941/article/details/89388877?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164238591016781683990932%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164238591016781683990932&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-89388877.first_rank_v2_pc_rank_v29&utm_term=%E6%B5%99%E5%A4%A7%E3%80%8A%E6%A6%82%E7%8E%87%E4%B8%8E%E6%A2%B3%E7%90%86%E7%BB%9F%E8%AE%A1%E3%80%8B%E7%AC%AC%E5%9B%9B%E7%89%88%E8%AF%81%E6%98%8E%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8FX%2CY%E7%9A%84%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0%E7%9A%84%E7%BB%9D%E5%AF%B9%E5%80%BC%E5%B0%8F%E4%BA%8E1%EF%BC%8C%E5%8F%8A%E4%B8%80%E4%BA%9B%E7%96%91&spm=1018.2226.3001.4187

样本皮尔逊Pearson相关系数:MATLAB中数据相关性所求相关系数的有关内容(1)_第2张图片

(注意:为什么样本方差分母是n‐1,而不是n,即为什么样本方差的无偏估计是除以n-1 ,可以参考:CSDN)

关于皮尔逊相关系数的一些需要注意的地方:

(1)如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
(2)在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行。

事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)

matlab中相关代码:

MIN = min(Test);  % 每一列的最小值
MAX = max(Test);   % 每一列的最大值
MEAN = mean(Test);  % 每一列的均值
MEDIAN = median(Test);  %每一列的中位数
SKEWNESS = skewness(Test); %每一列的偏度
KURTOSIS = kurtosis(Test);  %每一列的峰度
STD = std(Test);  % 每一列的标准差
RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]  %将这些统计量放到一个矩阵中表示
%% 计算各列之间的相关系数
% 在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系
% 这里使用Spss比较方便: 图形 - 旧对话框 - 散点图/点图 - 矩阵散点图

R = corrcoef(Test)   % correlation coefficient


%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28);  %求t分布的概率密度值 28是自由度  
figure(1)
plot(x,y,'-')
grid on  % 在画出的图上加上网格线
hold on  % 保留原来的图,以便继续在上面操作
% matlab可以求出临界值,函数如下
tinv(0.975,28)    %    2.0484
% 这个函数是累积密度函数cdf的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')
plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')


%% 计算p值
x = -4:0.1:4;
y = tpdf(x,28);
figure(2)
plot(x,y,'-')
grid on 
hold on
% 画线段的方法
plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')
plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2)  %双侧检验的p值要乘以2

%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
% 在EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01  % 标记3颗星的位置
(P < 0.05) .* (P > 0.01)  % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置
% 也可以使用Spss操作哦 看我演示

%% 正态分布检验
% 正态分布的偏度和峰度
x = normrnd(2,3,100,1);   % 生成100*1的随机向量,每个元素是均值为2,标准差为3的正态分布
skewness(x)  %偏度
kurtosis(x)  %峰度
qqplot(x)
    
% 检验第一列数据是否为正态分布
[h,p] = jbtest(Test(:,1),0.05)
[h,p] = jbtest(Test(:,1),0.01)

% 用循环检验所有列的数据
n_c = size(Test,2);  % number of column 数据的列数
H = zeros(1,6);  % 初始化节省时间和消耗
P = zeros(1,6);
for i = 1:n_c
    [h,p] = jbtest(Test(:,i),0.05);
    H(i)=h;
    P(i)=p;
end
disp(H)
disp(P)

% Q-Q图
qqplot(Test(:,1))

%% 斯皮尔曼相关系数
X = [3 8 4 7 2]'  % 一定要是列向量哦,一撇'表示求转置
Y = [5 10 9 10 6]'
% 第一种计算方法
1-6*(1+0.25+0.25+1)/5/24

% 第二种计算方法
coeff = corr(X , Y , 'type' , 'Spearman')
% 等价于:
RX = [2 5 3 4 1]
RY = [1 4.5 3 4.5 2]
R = corrcoef(RX,RY)

% 计算矩阵各列的斯皮尔曼相关系数
R = corr(Test, 'type' , 'Spearman')

% 大样本下的假设检验
% 计算检验值
disp(sqrt(590)*0.0301)
% 计算p值
disp((1-normcdf(0.7311))*2) % normcdf用来计算标准正态分布的累积概率密度函数

% 直接给出相关系数和p值
[R,P]=corr(Test, 'type' , 'Spearman')

在计算皮尔逊相关系数之前,一定要做出散点图来看两组变量之间是否有线性关系这里使用spss比较方便:图形 -> 旧对话框 -> 散点图/点图 -> 矩阵散点图

对皮尔逊相关系数进行假设检验
第一步:提出原假设H和备择假设H(两个假设是截然相反的哦)假设我们计算出了一个皮尔逊相关系数r,我们想检验它是否显著的异于0.
那么我们可以这样设定原假设和备择假设:H:r = 0 ,H:T≠0
第二步:在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计

(注1:统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量)

(注2:这里的分布一般有四种:标准正态分布、t分布、x2分布和F分布)

对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构造统计量:
t = r\sqrt{\frac{n-2}{1-r^{2}}},可以证明t是服从自由度为n - 2的t分布.

第三步:将我们要检验的这个值带入这个统计量中,可以得到一个特定的值(检验值)。假设我们现在计算出来的相关系数为0.5,样本为30,那么我们可以得到t^{*} = 0.5\sqrt{\frac{30-2}{1-0.5^{2}}} = 3.05505

第四步:由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。

第五步:由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平查表找到临界值,并画出检验统计量的接受域和拒绝域。

(常见的置信水平有三个:90%,95%和99%,其中95%是三者中最为常用的。)

第六步:看我们计算出来的检验值是落在了拒绝域还是接受域,并下结论。因为我们得到的t*=3.05505≥2.048,因此我们可以下结论:在95%的置信水平上,我们拒绝原假设H_{0}:r= 0,因此r是显著的不为0的。

而皮尔逊相关系数假设检验的是有条件的:

第一,实验数据通常假设是成对的来自于正态分布的总体。因为我们在求皮尔逊相关性系数以后,通常还会用t检验之类的方法来进行皮尔逊相关性系数检验,而t检验是基于数据呈正态分布的假设的。

第二,实验数据之间的差距不能太大。皮尔逊相关性系数受异常值的影响比较大。

第三:每组样本之间是独立抽样的。构造t统计量时需要用到。

我们又要如何检验数据是否是正态分布呢?

你可能感兴趣的:(记录我的学习过程,matlab,矩阵,开发语言)