Person相关系数

衡量两个变量线性相关程度。先画散点图看是否为线性相关,相关系数才有用。

总体:要考察对象的全部个体

样本:从总体中所抽取的一部分个体

用样本的统计量估计总体的统计量

总体Person相关系数

协方差Cov(X,Y)反映X、Y的相关性

Person相关系数剔除了两个变量量纲的影响 

ρ_xy=Cov(X,Y)/ σ_x * σ_y 

Person相关系数_第1张图片

 样本Person相关系数

Person相关系数_第2张图片

ρ绝对值越接近于1,散列图越接近一条直线,相关性越大。

若XY无关,则ρ为0,反之不能推。

相关系数大小可以按照背景自定义。

验证变量的线性相关性:

        导入数据至SPSS中,图形-旧对话框-散点图/点图,做出数据之间的图,若图是以下这种斜着的一条就是线性的:

Person相关系数_第3张图片

 在MATLAB中计算:最小值,最大值,平均数等。得到描述性统计RESULT

MIN=min(A);
MAX=max(A);
MEAN=mean(A);
MEDIAN=median(A);
SKEWNESS=skewness(A);
KURTOSIS=kurtosis(A);
STD=std(A);
RESULT=[MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]
%RESULT存放描述性统计

[R,p]=corrcoef(A)

R存放相关系数


假设检验

        自己提出假设,验证自己的假设是否正确。

置信水平β=1-α:假设成立的概率(一般用90%,95%,99%)

α显著性水平:发生小概率事件(拒绝原假设的概率)

概率密度函数f(x):x发生在此的概率强度   1.f(x)>=0   2.在负无穷到无穷的积分为1。

累计密度函数F(x):F(x)<=P(X

接受域:置信水平内

拒绝域:其他地方。

概率P 

Person相关系数_第4张图片

 

第一步:确定原假设H0和备择假设H1(完全相反的两个假设)

        双侧检验:~=

        单侧检验:>或<

第二步:在原假设成立的条件下,自己构造分布(N、t、F、卡方分布)

        统计量只能包含假设的一个未知量Z
第三步:画概率密度函数f(x)

第四步:给一个置信水平β ,求出接受域(查表或用matlab算)

 第五步:用已知样本数据带入计算统计量,得到检验值,若检验值在接受域内则接受原假设,反之拒绝。

双侧检验求出的P值要×2再与显著性水平α比较。


显著性检验

相关系数=0则不相关。

显著性检验:检验0和相关系数的差异 

        相关性显著--相关

        相关性不显著--不相关。

 计算出Person相关系数r,检验它是否显著的异于0:

第一步:原定假设H0:r=0,备择假设:H1:r~=0

第二步:在一定的条件下可以构造统计量

 (t分布是标准正态分布的特例,n趋于无穷时即为标准正态分布)

第三步:将r代入公式得到检验值。

第四步:画出分布的概率密度函数pdf,给定一个置信水平β,找到临界值,画出统计量的接受域和拒绝域

%x=起始值:步长:终值;
%y=tpdf(x,自由度);
plot(x,y,'-')
grid on%画网格

Person相关系数_第5张图片

第五步: 检验值在拒绝域内,H1成立;在接受域内,H0成立。

p值判断法

        得到检验值t*,计算对应概率。

tcdf计算累计概率密度函数。

%检验值对应的p值=(1-tcdf(检验值,自由度)*2)
%双侧检验的p值要乘以2

p<0.01,在99%的置信水平上拒绝原假设;p>0.01,在99%的置信水平无法拒绝原假设

p<0.05,在95%的置信水平上拒绝原假设;p>0.05,在95%的置信水平无法拒绝原假设;

p<0.10,在90%的置信水平上拒绝原假设。p>0.10,在90%的置信水平无法拒绝原假设。

本例拒绝原假设意味着皮尔逊相关系数显著的异于0

显著性标记,空不显著 *在90%上越显著异于0 **95% ***99%

SPSS做相关性分析很方便。

你可能感兴趣的:(数模,算法,SPSS,MATLAB,数学建模,概率论)