典型相关分析

一.概述

     典型相关分析研究的是两变量之间的相关关系。我们借用PCA降维的思想,先从两组变量中分别提取主成分u和v,然后u和v的相关程度达到最大,这样就把研究两组变量之间的相关问题转化为研究两个变量u和v之间的相关问题。

     设x=(x1,x2,...,xp)'y=(y1,y2,...yp)'是两组随机变量

     典型相关分析需要研究x的线性函数u=a'x与y的线性函数v=b'y之间的相关关系,使ρ(u,v)达到最大

    求解得到的a1和b1使ρ(u,v)达到最大值ρ1,我们称u1=a'x ,v1=b'y为第一对典型相关变量,称ρ1为第一个典型相关系数

二.SAS实现  

     proc cancorr data=tmp1.innovation out=a outstat=a1 all vdep;  #all选项输出典型冗余分析的结果,vdep表示以var变量为因变量,with变量为自变量

                                                                                                                  进行多元回归分析

    with Patent NEWP PTMVALUE HIGHEXPORT;                         #列出被分析变量两组中的第二组


    var RRDINSTi RDINTENSITY PRDEX PRDP;


    run;


三.SAS输出结果及解释

典型相关分析_第1张图片
这里输出的是典型相关系数的显著性检验结果。在0.05检验水平下,由于Pr>F 小于0.0001,说明第一个典型相关系数0.9718是显著的。

典型相关分析_第2张图片
以上输出的是标准化典型系数,也叫典型权重。PRDEX在V1上的典型权重较大,说明人均R&D经费支出对典型变量V1的贡献较大。但原始变量的典型权重也有相反的符号,说明变量之间存在一种相反的关系,这种解释其实是太受认同的,在解释典型相关的时候还是慎用典型权重吧。。

典型相关分析_第3张图片
以上前两张表输出的是典型载荷,也称典型结构相关系数,是原始变量与它的典型变量间的简单线性相关系数。后两张表输出的是典型交叉载荷

典型相关分析_第4张图片
第一组变量通过它的第一个典型变量解释的方差比例是71.69%,通过配对的另一个典型变量解释的方差比列是67.69%

典型相关分析_第5张图片
这里输出的是典型变量与原始变量的复相关系数,结果显示第一组(VAR)变量的第一典型变量对第二组(WITH)变量中的Patent的解释能力最强(93.52%),说明科研投入的效果在万人发明专利数上的体现最为明显。

你可能感兴趣的:(典型相关分析)