偏最小二乘回归及其SAS实现

偏最小二乘回归可用于解决多重共线性问题,其用途比主成分回归更为广泛。最初由经济计量学家Herman Wold于20世纪70年代提出比较系统的算法体系,被许多统计学家称为“第二代多元统计分析方法”。

偏最小二乘回归综合了线性回归、主成分分析及典型相关分析的优点,其目的是研究多因变量对多自变量的回归建模,能够在自变量存在严重相关性条件下建模,尤其适用于含量较小的情形。

偏最小二乘回归的SAS程序主要通过proc pls过程实现:

proc pls ;
     model 因变量=自变量 ;
run;

proc pls命令常用的选项有:

** cv=:**指定交叉确认方法以确定适当因子数。常用的有cv=one,cv=split, cv=block, cv=random
cvtest: 对交叉确认方法选择的不同成分的模型进行比较检验
method=: 指定因子提取方法,常用有pls(偏最小二乘回归法)、pcr(主成分回归法)、rrr(降秩法);这些方法在多因变量分析时由于侧重不同有较大的差别;单因变量分析时差别不大,可直接选method=pls

model语句常用的选项有:

solution:给出以0为中心的标准化(即均数为0,标准差为1)回归系数和原始变量的回归系数

SAS程序例子

偏最小二乘回归及其SAS实现_第1张图片
pls程序.png

结果分析

第一部分 交叉确认法确定提取的因子数并给出检验结果

偏最小二乘回归及其SAS实现_第2张图片
交叉确认法分析结果.png

看上面的第三个表:第1列为提取因子数,第4列为提取相应因子数与PRESS(预测残差平方和)最小因子数相比的P值。

结果显示:

  • 提取1个因子与提取2个因子所提供的信息并无统计学差异(P=0.4920);
  • 提取3个因子与提取2个因子所提供的信息也无统计学差异(P=0.8630)。

再看第四个表:第一行结果为2,第二行结果为0.3651,提示提取两个因子时PRESS均方最小(0.3651);第三行结果为1,表明最小因子数为1,且1个因子的模型与2个因子的模型相比无统计学差异。既然差别不大,从简化角度来看,提取1个因子显然比提取2个或3个因子更为可取。

第二部分 偏最小二乘回归法提取因子及其贡献率

偏最小二乘回归及其SAS实现_第3张图片
偏最小二乘回归法提取因子及其贡献率.png

结果表明:

  • 提取的1个因子已经涵盖了97.39%的自变量信息以及88.57%的因变量信息。

第三部分 标准化回归系数估计

偏最小二乘回归及其SAS实现_第4张图片
标准化回归系数估计.png

第四部分 原始变量的回归系数估计

偏最小二乘回归及其SAS实现_第5张图片
原始变量回归系数估计.png

得最终原始变量的模型为:
xin = -14.13105929 + 0.26465955 x height + 0.42241598 x weight + 0.56172162 x cir

偏最小二乘回归应用特点:

  • 适用于样本含量相对较小的情形,甚至可用于样本含量小于自变量数的特殊情况。(传统线性回归一般要求样本含量是自变量个数的5~10倍)
  • 适宜处理多因变量和多自变量的数据,尤其是因变量之间和自变量之间均存在较强相关性的情形。
  • 偏最小二乘回归可利用VIP(variable important forprojection)指标进行变量筛选。

偏最小二乘回归变量筛选

SAS程序

偏最小二乘回归及其SAS实现_第6张图片
vip程序.png

结果:

偏最小二乘回归及其SAS实现_第7张图片
vip plots.png
偏最小二乘回归及其SAS实现_第8张图片
vip.png

结果显示:

  • 三个变量的VIP非常接近,表明三个自变量对因变量的影响大小差不多,很难确认删除哪个。如果用多重性回归进行逐步回归分析,结果只能保留体重一个变量,显然过于片面。(逐步回归过程略)

你可能感兴趣的:(偏最小二乘回归及其SAS实现)