【计量模型整理】偏最小二乘回归 PLS

partial least square PLS

    • 原理
    • 与MLS、PCR、MRA比较
    • 适用情况
    • 数学推导与软件实现
    • 参考文献

原理

在影响因变量的大量的因素中,会存在隐形的影响因素但却具有很强的解释力,PLS的基本思想是提取这些隐性因素去代表尽可能多的变量来解释因变量。因而PLS也被称作“projection to latent structure.”

具体过程见下图的上部分,实际上是从factor中提取出因子T(x-scores),而后通过T去得出预测项U(y-scores) ,使用y-scores去建立对因变量的预测值。PLS类似于robust的RDA(Redundancy Analysis)分析(方法对比见后文)。

PLS也需要确定所选因子的数量,但可以通过基于残差方差的heuristic technique或选择使总预测误差最小的因子数。

PLS和标准模型对比,图片来源:【计量模型整理】偏最小二乘回归 PLS_第1张图片参考文献[1]

The extracted factors T (also referred to as X-scores) are used to predict the Y-scores U , and then the predicted Y-scores are used to construct predictions for the responses. This procedure actually covers various techniques, depending on which source of variation is considered most crucial.

与MLS、PCR、MRA比较

MLS(多元回归分析) 当变量大于样本数时,会出现 over-fitting 的情况,模型拟合优度极高,但模型本身会丧失预测的能力。
当提取的因子数量大于或等于样本因子矩阵的秩,则PLS与MLR的结果相等

从PLS的定义中,可以看出PLS与主成分分析类似,但存在一定的区别:

  • 1.主成分分析(PCR): 从自变量中选择对因变量解释力度最高的主成分(x-score),对预测值没有进行变化。

    同时,相似的方法还有RDA (Randall D在文中用了MRA做了类比)

  • 2.最大冗余分析(Maximum Redundancy Analysis): 选取对因变量预测值解释力度最高的部分(y-score)。

    • 事实上,RDA类似于一个约束的主成分分析,其对Y的拟合值(预测值)进行了一次主成分分析,提取出被解释变量的主成分,再找影响这一主成分的解释变量或解释变量的主成分。(细节见参考文献2或 Legendre和Legendre(1998)以及ter Braak(1994))
    • RDA的方法主要用于被解释变量(响应变量)个数较多时,多出现在生态计量学的分析中。

从计算方法来看,PCA、RDA与PLS在方法上的区别在于,PCA是对XX进行特征分解,RDA是对YhatYhat进行特征分解,而PLS是对XY进行奇异值分解。

适用情况

1.因子较多且共线性较高

Partial least squares (PLS) is a method for constructing predictive models when the factors are many and highly collinear.

2.侧重对因变量的预测而不是考察变量间的关系

Note that the emphasis is on predicting the responses and not necessarily on trying to understand the underlying relationship between the variables.

数学推导与软件实现

推导过程和MATLAB实现见 参考文献 [3]
Stata实现见 Sergio Venturini & Mehmet Mehmetoglu, 2017 和 Mikko Rönkkö, 2015
R实现见 Introduction to the pls Package

参考文献

[1] An Introduction to Partial Least Squares Regression Randall D. Tobias, SAS Institute Inc., Cary, NC
[2] 数量生态学笔记||冗余分析(RDA)概述
[3] 【建模应用】PLS偏最小二乘回归原理与应用

你可能感兴趣的:(计量经济学习)