偏最小二乘法PLS和PLS回归的介绍及其实现方法

1、偏最小二乘法(PLS)介绍

偏最小二乘法是一种新型的多元统计数据分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法实现了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
PCA方法虽解决了自变量共线性的问题,但是并没有考虑自变量主元对于因变量变化的解释作用。所以删除的次要主元有可能包含对回归有益的信息,而保留的主元有可能会夹杂一些对回归模型输出无益的噪声。
PLS方法,通过将自变量和因变量的高维数据空间投影到相应的低维空间,分别得到自变量和因变量的相互正交的特征向量,再建立自变量和因变量的特征向量间的一元线性回归关系。不仅可以克服共线性问题,它在选取特征向量时强调自变量对因变量的解释和预测作用,去除了对回归无益噪声的影响,使模型包含最少的变量数。

2、基于目标优化的PLS模型的计算

2.1 PLS的准则函数

准则函数通俗的讲就是提取主元时所按照的准则,与PCA不同,PLS在提取主元时考虑的不仅是能最大程度概括自变量空间的数据信息,还应该考虑自变量主元对于因变量变化的解释作用。因此J.Hinkle提出的新的残差平方和指标:
公式1
下面就是对这个式子的各种变换,具体推导过程比较复杂,但最终这个式子就等价于,
确定权值向量wi和ci使满足:
公式2

2.2 偏最小二乘基本算法

2.2.1 基于拉格朗日算法的极大值求解

令E0=X, F0=Y,那么上式即在 的约束条件
在这里插入图片描述
下求
在这里插入图片描述
的极大值,建立上式的拉格朗日函数:
在这里插入图片描述
最后解得:
偏最小二乘法PLS和PLS回归的介绍及其实现方法_第1张图片
可见w1和c1分别为
在这里插入图片描述
最大特征值λ_1所对应的特征向量。

2.2.2 计算成分

在这里插入图片描述
分别对应自变量和因变量的成分。

2.2.3 回归系数向量的计算

偏最小二乘法PLS和PLS回归的介绍及其实现方法_第2张图片

2.2.4 数据残差矩阵的计算

求得第一个主成分后,按照上式对数据矩阵进行缩减,得到缩减后的残差矩阵:
偏最小二乘法PLS和PLS回归的介绍及其实现方法_第3张图片

2.2.5 重构X,Y

偏最小二乘法PLS和PLS回归的介绍及其实现方法_第4张图片

3、PLS回归模型

偏最小二乘法PLS和PLS回归的介绍及其实现方法_第5张图片
最终可以建立PLS模型:
Y=TβQ^T+F=TB+F
T为X的得分矩阵,U为Y的得分矩阵,Q为Y对应于u的负荷矩阵,β为回归系数矩阵,F为残差矩阵。

3.1 基于得分矩阵的模型输出

  1. 将数据矩阵E0=X,F0=Y的每一列进行中心化和方差归一化处理

  2. 计算互协方差矩阵
    在这里插入图片描述

  3. 计算归一化的权值向量wi

  4. 计算得分向量
    在这里插入图片描述

  5. 计算Ei-1,Fi-1相应于ti的负荷向量pi,bi

  6. 令i=i+1返回2继续计算

  7. 计算PLS模型对得分矩阵T的输出:Y=TB

4、PLS回归的计算工具

4.1 MATLAB函数包

MATLAB当中有偏最小二乘的函数plsregress函数,介绍如下:
偏最小二乘法PLS和PLS回归的介绍及其实现方法_第6张图片
偏最小二乘法PLS和PLS回归的介绍及其实现方法_第7张图片
参数解释:
Ncomp是因子或潜在变量的个数,计算Y在X上的回归,返回预测和响应载荷。
X是np预测变量,行对应观测项,列对应变量。
Y是n
m响应矩阵。
Xloadings是pncomp因子载荷,简单来说就是因子对应原变量的线性组合系数。
Xscores返回预测变量得分,简单来说就是PLS因子,是X中变量的线性组合。Xscores是一个n
ncomp正交矩阵,行对应观察值,列对应因子。因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合。如,通过因子得分矩阵可以得到公因子的线性组合,如F1=a11X1+a21X2+a31X3,其中X1,X2,X3为原变量,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子。
beta为回归模型的系数
PCTVAR是一个两行的矩阵,第一行为自变量提取成分的贡献率,第二行为因变量提取成分的贡献率
MSE是一个两行的矩阵,第一行的第j个元素表示自变量与它的前j-1个提出成份之间回归方程的剩余标准差;第二行的第j个元素对应着因变量与它的前j-1个提出成份之间回归方程的剩余标准差;
stats返回4个值stats.W是一个PLS权重的ρ
ncomp的矩阵,使XS=X0W,每一列对应特征向量ρi
stats.T2是XS每一点的T^2统计值
stats.Xresiduals为预测值残差,X0-XS
XL’
stats.Yresiduals为响应残差,Y0-XS*YL’

4.2 Unscrambler分析软件

4.2.1 软件介绍

Unscrambler is built to solve complex problems using powerful multivariate analysis, with unique capabilities for spectroscopy and chemometrics. Choose from more than 20 different methods to analyse data, including Design of Experiments (DoE), exploratory data analysis, Partial Least Squares regression (PLS), Principal Component Analysis (PCA) and Soft Independent Modelling of Class Analogies (SIMCA). Easily explore and validate models through interactive graphics and visualisations to optimise product development, improve product quality and process efficiency.

4.2.2 Unscrambler中PLS回归模型建立流程

偏最小二乘法PLS和PLS回归的介绍及其实现方法_第8张图片

5、参考资料

[1] 王桂增《主元分析与偏最小二乘法》清华大学出版社
[2] 偏最小二乘(pls)回归分析 matlab 博客链接
[3] 百度文库 偏最小二乘法(PLS)简介 百度文库链接
[4] 道客巴巴 Unscrambler X教程 教程链接

你可能感兴趣的:(算法)