主成分回归笔记

关于主成分分析,请参考我之前的文章。

主成分回归(PCR)是多元线性回归(MLR)的替代方法,相对于MLR具有许多优势。

1. 什么是主成分回归,为什么要使用它?
主成分回归最初是由肯德尔(Kendall,1957)提出的。前提是使用对回归变量执行的主成分分析结果,并将输出用作新的回归变量。这样,自变量是正交的,并确保计算更容易,更稳定(Jolliffe(1982))。

线性回归中的PCA已用于实现两个基本目标。第一个是在预测变量数量过多的数据集上执行的。它已成为减少维度和偏最小二乘回归的一种方法。另外,为了减小尺寸,还有一些方法,例如岭回归,套索和使用罚分法的剩余回归模型(H. Lee,Park和Lee(2015))。 PCR的第二个目标是消除变量之间的共线性。由于每个随后的主要成分都是正交的,因此已使用PCR来防止因回归中假设的独立变量之间的依赖性而引起的错误(Hadi和Ling(1998))。

在选择合适的主要成分数量时,研究人员并非一致。一种方法是选择最佳主成分,就好像它们是常规变量一样。另一则指出,最好选择能够确定最大方差的第一个确定数量的PC(Hadi和Ling(1998))。这导致拒绝一些解释低方差的主要成分。然而,这种方法受到了批评,因为那些被拒绝的PC实际上可能是与因变量相关的PC(H。Lee,Park和Lee(2015))

PCR的优势:

因为PC,W1,…,Wm是正交的,多重共线性问题完全消失了,无论实际使用多少个PC,回归方程将始终包含X中的所有变量因为每个PC是X中变量的线性组合。由Z’Z的特征向量形成)。
由于使用了正交PC,PCR可能会提高回归估计的数值准确性。

PCR步骤:

步骤1:执行PCA来创建PC作为我们的新输入.
步骤2:使用这些PC作为输入功能来训练我们的线性回归模型。
步骤3:现在,我们将这些PC转换回原始输入功能,以便对实际数据集进行预测。

PCR基本上是使用PCA,然后在这些新PC上执行线性回归。 因此,PCR和PCA所使用的方法没有显着差异,它们实质上包含相同的概念。

按照通常的表示法,假设我们的回归方程可以用矩阵形式写成
Y = XB + e
其中Y是因变量,X代表自变量,B是要回归的系数估计,e代表误差或残差。

在普通最小二乘法中,回归系数使用以下公式估算
B =(X’X)^− 1^ X’Y
由于变量是标准化的,因此X’X = R,其中R是独立变量的相关矩阵变量。

为了执行主成分(PC)回归,我们将自变量转换为其主成分。数学上,我们写
X’X = PDP’= Z’Z

其中D是X’X的特征值的对角矩阵,P是X’X的特征向量矩阵,Z是数据由主要成分组成的矩阵(结构与X相似)。 P是正交的,所以P’P =I。

我们已经创建了新变量Z作为原始变量X的加权平均值。这对我们来说并不是什么新鲜事物,因为在执行回归计算之前,我们习惯对数据值使用对数和平方根之类的转换。由于这些新变量是主要成分,因此它们彼此之间的相关性均为零。如果我们以变量X1,X2和X3开头,则将以Z1,Z2和Z3结尾。

为了消除多重共线性的数据,我们省略了与小特征值相关的分量(z)。通常,将仅获得一个或两个相对较小的特征值。例如,如果在一个具有三个自变量的问题上仅检测到一个小的特征值,我们将省略Z3(第三主成分)。

当我们在Z1和Z2上回归Y时,多重共线性不再是问题。然后,我们可以将结果转换回X尺度,以获得B的估计值。这些估计值将带有偏差,但我们希望这种偏差的大小可以通过方差的减少而得到更多补偿。也就是说,我们希望这些估计的均方误差小于最小均方误差。

在数学上,估计公式变为
A =(Z’Z)^− 1^ Z’Y = D ^− 1 ^Z’Y
因为主要成分的特殊性。注意,这是应用于不同自变量集的普通最小二乘回归。
两组回归系数A和B使用公式A = P’B关联和B = PA

省略主成分可以通过将A的对应元素设置为零来实现。

因此,可以将主成分回归概述如下:
1.完成X矩阵的主成分分析并将主成分保存在Z中。
2.将Y的回归拟合到Z,以获得A的最小二乘估计。
3.将A的最后一个元素设置为零。
4.使用B = PA变换回原始系数。

你可能感兴趣的:(主成分回归笔记)