一文理清学会降维PCA(主成分分析)

准备知识:
一文理清学会降维PCA(主成分分析)_第1张图片
降维:
一文理清学会降维PCA(主成分分析)_第2张图片
PCA(主成分分析):
PCA思想:一个中心,两个基本点。
一个中心:原始特征空间的重构(即把线性相关的特征重构为线性无关的特征);
两个基本点:最大投影方差、最小重构距离,这两个点其实说的是一个事情(最大投影方差:找到一个投影的方向,使得样本在这个方向上的投影方差最大,即投影点应很分散;最小重构距离:样本投影之后,能根据投影将样本重构回去,而重构的代价应尽量小,投影越分散代价越小)。
PCA第一步要对样本中心化(为了方便计算)。假设投影方向为u1,||u1||=1,数学上看向量a在向量b上的投影可表示为|a|·|b|·cosθ=|a|·cosθ(b的模为1),又a·b=a|·|b|·cosθ=|a|·cosθ=aT·b,一个点的投影可以表示为(xi-x均值)T·u1,整体方差=全部样本投影平方的加和(其中中心化后整体样本均值为0,即用投影式的平方加和表示方差)。
最终J=u1T·S·u1,求u1即最大化J,限制条件是u1T·u1=1,利用拉格朗日乘数法求解,构造L(u1,λ)=u1T·S·u1+λ(1-u1T·u1),然后求偏导=2S·u1-λ·2u1=0,则S·u1=λ·u1(可以看出λ为S的特征值,u1为S的特征向量)


进一步解释:实际上PCA分为两步:先对特征空间进行重构,再选择前q个成分保留下来,即是降维过程。例如:假设原始空间是p维,通过重构得到u1,u2…up(它们之间线性无关),每一个对应一个特征值λ1,λ2…λp,然后可以去前q个λ1,λ2…λq,这个就是降维了。
先重构再筛选。


具体来说PCA:对协方差矩阵S进行奇异值分解(S是对称矩阵对其特征值分解与奇异值分解相同),S=GKGT,其中K是一个对角矩阵,对角线上是特征值,进行降维时,取前p个特征值对应的特征向量就是主成分。


PCA中的两个基本点:①最大投影方差(最大化方差问题):从投影后的方差作为选择成分的基本点,通过公式推到求解使方差最大的成分,得出成分就是S对应的特征向量,特征值λ越大表示成分包含的信息越多,即方差大。②最小重构距离(最小化代价问题):假设将p维空间降到q维,则重构前的样本与重构后的样本之间的距离可作为最小化函数(两者相减余下的是p-q维成分相加和),而这个过程计算的结果是使余下的p-q维的成分对应的特征值最小,这也对应了最大投影方差选择最大特征值,这里是丢掉最小的p-q个特征值对应的成分。
以上是从两个角度去看PCA,最终重构筛选成分,都要落在对S的奇异值分解上。


扩展
①对样本中心化可以表示为HX,然后对其进行奇异值分解HX=U∑VT,其中UTU=I,VTV=I,∑对角。S=XTHX=XTHT·HX=V∑UT·U∑VT=V∑2VT(其中S是p*p,这里省去了1/N,HT=H,HTH=H),可以看出G=V,K=∑2,则得出结论:通过对HX进行奇异值分解,也可以得到主成分。
②(T是N*N,对上式S进行翻转)T=HX·XTH=U∑VT·V∑UT=U∑^2UT,可以看出T和S有相同的特征值。
③对S特征值分解,得到主成分,然后HX·V就是样本对应的坐标;对T特征值分解,直接得到坐标,U∑就是坐标矩阵。
④T的过程称作主坐标分析(PCoA)。
⑤S的维度和特征数量有关,T的维度和样本数量有关,当特征维度很大时,我们可以用T来做。
如下图所示(来自b站白板推导机器学习):
一文理清学会降维PCA(主成分分析)_第3张图片

你可能感兴趣的:(算法,pca降维,机器学习,人工智能)