统计学习方法学习笔记:第十六章.主成分分析

第十六章:主成分分析(PCA:principal component analysis)

利用 正 交 变 换 \color{red}{正交变换} 把由线性相关变量表示的观测数据转换为少数几个 由 线 性 无 关 变 量 表 示 \color{red}{由线性无关变量表示} 线的数据,同时尽可能的保留较多的原始数据信息, 线 性 无 关 的 变 量 称 为 主 成 分 , \color{red}{线性无关的变量称为主成分}, 线属于 降 维 方 法 \color{red}{降维方法}

总体主成分分析

基本思想:首先对给定数据进行 规 范 化 \color{red}{规范化} (这里是标准化,即减均值,除标准差),使得数据的 每 一 个 变 量 均 值 为 0 , 方 差 为 1 \color{red}{每一个变量均值为0,方差为1} 01,再进行 正 交 变 换 \color{red}{正交变换} ,得到若干个 线 性 无 关 的 新 变 量 \color{red}{线性无关的新变量} 线,依次将这些新变量称为第一主成分、第二主成分等;

主 成 分 分 析 在 旋 转 变 换 中 选 取 离 样 本 点 的 距 离 平 方 和 最 小 的 轴 ( 这 样 , 变 换 后 的 方 差 才 能 最 大 ) 作 为 第 一 主 成 分 ; \color{red}{主成分分析在旋转变换中选取离样本点的距离平方和最小的轴(这样,变换后的方差才能最大)作为第一主成分;}
第二主成分等的选取,在 保 证 与 已 选 坐 标 轴 正 交 \color{red}{保证与已选坐标轴正交} 的条件下,类似的进行;

m维向量 x 到 m 维向量的线性变换:

y i = a i T x = a 1 i x 1 + a 2 i x 2 + ⋯ + a m i x m , i = 1 , 2 , . . . , m \color{red}{y_i=a_i^Tx=a_{1i}x_1+a_{2i}x_2+\cdots+a_{mi}x_m},i=1,2,...,m yi=aiTx=a1ix1+a2ix2++amixmi=1,2,...,m

c o v ( y i , y j ) = a i T Σ a j = 0 , 表 示 y i , y j 线 性 无 关 , Σ 为 x 的 协 方 差 矩 阵 \color{red}{cov(y_i,y_j)=a_i^T\Sigma{a_j}}=0,表示y_i,y_j线性无关,\Sigma为x的协方差矩阵 cov(yi,yj)=aiTΣaj=0,yi,yj线Σx

其中, a i T a_i^T aiT是单位向量

y 1 y_1 y1是所有线性变换中方差最大的,也就是第一主成分; y i y_i yi是与 y 1 , y 2 , . . . , y i − 1 y_1,y_2,...,y_{i-1} y1,y2,...,yi1线性无关的x的线性变换中方差最大的;

这 里 意 思 就 是 求 解 系 数 向 量 a i T 使 得 方 差 c o v ( y i , y i ) = a i T Σ a i 最 大 \color{red}{这里意思就是求解系数向量a_i^T使得方差cov(y_i,y_i)=a_i^T\Sigma{a_i}最大} aiT使cov(yi,yi)=aiTΣai

定理:用于求解主成分
x 是 m 维随机变量(总体), Σ \Sigma Σ是其协方差矩阵,特征值为 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ m ≥ 0 \lambda_1\geq\lambda_2\geq\cdots\geq\lambda_m\geq0 λ1λ2λm0,对应的单位特征向量为 a 1 , a 2 , ⋯   , a m a_1,a_2,\cdots,a_m a1,a2,,am,则 x 的第 k 主成分为:

y k = a k T x ( 拉 格 朗 日 乘 数 法 求 得 ) ; 方 差 为 v a r ( y k ) = a k T Σ a k = λ k ; \color{red}{y_k=a_k^Tx(拉格朗日乘数法求得);方差为var(y_k)=a_k^T\Sigma{a_k}=\lambda_k;} yk=akTxvar(yk)=akTΣak=λk

第一主成分即对应最大的特征值及其相应的特征向量;

即 : y = A T x , c o v ( y ) = d i a g ( λ 1 , λ 2 , ⋯   , λ m ) = A T Σ A , A 为 正 交 矩 阵 , 列 向 量 为 上 述 的 单 位 特 征 向 量 \color{red}{即:y=A^Tx,cov(y)=diag(\lambda_1,\lambda_2,\cdots,\lambda_m)=A^T\Sigma{A},A为正交矩阵,列向量为上述的单位特征向量} y=ATx,cov(y)=diag(λ1,λ2,,λm)=ATΣA,A

性质:

  1. ∑ i = 1 m λ i = ∑ i = 1 m σ i i \color{red}{\displaystyle\sum_{i=1}^m\lambda_i=\sum_{i=1}^m\sigma_{ii}} i=1mλi=i=1mσii:主成分的方差之和等于随机变量 x 的方差之和;
  2. 因子负荷量:第 k 个主成分与变量 x i x_i xi的相关系数: ρ ( y k , x i ) = λ k a i k σ i i \color{red}{\rho(y_k,x_i)=\frac{\sqrt{\lambda_k}a_{ik}}{\sqrt{\sigma_{ii}}}} ρ(yk,xi)=σii λk aik,且有 ∑ i = 1 m σ i i ρ 2 ( y k , x i ) = λ k , ∑ k = 1 m ρ 2 ( y k , x i ) = 1 \color{red}{\displaystyle\sum_{i=1}^m\sigma_{ii}\rho^2(y_k,x_i)=\lambda_k,\sum_{k=1}^m\rho^2(y_k,x_i)=1} i=1mσiiρ2(yk,xi)=λk,k=1mρ2(yk,xi)=1

主成分个数 k 的选择:

k 个主成分的累计方差贡献率:保留信息的比例,根据需要达到的贡献率要求来选取合适的 k 值
∑ i = 1 k η i = ∑ i = 1 k λ i ∑ i = 1 m λ i ; \color{red}{\displaystyle\sum_{i=1}^k\eta_i=\frac{\displaystyle\sum_{i=1}^k\lambda_i}{\displaystyle\sum_{i=1}^m\lambda_i}}; i=1kηi=i=1mλii=1kλi;

对某一个原有变量 x i x_i xi保留信息的比例: v i = ∑ j = 1 k ρ 2 ( y j , x i ) ; \color{red}{v_i=\displaystyle\sum_{j=1}^k\rho^2(y_j,x_i)}; vi=j=1kρ2(yj,xi);

规范化变量的总体主成分:

把原有数据各个变量规范化后(均值为0,方差为1)进行主成分分析,这时 x 的协方差矩阵即为 相关矩阵 R,主成分分析是在相关矩阵上进行的;对照之前的性质,可以相应得到这里的性质;(只是将协方差矩阵用相关矩阵代替,比如,相关矩阵对角线上的值都为1)

样本主成分分析

样本主成分与总体主成分具有相同的性质, 用 样 本 协 方 差 代 替 总 体 协 方 差 \color{red}{用样本协方差代替总体协方差} ,规范化后的样本矩阵 X 的协方差矩阵即为样本相关矩阵:

R = 1 n − 1 X X T , 这 里 X 的 列 向 量 为 一 个 观 测 样 本 , 行 向 量 对 应 某 一 个 变 量 的 n 组 观 测 值 \color{red}{R=\frac{1}{n-1}XX^T,这里X的列向量为一个观测样本,行向量对应某一个变量的 n 组观测值} R=n11XXTXn

主成分分析求解:

相关矩阵的特征值分解算法:

根 据 主 成 分 与 协 方 差 矩 阵 或 相 关 矩 阵 的 特 征 值 和 特 征 向 量 的 关 系 来 求 解 主 成 分 \color{red}{根据主成分与协方差矩阵或相关矩阵的特征值和特征向量的关系来求解主成分}

数据矩阵的奇异值分解算法:

由奇异值分解性质: V 的 列 向 量 为 A T A 的 单 位 特 征 向 量 \color{red}{V的列向量为A^TA的单位特征向量} VATA

那么构造矩阵:
X ′ = 1 n − 1 X T , 则 X 的 协 方 差 矩 阵 ( 这 里 是 关 系 矩 阵 ) X'=\frac{1}{\sqrt{n-1}}X^T,则X的协方差矩阵(这里是关系矩阵) X=n1 1XT,X

S X = X ′ T X ′ , 所 以 对 X ′ 进 行 截 断 奇 异 值 分 解 , V 的 前 k 列 构 成 k 个 样 本 主 成 分 S_X=X'^TX',所以对X'进行截断奇异值分解,V的前k列构成k个样本主成分 SX=XTX,XVkk

得 到 k × n 样 本 主 成 分 矩 阵 : Y = V T X \color{red}{得到k\times{n}样本主成分矩阵:Y=V^TX} k×nY=VTX

你可能感兴趣的:(统计学习)