主成分分析(PCA,Principal Component Analysis)

数据降维方法

降维方法 线性or非线性 监督方式
主成分分析(Principal Component Analysis,PCA ) 线性 无监督
MDS 线性 无监督
LDA 线性 有监督
等距离映射(isometric mapping,ISOMAP) 非线性
局部线性嵌入(Local Linear Embedding,LLE) 非线性

PCA主要思想和原理

样本 X X X和样本 Y Y Y的协方差:
C o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 Cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1} Cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)

对于一批 n n n维的数据,其协方差矩阵为:
C o v = [ c o v ( x , x ) c o v ( x , y ) c o v ( x , z ) c o v ( y , x ) c o v ( y , y ) c o v ( y , z ) c o v ( z , x ) c o v ( z , y ) c o v ( z , z ) ] Cov=\left[\begin{array}{ccc} cov(x,x)&cov(x,y)&cov(x,z)\\ cov(y,x)&cov(y,y)&cov(y,z)\\ cov(z,x)&cov(z,y)&cov(z,z) \end{array}\right] Cov=cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)

A X = λ X AX=\lambda X AX=λX,则称 λ \lambda λ A A A的特征值, X X X是对应的特征向量。实际上可以这样理解:矩阵 A A A作用在它的特征向量 X X X上,仅仅使得 X X X的长度发生了变化,缩放比例就是相应的特征值 λ \lambda λ

A A A n n n阶可逆矩阵时, A A A P − 1 A P P^{-1}AP P1AP相似,相似矩阵具有相同的特征值。

特别地,当 A A A是对称矩阵时, A A A的奇异值等于 A A A的特征值,存在正交矩阵 Q Q Q Q − 1 = Q T Q^{-1}=Q^T Q1=QT)使得:
Q T A Q = [ λ 1 λ 2 λ 3 ] Q^TAQ=\left[\begin{array}{ccc} \lambda_1&&\\ &\lambda_2&\\ &&\lambda_3\\ \end{array}\right] QTAQ=λ1λ2λ3

对A进行奇异值分解就能求出所有特征值和Q矩阵。

A∗Q=Q∗D,D是由特征值组成的对角矩阵

由特征值和特征向量的定义知,Q的列向量就是A的特征向量。

你可能感兴趣的:(机器学习)