PCA降维

一.概念

Principal Component Analysis(PCA):主成分分析法,是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,即把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。并期望在所投影的维度上数据的方差最大,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。以此使用较少的数据维度,同时保留住较多的原数据点的特性。

二.算法

1.对所有样本进行中心化操作
2.计算样本的协方差矩阵
3.对协方差矩阵做特征值分解
4.取最大的d个特征值对应的特征向量,构造投影矩阵W
通常低维空间维数d的选取有两种方法:
1)通过交叉验证法选取较好的d
2)从算法原理的角度设置一个阈值,比如t=0.95,然后选取似的下式成立的最小的d值:
    Σ(i->d)λi/Σ(i->n)λi>=t,其中λi从大到小排列
PCA降维的准则有以下两个:
最近重构性:重构后的点距离原来的点的误差之和最小
最大可分性:样本点在低维空间的投影尽可能分开

四.总结

PCA是多变量分析中较为古老的技术,它来源于通信理论中的K-L变换,其实质就是在尽可能好的代表原特征情况下,将原特征进行线性变换、映射至低纬度空间。PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致使用PCA在很多情况下的分类效果并不好。

原文出处:https://www.imooc.com/article/44218

你可能感兴趣的:(OpenCV)