降维—PCA

1. 定义:将现有特征映射到一个新的特征空间中,然后得到新的特征。 特点:维度降低,数据改变。

2. 目的:算法运算更快效果更好;数据可视化

3. 衡量指标:样本方差,又称可解释性方差,方差越大,特征所带的信息量越多。
在这里插入图片描述

其中,Var表示某特征的方差,n代表样本量,xi表示某特征中的各样本 取值,x’代表该特征对应样本的均值。

4. 方法:矩阵分解。用来找出n个新特征向量,让数据能够被压缩到少数特征上并且总信息量不损失太多的技术。

5. 操作过程

降维—PCA_第1张图片

6. 举例

降维—PCA_第2张图片

原数据是二维的(x1和x2),找到新的特征空间(x1’和x2’),将原数据映射到新的特征空间上,得到新的一维数据(x1’),如此便实现了降维的操作。

7. 降维和特征选择的区别

       特征选择是从原有的特征集中选择出性能最优的特征子集,特征子集中的特征未发生改变;降维是对现有的特征进行缩减,得到的特征集特征数小于等于原特征集,且每一个特征均与原特征不同,但是尽可能的保留原特征集的所有信息(方差尽量不变)。不适用于探索特征和标签之间的关系的模型(如线性回归),因为无法解释的新特征和标签之间的关系不具有意义。

8. 应用

  • 可视化:将高维特征降到二维特征,然后进行观察
  • 降噪:通过降维去除无用信息(噪声等),然后用相关操作返回到原特征矩阵维度(与原数据并不是百分之百的一样)
  • 特征向量空间V:对于图像,可以通过特征向量空间V,观察主要影响人脸识别的原因(如五官)。
    (注:具体的可以看菜菜的scikit-learn课堂*)

参考:

菜菜的scikit-learn课堂— sklearn中的降维算法PCA和SVD
学堂在线:数据挖掘:理论与算法,清华大学,袁博老师

你可能感兴趣的:(机器学习,pca降维,机器学习,算法)