特征工程之特征选择(6)----降维算法PCA初探

文章目录

    • 维度的概念
    • 降维的目的:
    • PCA 的信息衡量指标----可解释性方差
    • 降维过程简述
    • 降维算法与前面的特征选择算法的区别
    • sklearn中的降维算法
    • 示例
      • 导入相关库
      • 提取特征和标签
      • 降维
      • 探索降维后的数据
    • 总结

维度的概念

对于ndarray对象和series对象,shape返回的数据中有几个数据就是几维
对于dataframe对象,列数就是维度数,即维度=shape[1]
降维算法的降维指的是,降低特征矩阵中的特征的数量

降维的目的:

  1. 让算法运算更快,效果更好
  2. 高维数据可视化

PCA 的信息衡量指标----可解释性方差

在讲降维算法之前我们需要知道降维算法根据什么指标来选择特征的
方差过滤中我们了解到,一个特征的方差越小,表明特征的变化越小,相对的,对标签的反映度就不够。也就是说该特征带有的有效信息很少
PCA 使用的信息衡量指标就是方差,也叫做可解释性方差,方差越大,带有的有效信息越多

降维过程简述

降维算法涉及一大堆高深的数学原理,博主能力有限,不能将的明白那些繁杂的数学公式,下面的解释只是我个人的理解,不正确的地方,欢迎再评论指出。

首先来看将二维数据降到一维的例子,如下图所示

你可能感兴趣的:(机器学习,#,sklearn,python,机器学习,数据分析,特征工程,新星计划)