机器学习(3)--特征工程之数据降维

三、降维

这里的维度指降低特征的数量

【这里的降维不是指数组的维度】

方式:

1. 特征选择

2. 主成分分析

3. 神经网络【之后补充,它也有降维的作用】

1.特征选择

特征选择原因

  1. 冗余:部分特征的相关度高,容易消耗计算性能
  2. 噪声:部分特征对预测结果有负影响

概念:

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征, 特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯 定比选择前小,毕竟我们只选择了其中的一部分特征。

主要方法(三大武器):

Filter(过滤式): VarianceThreshold  【用方差过滤,方差为0说明这个特征没有影响,可以删除的特征,没有什么代表性】                         

Embedded(嵌入式):正则化、决策树、神经网络                     

Wrapper(包裹式)【使用较少】

sklearn特征选择API:

sklearn.feature_selection.VarianceThreshold

VarianceThreshold语法:

1)VarianceThreshold(threshold = 0.0)

           删除所有低方差特征

2)Variance.fit_transform(X,y)      

           X:numpy array格式的数据[n_samples,n_features]

           返回值:训练集差异低于threshold的特征将被删除。

           默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

VarianceThreshold流程

1)初始化Varian

你可能感兴趣的:(机器学习,机器学习,python,概率论)