数据预处理(无量纲化、缺失值、分类特征、连续特征)

文章目录

      • 1. 无量纲化
        • 1.1 sklearn.preprocessing.MinMaxScaler
        • 1.2 sklearn.preprocessing.StandardScaler
      • 2. 缺失值
      • 3. 分类型特征
      • 4. 连续型特征

数据挖掘的五大流程包括:

  • 获取数据
  • 数据预处理
  • 特征工程
  • 建模
  • 上线

数据预处理(无量纲化、缺失值、分类特征、连续特征)_第1张图片

其中,数据预处理中常用的方法包括数据标准化和归一化。sklearn中包含众多的数据预处理模块,

数据预处理(无量纲化、缺失值、分类特征、连续特征)_第2张图片

  • 模块preprocessing:几乎包含数据预处理的所有内容
  • 模块Impute:填补缺失值专用
  • 模块feature_selection:包含特征选择的各种方法的实践
  • 模块decomposition:包含降维算法

1. 无量纲化

1.1 sklearn.preprocessing.MinMaxScaler

sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True)

1.2 sklearn.preprocessing.StandardScaler

sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)

2. 缺失值

3. 分类型特征

4. 连续型特征

【参考博客】:

  • 03、sklearn中的数据预处理和特征工程
  • 03.(2)数据预处理

你可能感兴趣的:(机器学习,&,深度学习,python)