03.(2)数据预处理

数据预处理

  • 2.1 数据无量纲化
    • 2.1.1 preprocessing.MinMaxScaler (归一化)
    • 2.2 preprocessing.StandardScaler (标准化)
    • 2.1.3 StandardScaler和MinMaxScaler(图像)选哪个?
  • 2.2、缺失值
    • 2.2.1、impute.SimpleImputer :填补缺失值
  • 2.3 处理分类型特征:编码与哑变量 (把是字符串的改成数字)
    • 2.3.1、preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值
    • 2.3.2、 preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值
    • 2.3.3、 preprocessing.OneHotEncoder:独热编码,创建哑变量 (稀疏矩阵)
  • 2.4 处理连续型特征:二值化与分段
    • 2.4.1 sklearn.preprocessing.Binarizer
    • 2.4.2 preprocessing.KBinsDiscretizer
  • 代码实战

2.1 数据无量纲化

数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Meansubtraction)处理和缩放处理(Scale)。

中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到
某个位置。
缩放的本质是通过除以一个固定值,将数据固定在某个范围之中,取对数也算是一种缩放处理。

2.1.1 preprocessing.MinMaxScaler (归一化)

03.(2)数据预处理_第1张图片

2.2 preprocessing.StandardScaler (标准化)

03.(2)数据预处理_第2张图片

2.1.3 StandardScaler和MinMaxScaler(图像)选哪个?

03.(2)数据预处理_第3张图片
03.(2)数据预处理_第4张图片

2.2、缺失值

2.2.1、impute.SimpleImputer :填补缺失值

03.(2)数据预处理_第5张图片

2.3 处理分类型特征:编码与哑变量 (把是字符串的改成数字)

2.3.1、preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值

03.(2)数据预处理_第6张图片

2.3.2、 preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值

03.(2)数据预处理_第7张图片

2.3.3、 preprocessing.OneHotEncoder:独热编码,创建哑变量 (稀疏矩阵)

03.(2)数据预处理_第8张图片
03.(2)数据预处理_第9张图片

2.4 处理连续型特征:二值化与分段

2.4.1 sklearn.preprocessing.Binarizer

03.(2)数据预处理_第10张图片

2.4.2 preprocessing.KBinsDiscretizer

03.(2)数据预处理_第11张图片

代码实战

03.(2)数据预处理_第12张图片
03.(2)数据预处理_第13张图片
03.(2)数据预处理_第14张图片
03.(2)数据预处理_第15张图片
03.(2)数据预处理_第16张图片
03.(2)数据预处理_第17张图片
03.(2)数据预处理_第18张图片
03.(2)数据预处理_第19张图片
03.(2)数据预处理_第20张图片
03.(2)数据预处理_第21张图片
03.(2)数据预处理_第22张图片
03.(2)数据预处理_第23张图片
03.(2)数据预处理_第24张图片

你可能感兴趣的:(菜菜-机器学习,机器学习)