python机器学习库sklearn——数据预处理

全栈工程师开发手册 (作者:栾鹏)

python数据挖掘系列教程

主要操作内容

  • 标准化,也称去均值和方差按比例缩放
    • 将特征缩放至特定范围内
    • 缩放稀疏(矩阵)数据
    • 缩放有离群值的数据
    • 核矩阵的中心化
  • 非线性转换
  • 归一化
  • 二值化
    • 特征二值化
  • 标称特征编码
  • 缺失值插补
  • 生成多项式特征

直接上代码,大家可以运行代码,打印输出各种结果来理解预处理的处理过程。

from sklearn import preprocessing
import numpy as np

X_train = np.array([[ 1., -1.,  -2.],
                    [ 2.,  0.,  0.],
                    [ 3.,  1., -1.]])
X_test = [[-1., 1., 0.]]


# ===============标准化====================
# 计算数据集的尺度(也就是数据集的均值和方差)(各列)
scaler = preprocessing.StandardScaler().fit(X_train)   # 计算均值和方差
print('均值:'

你可能感兴趣的:(机器学习系列课程,快速学习实战应用,python系列课程,快速学习实战应用)