06_特征预处理之归一化(必须要掌握)

1.特征处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。

2.不同的数据类型有不同的处理方法:

   数值型数据:标准缩放: 1、归一化 2、标准化 3、缺失值

   类别型数据:one-hot编码

   时间类型:时间的切分

3.sklearn特征处理API:sklearn. preprocessing

4.归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。

 公式分两步,计算了第一个x,还要计算第二个x

 注:公式作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’ 为最终结果,mx,mi分别为指定区间值,默认mx为1,mi为0。

5.归一化公式计算过程:

 06_特征预处理之归一化(必须要掌握)_第1张图片

 

6.代码实现上述表格计算过程:对比结果

from sklearn.preprocessing import MinMaxScaler

def normalization():
    """
    归一化处理
    :return:
    """
    # 未指定范围
    mm = MinMaxScaler()
    mm = MinMaxScaler(feature_range=[2,3]) # 结果最小值为2
    data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
    print(data)

if __name__ == '__main__':
    normalization()

"""
结果:
[[1.         0.         0.         0.        ]
 [0.         1.         1.         0.83333333]
 [0.5        0.5        0.6        1.        ]]
"""

  

单词:

preprocessing预处理
normalization 归一化
MinMaxScaler 最大最小值缩放
Scaler 缩放
fit_transform 适合的转换

你可能感兴趣的:(06_特征预处理之归一化(必须要掌握))