1.特征处理:通过特定的统计方法(数学方法)将数据转换成算法要求的数据。
2.不同的数据类型有不同的处理方法:
数值型数据:标准缩放: 1、归一化 2、标准化 3、缺失值
类别型数据:one-hot编码
时间类型:时间的切分
3.sklearn特征处理API:sklearn. preprocessing
4.归一化:通过对原始数据进行变换把数据映射到(默认为[0,1])之间。
注:公式作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’ 为最终结果,mx,mi分别为指定区间值,默认mx为1,mi为0。
5.归一化公式计算过程:
6.代码实现上述表格计算过程:对比结果
from sklearn.preprocessing import MinMaxScaler
def normalization():
"""
归一化处理
:return:
"""
# 未指定范围
mm = MinMaxScaler()
mm = MinMaxScaler(feature_range=[2,3]) # 结果最小值为2
data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])
print(data)
if __name__ == '__main__':
normalization()
"""
结果:
[[1. 0. 0. 0. ]
[0. 1. 1. 0.83333333]
[0.5 0.5 0.6 1. ]]
"""
单词:
preprocessing预处理
normalization 归一化
MinMaxScaler 最大最小值缩放
Scaler 缩放
fit_transform 适合的转换