Python机器学习:用极差标准化min-max处理连续变量

因为变量之间的量纲不一样会影响训练的准确性,所以要对变量进行标准化。极差标准化就是常用的标准化方法之一(又叫min-max标准化),处理后可以使多个变量统一量纲,值都落在[0,1]之间。

标准化变量值 =(原变量值-最小值)/(最大值-最小值)

minVec = X_train_new['Balance'].min()
maxVec = X_train_new['Balance'].max()

X_train_new['Balance'] = (X_train_new['Balance']-minVec)/(maxVec-minVec)

语法讲解:先判断字段的最大值、最小值是什么,再代入公式即可。

注意要划分数据集之后才能 进行连续变量标准化,不能先标准化再去划分数据集。因为有一个原则是尽量不影响测试集的数据。如果先把数据作为一个整体标准化,测试集会受到总体的最大最小值判断的影响。

同理填充空值也是要在划分数据集之后进行,因为填充空值也是要判断总体的众数、中位数、平均数是什么。

你可能感兴趣的:(Python机器学习,python,算法)