量纲对正则化的影响

如果用带正则化的逻辑斯蒂回归来做特征选择,就必须对数据做标准化操作,否则选择出来的变量会受到量纲的影响。通常会用逻辑回归所得到的系数来衡量特征对目标变量的影响,系数的绝对值越大,说明影响越大,这个特征也就越重要,但是不同的特征维度往往具有不同的量纲。假设我们有一个机器学习任务要根据一个人的的身高体重来预测他的性别,模型根据训练数据拟合出了2个参数w1和w2,身高这个数据可以用CM或者M来度量,当用CM来度量的时候,只需要将系数乘以10就可以得到用M来度量的时候的结果,这时候最终的损失并没有改变,但是如果用系数来衡量特征的大小,用CM的时候,身高所对应的权重更大,这将会对最终的特征排名产生影响。

你可能感兴趣的:(量纲对正则化的影响)