归一化-处理连续特征和离散特征并存情况

归一化-处理连续特征和离散特征并存情况_第1张图片

别人答的已经很漂亮了,我就简单复述一下。
1、重新规划连续特征边界:就是将连续值缩放到[-1,1],注意既可以缩也可以放大。
2、标准化连续特征:这个就套公式就行,计算平均值和方差,但是如果方差小还是不大行。
3、是针对离散变量而言,更像是skearn里面的哑变量处理,所有离散变量不论多大全部改为01。

另外:
我自己补充,如果是机器特征学习上述就行。深度学习可以不改哑变量,现在万物皆可embedding,用嵌入层将离散变量压缩变得稠密,将连续变量rescale bound 就行。

你可能感兴趣的:(ml,深度学习)