数据预处理第5讲:特征缩放

论文合作、课题指导请联系QQ2279055353

特征缩放

特征缩放(Feature scaling), 通常指特征的标准化,或者叫Z-Score标准化,对于很多机器学习算法来说是一个非常重要的预处理过程。标准化后的特征,具有标准正态分布的属性,即零均值、单位标准差。
很多算法,例如SVM, K-近邻、Logistic回归,要求特征标准化。再如主成分分析,如果一个成分,例如人的身高,变异小于另一个成分,例如人的体重,由于它们各自的单位(meters vs. kilos), 如果这两个特征没有缩放,那么,主成分可能确定最大方差的方向更接近体重轴。其结果是,身高改变1米被认为比体重改变1公斤更重要,这个结论显然是错误的,而这种错误是由于在做主成分之前没有对特征缩放。

数据实例

我们以UCI的Wine数据集为例,该数据集包含的连续特征,由于测量的属性各不相同,特征范围是混杂的(heterogeneous). 我们分别对原始数据和缩放后的数据做主成分分析和naive贝叶斯分类器。下图的结果说明,在经过标准化之后的数据做主成分分类,预测的准确性远胜过没有经过标准化的原始数据的分类表现。这个例子说明了特征缩放,即,数据标准化过程,对主成分分析的重要性。
数据预处理第5讲:特征缩放_第1张图片

特征离散化

我们演示一个在合成的分类数据集上的特征离散化。在这里,特征离散化将每个特征分解成相等宽度的bin集。然后,one-hot编码这些离散值,输送给一个线性分类器。
在这个例子里,前两行表示线性不可分数据集,而第三行是大致可分的数据集。在线性不可分数据集里,特征离散化极大地改善了线性分类器的表现,而在线性不可分的数据集里,线性分类器的表现不佳。
数据预处理第5讲:特征缩放_第2张图片
需要指出的是,在高维空间里,数据很容易线性可分,而使用特征离散化与one-hot编码,增加了特征数,很容易导致过度拟合,特别是在样本数少的情况下。

你可能感兴趣的:(数据预处理第5讲:特征缩放)