股票量化分析系统浅析之(三)归一化与标准化

归一化广义上是包含标准化的,本文从狭义上区分两者。

归一化主要是应用于没有距离计算的地方上,标准化则是使用在不关乎权重的地方上,因为各自丢失了距离信息和权重信息

从概念上看,标准化将数值规约到(0,1)或者是(-1,1)区间,而归一化将对应数据的分布规约在均值为0,标准差为1的分布上。

标准化公式为(x-xmin)/(xmax-xmin),即先使用最小值平移,后使用最值差缩放。归一化公式为(x-均值)/标准差,即先使用均值μ平移,之后用标准差σ进行缩放。

标准化丢失了数据的分布信息,对数据之间的距离没有得到较好的保留,但保留了权值。某个指标数据对应的数据集标准差过大,说明其不确定性增加,所提供的信息量也会增加,因此在进行综合指标评价的时候,权重也会对应的增大。

归一化较好地保留了数据之间的分布,但是数据的权重没有得到保留,因为归一化的分母是标准差,而标准差大小间接代表着权重的大小,这就导致归一化之后的分布各个样本的权重是平等的,但是归一化保留了样本之间的距离信息。

你可能感兴趣的:(股票量化分析系统浅析,归一化,标准化,量纲,距离)