特征预处理-对数变换

    我们在数据预处理过程中经常见到对于有偏数据进行log变换,变换后的数据能更加接近正态分布。

    关于有偏数据的判定,一般是计算偏度值skewness。

    但是,为什么有偏数据经过对数变换后会更加接近正态分布呢?

    原因在于对数最基本的运算法则:logaA-logaB=loga(A/B)

特征预处理-对数变换_第1张图片

        如上图所示,我们可以看到上图的原始数据经过log变换(以e为底)后数据呈现接近出了正态分布的形态。原始数据的分布集中在左侧,有极少数的数据较大,分布在右侧;数据的中位数大约在150附近。

中位数两边的数据样本量大致相当,150取ln后结果大约为5;

对于数据样本中的极大值而言(例如750),取ln后的约等于6.6;对于数据样本中的极小值而言(例如30),取ln后的约等于3.4。他们变换后的结果距离中位数取ln的距离均为1.6(6.6-5和5-3.4),也就是ln(750)-ln(150)=ln(5)=ln(150)-ln(30)。

这就是取log之后数据能更加接近正态分布的原因。

【参考链接】https://stats.stackexchange.com/questions/107610/what-is-the-reason-the-log-transformation-is-used-with-right-skewed-distribution

你可能感兴趣的:(特征预处理-对数变换)