数据预处理-数据标准化

《Python数据分析与数据化运营 第2版》读书笔记

一、数据标准化定义及作用

由于不同特征数量级及量纲不同,如果直接使用会影响建模准确性,因此需要对数据先进行标准化处理。
数据标准化的目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模、特征、分布差异等对模型的影响。

二、数据标准化的方法

  1. 实现中心化和正态分布的Z-Score
    公式:x' = ( x - mean ) / std
    缺点:Z-Score方法是一种中心化方法,会改变原有数据的分布结构,不适合对稀疏数据做处理。

  2. Max-Min标准化方法
    公式:x' = ( x - min ) / ( max - min ),其中min和max为x所在列的最小值和最大值。
    得到的数据会完全落入[0, 1]区间内

  3. 最大值绝对值标准化(MaxAbs)
    公式:x' = x / | max |,其中max为x所在列的最大值。
    得到的数据会完全落入[-1, 1]区间内

  4. RobustScaler针对离群点做标准化处理

三、不同标准化方法数据展现

原始数据与不同标准化方法标准化后的数据

你可能感兴趣的:(数据预处理-数据标准化)