【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总

目录

  • 前言
  • 一、数据标准化
    • 1.1 小数标准化
    • 1.2 标准差(Z-score)标准化
    • 1.3 小数定标标准化
  • 总结

本文链接:https://blog.csdn.net/weixin_47058355/article/details/130342784?spm=1001.2014.3001.5501

前言

数据标准化指的是将不同尺度、不同单位或不同范围的数据转化为统一的标准数值,以便进行比较和分析。
#本文用的是泰塔尼克号的数据集 可以从kaggle上找 链接:传送门

一、数据标准化

1.1 小数标准化

小数标准化(min-max normalization)是一种常见的数据标准化方法之一,通过对原始数据的线性变换将其映射到[0,1]区间上。
小数标准化的优点是简单易行,能够有效地把数据压缩到[0,1]区间内,便于进行后续处理。但是需要注意,如果原始数据中存在极端值或离群值,可能导致归一化结果出现较大的波动,因此在实际应用中需要根据具体情况选择合适的数据标准化方法。

def MinMaxScale(data):
     return(data-data.min())/(data.max()-data.min())
MinMaxScale(data['Fare'])

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总_第1张图片
【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总_第2张图片

1.2 标准差(Z-score)标准化

标准差标准化也是一种常用于数据预处理的方法,它与离差标准化类似,但是使用的是标准差来作为标准化的基准。具体来说,在进行标准差标准化时,我们需要计算每个数据点与整体均值之间的差值,然后将这些差值除以数据集的标准差,这样就可以得到一个新的、经过标准化的数据集。
标准差标准化的优点是可以更好地处理离群值,因为它考虑了每个数据点和整体均值之间的距离,并且将这个距离与标准差相比较来进行标准化。标准差标准化也能够消除不同量纲下的度量单位对结果的影响,使得不同变量之间可以进行更为公平的比较。
需要注意的是,在进行标准差标准化时,如果数据集中存在极端值(即离群值),那么它们可能会对标准差的计算产生很大的影响,从而影响标准化的结果。因此,在实际应用中需要结合其他方法进行异常值检测和处理。

def Z_score_Scale(data):
     return(data-data.mean())/data.std()
Z_score_Scale(data['Fare'])

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总_第3张图片

除了可以用自己定义的函数,还可以用库

from sklearn import preprocessing
data=pd.read_csv('./Titanic_train.csv') #读取文件
scaler = preprocessing.StandardScaler() #获得转换容器
data['Fare'] = scaler.fit_transform(data['Fare'].values.reshape(-1,1))#进行转换
data['Fare']

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总_第4张图片

1.3 小数定标标准化

该方法的目的是通过移动数据的小数点位置来缩放特征值,使其落在一个较小的范围内,从而提高模型训练的效率和准确性。
小数定标标准化可以使得数据分布更加集中,避免了因特征值大小不同造成的模型训练困难,同时也可以减少计算量和存储空间的消耗。但是需要注意的是,该方法依赖于数据集中的极值,因此对于存在离群点的数据集可能会产生误差。

def Decimal_Scale(data):
     return  data/10**(np.log10(data.abs().max()))
Decimal_Scale(data['Fare'])

【python】数据挖掘分析清洗——标准化(数据归一化)处理方法汇总_第5张图片

总结

数据标准化的好处包括:

提高模型的准确性和可靠性。标准化可以消除数据的不同尺度和单位带来的影响,使得不同变量之间的比较更加公正,从而提高模型的预测准确性和可靠性。

方便数据的比较和分析。标准化后的数据具有相似的量级、范围和分布,可以更加方便地进行比较和分析,从而发现数据之间的关系和趋势。

减少数据处理的复杂度。标准化可以将数据转化为统一的标准数值,从而减少数据处理的复杂度和难度,节省时间和人力成本。

总之,数据标准化是数据分析中不可或缺的一步,可以提高模型的准确性和可靠性,方便数据的比较和分析,减少数据处理的复杂度。

欢迎各位朋友留言点赞收藏,对你有所帮助的话可以请我喝杯咖啡

你可能感兴趣的:(数据挖掘,python,人工智能)