数据预处理之无量纲化、缺失值处理(三)

1.无量纲化

无量纲化以我个人的理解,就是指在两个特征的单位不一样,其数值在大小上不是一个数量级,但是不能只凭数值的大小来决定两个特征谁的影响大,需要将两个特征归一到同一可比的范围内,来决定谁的影响范围。
常见的无量纲化有 min-max归一化和z-score标准化
(1)min-max归一化
min-max归一化是指对原始数据进行线性变换,将其映射到[0,1]之间,该方法也被称为离差标准化,与z-score标准化有本质区别。min-max的公式如下所示,
在这里插入图片描述
x’为归一化后的变量,x为原始数据,xmin为原始数据样本中的最小值,xmax为原始数据样本中的最大值。
Python实现

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
x1 = MinMaxScaler().fit_transform(x)
print("x1=",x1)

结果为

x1= [[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]

不难发现,x1每列的值都在[0,1]之间,也就是说,该模块是按列计算的。
(2)z-score标准化
z-score标准化是主要是用于样本数据量较大的情况,z-score标准化方法试图将原始数据集标准化成均值为0,方差为1且接近于标准正态分布的数据集。其公式为:
在这里插入图片描述
上式中,x是原始数据,u是样本均值,σ是样本标准差。回顾下正态分布的基本性质,若x~N(u,σ^2),则有
在这里插入图片描述
z-score其实就是将原始数据标准化为标准正态分布,但是一旦原始数据的分布不接近于一般正态分布,则标准化的效果会不好。
其Python实现:

import numpy as np
from sklearn.preprocessing import StandardScaler
y = np.array([[1,2,3],[4,5,6],[1,2,1]])
y1 = StandardScaler().fit_transform(x)
print("y1=",y1)

结果为:

y1= [[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]

可以发现,y1的每一列加起来都是0,方差是1左右。注意该方法同样按列(即每个属性/特征)进行计算。

2.缺失值处理

缺失值是指在一个系统中,有些数据出现了部分属性的缺失,有可能是机器原因造成,有可能是人为原因造成的,
缺失值的丢失有可能对整个系统来说丢失了大量信息,使系统的不确定性变得更加显著,或者使整个系统的更加混乱。因此需要对数据中的缺失值进行处理。主要包括:
(1)简单删除:就是将含有缺失值的对象直接删除,这种方法有可能丢失掉重要的信息,对于样本少的数据,直接删除使得样本数量更少,对整个模型的训练或其他方面,会影响整个结果的判断。
(2)填补缺失值:即对缺失的属性进行不齐,补齐的方式有很多,比如人工直接填充,特殊值代替填充,就近补齐(对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。),聚类填充(最为典型的代表是K最近距离邻法,先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。)等等。

你可能感兴趣的:(机器学习入门算法,数据处理)