人工智能已经成为一种潮流。人工智能的基础就是海量的数据,机器学习是实现人工智能的一种方法。今天小编给大家带来在机器学习中,对海量数据的预处理。
今天对数据的预处理,主要是包含以下的内容:
一、机器学习使用的语言和框架:
python、scikit-learn 、numpy
二、 数据预处理大纲
1 无量纲化
1.1 标准化
1.2 区间缩放法
1.3 归一化
2 对定量特征二值化
3 对定性特征哑编码
4 缺失值计算
5 数据变换
三、 预处理代码操作和原理解释
1 无量纲化
无量钢化不同规格的特征数据转化到同一规格下。常见的无量钢化方法有 标准化、区间缩放法、归一化,具体的代码和原理,请耐心的往下看。
1.1 标准化
标准化的前提是特征值服从正太分布(即 x 服从 N(μ,σ^2)),标准化后,转化为标准的正太分布。标准化是按照特征矩阵的列处理数据,其通过求 z-score 的方法,将样本的特征值转换到同一量纲下。
标准化需要计算特征值的平均值和标准差,具体的公式如下所示:
具体的代码使用的是 propressing 库 中的 StandarScaler
from sklearn.preprocessingimport StandardScaler
import numpyas np
x = np.linspace(1,10,num=10).reshape(5,2)
x_standared = StandardScaler().fit_transform(x)
输出的结果为:
原数据为: [[ 1. 2.] [ 3. 4.] [ 5. 6.] [ 7. 8.] [ 9. 10.]]
标准化后的数据为: [[-1.41421356 -1.41421356] [-0.70710678 -0.70710678] [ 0. 0. ] [ 0.70710678 0.70710678] [ 1.41421356 1.41421356]]
1.2 区间缩放法
区间的缩放有很多的方法,这里我介绍一种很简单的,具体的公式:
具体的代码使用的是 propressing 库 中的 MinMaxScaler 类:
from sklearn.preprocessing import MinMaxScaler
import numpy as np
x = np.linspace(1,10,num=10).reshape(5,2)
x_min_max_scaler = MinMaxScaler().fit_transform(x)
输出的结果为:
原数据为: [[ 1. 2.] [ 3. 4.] [ 5. 6.] [ 7. 8.] [ 9. 10.]]
区间缩放后的数据为: [[0. 0. ] [0.25 0.25] [0.5 0.5 ] [0.75 0.75] [1. 1. ]]
1.3 归一化
归一化是依照特征矩阵的行处理数据,其主要的目的是当样本向量在做点乘运算或者其他核函数计算相似性时,能够有一个统一化的标准,也就是转化为一个 “单位向量”,规则为 L2 的归一化公式为:
具体的代码使用的是 propressing 库 中的 MinMaxScaler 类:
from sklearn.preprocessing import MinMaxScaler
import numpy as np
x = np.linspace(1,10,num=10).reshape(5,2)
x_normalizer= Normalizer().fit_transform(x)
输出的结果为:
原数据为: [[ 1. 2.] [ 3. 4.] [ 5. 6.] [ 7. 8.] [ 9. 10.]]
归一化后的数据为: [[0.4472136 0.89442719] [0.6 0.8 ] [0.6401844 0.76822128] [0.65850461 0.75257669] [0.66896473 0.74329415]]
2 对定量特征二值化
定量二值化的核心在于我们假设一个阈值,大于该阈值赋值为1,小于该阈值阈值为0
使用 preprocessing 库中的Binarizer 类:
from sklearn.preprocessing import Binarizer
import numpy as np
x = np.linspace(1,10,num=10).reshape(5,2)
x_binarizer = Binarizer(5).fit_transform(x)
输出的结果为:
原数据为: [[ 1. 2.] [ 3. 4.] [ 5. 6.] [ 7. 8.] [ 9. 10.]]
二值化后的数据为: [[0. 0.] [0. 0.] [0. 1.] [1. 1.] [1. 1.]]
3 对定性特征哑编码
在数据集中,有些特征不在模型中不满足运算规则,只能代表某种类别。我们成这类的数据为 dummy 数据。
用到的是 preprocessing 库中的 OneHotEncoder 类:
from sklearn.preprocessing import OneHotEncoder
x = [[0,0,3], [1,1,0], [0,2,1], [1,0,2]]
x_standared = OneHotEncoder().fit_transform(x)
输出结果为:
4 缺失值计算
使用preproccessing库的Imputer类对数据进行缺失值计算的代码如下:
from sklearn.preprocessingimport Imputer
from numpyimport vstack,array,nan,hstack,max
# 对一个数据在垂直方向上添加一个 nan 的数据
data = vstack((array([nan,nan,None]),array([[1,2,3],[4,5,6]])))
# 默认情况下是 mean 总共是有三种的选择['mean', 'median', 'most_frequent']
data = Imputer(strategy='mean').fit_transform(data)
结果:
[[2.5 3.5 4.5] [1. 2. 3. ] [4. 5. 6. ]]
5 数据变换
常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。4个特征,度为2的多项式转换公式如下:
使用preproccessing库的PolynomialFeatures类对数据进行多项式转换的代码如下:
from sklearn.preprocessing import PolynomialFeatures
# 多项式特征类 默认情况下对数据进行度为2 的转换
data = PolynomialFeatures(degree=2).fit_transform(np.linspace(1,10,num=10).reshape(-1,1))
data = pd.DataFrame(data,columns=['x0','x','x^2']) print(data)
结果为:
基于单变元函数的数据变换可以使用一个统一的方式完成,使用preproccessing库的FunctionTransformer对数据进行对数函数转换的代码如下:
from numpy import log1p,log,log2,log10
from sklearn.preprocessing import FunctionTransformer
x = np.linspace(1,10,num=10).reshape(-1,1)
# log() 是 e 为底数的对数
data_log = FunctionTransformer(log).fit_transform(x)
data_log2 = FunctionTransformer(log2).fit_transform(x)
data_log10 = FunctionTransformer(log10).fit_transform(x)
data = pd.DataFrame(np.hstack((x,data_log,data_log2,data_log10)),columns=['x','loge','log2','log10']) print(data)
结果为: