OneHotEncoder,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码(每个特征值都是一个状态),每个状态都由他独立的寄存器位,并且在任意时候只有一位有效(为1)。
OneHotEncoder是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。
在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。而我们使用OneHotEncoder,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用OneHotEncoder,确实会让特征之间的距离计算更加合理。
比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用OneHotEncoder,其表示分别是 x 1 = ( 1 ) , x 2 = ( 2 ) , x 3 = ( 3 ) x_1 = (1), x_2 = (2), x_3 = (3) x1=(1),x2=(2),x3=(3)。两个工作之间的距离是, ( x 1 , x 2 ) = 1 , d ( x 2 , x 3 ) = 1 , d ( x 1 , x 3 ) = 2 (x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2 (x1,x2)=1,d(x2,x3)=1,d(x1,x3)=2。那么 x 1 x_1 x1和 x 3 x_3 x3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用OneHotEncoder,则得到 x 1 = ( 1 , 0 , 0 ) , x 2 = ( 0 , 1 , 0 ) , x 3 = ( 0 , 0 , 1 ) x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1) x1=(1,0,0),x2=(0,1,0),x3=(0,0,1),那么两个工作之间的距离就都是 2 \sqrt2 2.即每两个工作之间的距离是一样的,显得更合理。
将离散型特征进行OneHotEncoder的作用,是为了让距离计算更合理,但如果特征是离散的,并且不用one-hot编码就可以很合理的计算出距离,那么就没必要进行OneHotEncoder。
比如,该离散特征共有1000个取值,我们分成两组,分别是400和600,两个小组之间的距离有合适的定义,组内的距离也有合适的定义,那就没必要用one-hot 编码。
离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。
在 sklearn 包中,OneHotEncoder 函数非常实用,它可以实现将分类特征的每个元素转化为一个可以用来计算的值。本篇详细讲解该函数的用法,也可以参考官网 sklearn.preprocessing.OneHotEncoder。
该函数在 sklearn.preprocessing 类中,格式为:
OneHotEncoder(n_values=’auto’, categorical_features=’all’, dtype=<class ‘numpy.float64’>, sparse=True, handle_unknown=’error’)
下面解释一下函数中参数的意思
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(n_values = [2, 3, 4])
enc.fit([[0, 0, 3],
[1, 1, 0]])
ans = enc.transform([[0, 2, 3]]).toarray()
print(ans) # 输出 [[ 1. 0. 0. 0. 1. 0. 0. 0. 1.]]
注意到训练样本中第二个特征列没有类别 2,但是结果中依然将类别 2 给编码了出来,这就是自己指定维数的作用了(我们使用 3 位来表示第二个特征,自然包括了类别 2),第三列特征同样如此。这也告诫我们,如果训练样本中有丢失的分类特征值,我们就必须显示地设置参数 n_values 了,这样防止编码出错。
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(categorical_features = [0,2]) # 等价于 [True, False, True]
enc.fit([[0, 0, 3],
[1, 1, 0],
[0, 2, 1],
[1, 0, 2]])
ans = enc.transform([[0, 2, 3]]).toarray()
print(ans) # 输出 [[ 1. 0. 0. 0. 0. 1. 2.]]
输出结果中前两位 [1,0] 表示 0,中间四位 [0,0,0,1] 表示对第三个特征 3 编码,第二个特征 2 没有进行编码,就放在最后一位。
dtype=
表示编码数值格式,默认是浮点型。
sparse=True
表示编码的格式,默认为 True,即为稀疏的格式,指定 False 则就不用 toarray() 了
handle_unknown=’error’
其值可以指定为 “error” 或者 “ignore”,即如果碰到未知的类别,是返回一个错误还是忽略它。
transform(X) 方法和 fit_transform(X) 方法
对 X 进行编码。在实际应用中,我们更常用方法 fit_transform(),也就是一步到位,看下例:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(sparse = False)
ans = enc.fit_transform([[0, 0, 3],
[1, 1, 0],
[0, 2, 1],
[1, 0, 2]])
print(ans) # 输出 [[ 1. 0. 1. ..., 0. 0. 1.]
# [ 0. 1. 0. ..., 0. 0. 0.]
# [ 1. 0. 0. ..., 1. 0. 0.]
# [ 0. 1. 1. ..., 0. 1. 0.]]
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder()
enc.fit([[0, 0, 3],
[1, 1, 0],
[0, 2, 1],
[1, 0, 2]])
ans = enc.transform([[0, 1, 3]]).toarray() # 如果不加 toarray() 的话,输出的是稀疏的存储格式,即索引加值的形式,也可以通过参数指定 sparse = False 来达到同样的效果
print(ans) # 输出 [[ 1. 0. 0. 1. 0. 0. 0. 0. 1.]]
对于输入数组,这依旧是把每一行当作一个样本,每一列当作一个特征,值得注意的是,虽然训练样本中的数值仅仅代表类别,但是也必须使用数值格式的数据,如果使用字符串格式的数据会报错。
我们先来看第一个特征,即第一列 [0,1,0,1],也就是说它有两个取值 0 或者 1,那么 one-hot 就会使用两位来表示这个特征,[1,0] 表示 0, [0,1] 表示 1,在上例输出结果中的前两位 [1,0…] 也就是表示该特征为 0
第二个特征,第二列 [0,1,2,0],它有三种值,那么 one-hot 就会使用三位来表示这个特征,[1,0,0] 表示 0, [0,1,0] 表示 1,[0,0,1] 表示 2,在上例输出结果中的第三位到第五位 […0,1,0…] 也就是表示该特征为 1
第三个特征,第三列 [3,0,1,2],它有四种值,那么 one-hot 就会使用四位来表示这个特征,[1,0,0,0] 表示 0, [0,1,0,0] 表示 1,[0,0,1,0] 表示 2,[0,0,0,1] 表示 3,在上例输出结果中的最后四位 […0,0,0,1] 也就是表示该特征为 3
数据预处理之独热编码
scikit-learn 中 OneHotEncoder 解析