独热编码 OneHotEncoder()

#coding=utf-8
__author__ = 'acer'
from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])#[[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]
#enc.fit([[0,0,3],[1,1,0]])#[[ 1.  0.  0.  1.  0.  1.]]
enc.fit([[0,0,0],[1,1,1],[0,2,2],[0,0,3],[1,2,2]])# 这个是样本矩阵,第一个特征有2个取值,
第二个有3,第三个有4,所有至少是4个样本
array = enc.transform([[0,1,3]]).toarray() #[[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]

print array

你可能感兴趣的:(机器学习,python,特征预处理)