利用sklearn处理文本和分类属性

大部分的机器学习算法都易于跟数字打交道,所以我们将这些文本标签转换为数字。

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
housing_cat = housing["ocean_proximity"]
# housing_cat是一个二维数组,一列存储行数,一列存储对应的ocean_proximity
housing_cat_encoded = encoder.fit_transform(housing_cat)
print(housing_cat_encoded)
# [0 0 4 ... 1 0 3]

现在:我们可以将这套数值用于任意机器学习算法。可以使用classes_属性来查看这个编码器已学习的映射

print(encoder.classes_)
# ['<1H OCEAN' 'INLAND' 'ISLAND' 'NEAR BAY' 'NEAR OCEAN']

这种代表方式产生的一个问题是,机器学习算法会以为两个相近的数字比两个离得较远的数字更为相似一些。为了解决这个问题,我们需要引进独热编码
Scikit-Learn提供了一个OneHotEncoder编码器,可以将整数分类值转换为独热向量。
值得注意的是,fit_transform()需要一个二维数组,但是housing_cat_encoded是一个一维数组,所以我们需要将它重塑:

from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1, 1))
print(housing_cat_1hot)

这里的输出是一个Scipy稀疏矩阵,而不是一个Numpy数组。当你有成千上万种类别的分类属性时,这个函数会非常有用。因为当使用独热编码后,我们会得到一个几千列的矩阵,并且全是0,每行仅有一个1。占用大量的内存存储0是一件非常浪费的事情,因此稀疏矩阵仅存储非零元素的位置。而你依旧可以像使用一个普通的二维数组来使用它。
如果要转换维Numpy数组,只需要调用toarray()方法即可
housing_cat_1hot.toarray()
使用LabelBinarizer类可以一次性完成两个转换(从文本类别转换为整数类别,再从整数类别转换为独热向量)

from sklearn.preprocessing import LabelBinarizer
encoder = LabelBinarizer()
housing_cat_1hot = encoder.fit_transform(housing_cat)
print(housing_cat_1hot)

注意,这时默认返回的是一个密集的Numpy数组。通过发送spares_output=True给LabelBinarizer构造函数,可以得到稀疏矩阵。
encoder = LabelBinarizer(sparse_output=True)

你可能感兴趣的:(机器学习相关库,python,机器学习,numpy,sklearn,文本处理)