LabelEncoder()与OneHotEncoder()关系及区别汇总

联系

  • LabelEncoder()和OneHotEncoder()都是Scikit-Learn的一个模块。都是用来处理数据集中的类别变量.【处理类别变量(categorical variable)python-sklearn实现 | 三种常用方法】,可用如下方法调用。
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

区别:

  • 在Scikit-Learn 0.20之前,如果要用独热编码(One Hot Encoder)处理类别变量,需要先用标签编码(Label Encoder),将类别变量转化为整数值。
    在Scikit-Learn 0.20及其以后,OneHotEncoder()模块可以直接处理字符串的类别变量,不再需要先用标签编码转化。
  • LabelEncoder()处理后返回的类型是NumPy的array形式,但是OneHotEncoder()处理后返回的是稀疏数组(稀疏矩阵形式),好处是可以节约内存,因为它是需要储存数值为1对应的位置,其余为0的则可以忽略。可用toarray()方法将稀疏数组转化为可处理的Numpy的数组。
data_encoded.toarray()

老版本直接使用独热编码方法:
如果想在老版本(Scikit-Learn < 0.20)中直接使用独热编码,可使用以下方法:

from future_encoders import OneHotEncoder

你可能感兴趣的:(数据挖掘)