使用pandas和sklearn对分类特征进行OneHot编码的几种方法

进行OneHot编码常用的几种方法:

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第1张图片


首先介绍一下将分类属性数字化的方法。

构造带有分类特征的数据集。

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第2张图片

方法一:使用sklearn中的LabelEncoder将分类特征数字化

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第3张图片

方法二:使用pandas的factorize()函数将分类特征数字化

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第4张图片


下面介绍一下将分类特征进行OneHot编码的几种方法。

方法一:先LabelEncoder,再OneHotEncoder

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第5张图片

方法二:先pd.factorize(),再OneHotEncoder

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第6张图片

方法三:直接对文本值进行LabelBinarizer

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第7张图片

方法四:直接对文本属性进行pd.get_dummies()

使用pandas和sklearn对分类特征进行OneHot编码的几种方法_第8张图片

参考文档

你可能感兴趣的:(机器学习,python编程)