One-hot encoding的不足及改进

本文总结翻译自:https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

 

独热编码的不足:

1. 产生许多的特征;

2. 产生的特征没有带来的更多的信息;

3. 产生的特征反而带来了具有共线性的特征。

 

改进方法:

1. 目标编码(target encoding):

One-hot encoding的不足及改进_第1张图片

使用target值的均值作为category变量的替换值。

代码:

from category_encoders import TargetEncoder
enc = TargetEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

但是这种方法也有缺点:

  • 依赖于y值
  • 对于category的值,全都来自训练集,因此更容易出现overfitting过拟合问题

2. 留一编码(Leave-One-Out encoding):

One-hot encoding的不足及改进_第2张图片

改进了target encoding,使用除了改行target值外的其他同类target来计算。

代码:

from category_encoders import LeaveOneOutEncoder
enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

3. 贝叶斯目标编码(Bayesian target encoding):

贝叶斯目标编码在目标编码的算平均值(期望值)的基础上,增加了方差和倾斜(variance/skewness)作为考量,生成贝叶斯模型,再具体给出编码值。

 

4. WoE(Weight of Evidence):

编码公式为:ln (% of non events / % of events)

代码:

from category_encoders import WOEEncoder
enc = WOEEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

 

以上均为监督学习的角度的独热编码,除此之外还有非监督学习的,即没有target或者label的情况下:

5. 非线性PCA(Nonlinear PCA):

大致解释就是:

使常规PCA的性能(解释方差)最大化,来得到该类别的最佳编码值。

非线性PCA的具体解释:

https://towardsdatascience.com/beyond-ordinary-pca-nonlinear-principal-component-analysis-54a93915a702

你可能感兴趣的:(机器学习)