机器学习的几种编码

1. One-hot(独热)编码: 

独热编码e1,e2,e3限制条件,数据的向量长度,必须是ek。 

e1 + e2 + e3 + ... + ek = 1

优点:允许多个有效模型一样

缺点: 非唯一性有时无法解释问题。 

2. dummy(虚拟)编码: 产生独特和可解释 的模型,但是不能轻易处理缺少的数据。

 

3. Effect编码:使用不同的编码来避免虚拟编码的问题,但是大量是使用-1, 对于存储和计算都非常昂贵。 

 

 

独热,虚拟和效果编码非常相似。他们每个人都有优点和缺点。独热编码是多余的,它允许多个有效模型一样的问题。非唯一性有时候对解释有问题。该优点是每个特征都明显对应于一个类别。此外,失踪数据可以编码为全零矢量,输出应该是整体目标变量的平均值。

虚拟编码和效果编码不是多余的。他们产生独特和可解释的模型。虚拟编码的缺点是它不能轻易处理缺少数据,因为全零矢量已经映射到参考类别。它还编码每个类别相对于参考类别的影响,其中看起来很奇怪。效果编码通过使用不同的代码来避免此问题参考类别。但是,所有-1的矢量都是一个密集的矢量,对于存储和计算来说都很昂贵。因此,Pandas和Scikit Learn等流行的ML软件包选择了虚拟编码或独热编码,而不是效应编码。当类别数量变得非常多时,所有三种编码技术都会失效大。需要不同的策略来处理非常大的分类变量。

你可能感兴趣的:(机器学习的几种编码)