你真的理解One-Hot编码吗?原理解释

你真的理解One-Hot编码吗?原理解释_第1张图片

在机器学习中为什么要进行 One-Hot 编码?

入门机器学习应用,尤其是需要对实际数据进行处理时,是很困难的。

一般来说,机器学习教程会推荐你或要求你,在开始拟合模型之前,先以特定的方式准备好数据。

其中,一个简单的例子就是对类别数据(Categorical data)进行 One-Hot 编码(又称独热编码)。

  • 为什么 One-Hot 编码是必要的?
  • 为什么你不能直接使用数据来拟合模型?

在本文中,你将得到上述重要问题的答案,并能更好地理解机器学习应用中的数据准备工作。

什么是类别数据?

类别数据是一种只有标签值而没有数值的变量。

它的值通常属于一个大小固定且有限的集合。

类别变量也常被称为 标称值(nominal)

下面举例说明:

  • 宠物(pet)变量包含以下几种值:狗(dog)、猫(cat)。
  • 颜色(color)变量包含以下几种值:红(red)、绿(green)、蓝(blue)。

你可能感兴趣的:(NLP之美,自然语言处理,机器学习,深度学习,神经网络,数据挖掘)