标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)

标称变量(Categorical Features)或者分类变量(Categorical Features)编码为数值变量(Continuous Features)或者数值变量(Numeric

Features)

one-hot到底是什么鬼?

 

sklearn.preprocessing.LabelBinarizer()

sklearn.preprocessing.MultiLabelBinarizer()

pd.get_dummies()

 

 

 

 

如果你的标称变量(Categorical Features)没有天然的顺序特性那就使用LabelBinarizer进行编码:

 

LabelBinarizer编码出来的结果就是one-hot编码:

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

one-hot编码要求每个类别之间相互独立,如果之间存在某种连续型的关系&#

你可能感兴趣的:(数据科学,机器学习面试,机器学习,人工智能,深度学习,python,数据挖掘)