数据的属性和独热编码OneHot

属性

数据有标称属性、二元属性、序数属性和数值属性。也可分为离散属性和连续属性。
标称属性(nominal):颜色(红橙黄绿青蓝紫)、婚姻状况(已婚、未婚、离异)
二元属性(binary):男女、阴阳
序数属性(ordinal):成绩(A+,A-,A,B+,B-),客户满意程度(非常满意,满意,一般,不满意,非常不满意)
数值属性(numeric):数值还分为区间属性和比率属性
区间:没有倍数。比如摄氏温度,可以有15度,30度,但是不能说30度是15度的2倍。
比率:长度面积、高度重量。

独热编码

比如颜色:红黄蓝,没办法作为可计算的数值特征,可以用独热编码使其转化为数值特征。
举例子:有一个矩阵:

[[1,2,1],
[1,2,0],
[2,0,2],
[0,2,2]]

这里的0,1,2是不同的类别。那么从纵向看,第一列有1,1,2,0三种,即有三位。那么0是1,0,0;1是0,1,0;2是0,0,1.
第二列有2,2,0,2,则一共两位.那么0是1,0;2是0,1。
第三列同理,1,0,2,2三种,共有三位。0是1,0,0;1是0,1,0;2是0,0,1.
那么最终结果就是

[[ 0. 1. 0. 0. 1. 0. 1. 0.]
[ 0. 1. 0. 0. 1. 1. 0. 0.]
[ 0. 0. 1. 1. 0. 0. 0. 1.]
[ 1. 0. 0. 0. 1. 0. 0. 1.]]

前三位代表第一列,中间两位代表第二列,后三位代表第三列。

数据的属性和独热编码OneHot_第1张图片

你可能感兴趣的:(数据挖掘)