Orange3的Continuize和Linear Projection

Continuize插件是一个数据标准化的插件,可以将分类数据(categorical data)转为二元属性或序数属性数据,将数值数据归一化。分类数据例如高铁仓位中的头等舱、一等舱、二等舱等,转化后可以用0或1代替,或者用1、2、3代替,便于后期的展示分析;将特征变量打横。
Linear Projection 插件可以理解为数据特征的线性投影(虽然字面意思像线性预测),通过一个多维空间展示数据特征,可视化数据分类。


image.png

以心脏病数据为例(heart_disease.tab)介绍下Continuize插件:
1.File获取数据;我们以chest pain 分类数据为例讲解,它有 asymptomatic、atypical ang 、non-anginal、typical ang四个值。
2.Edit Domain 插件是编辑特征值顺序用的,默认是字母顺序,但可以通过这个工具调整;与后面序数化时的123对应。


image.png

选定值,右侧可以调整顺序;
3.Continuize插件,根据需要进行数据转化,后面跟个Data table看数据变化。
1)One attribute per value选项,
这个是我们比较常用的转化方式,每个特征变量都有一个值(0&1 或者 -1&1),0表示不等于 ,1表示等于;


image.png

原先chest pain一列,现在变为了每个值一列,共四列;

2)First value as base 选项
直译过来就是将分类数据按顺序的第一个值作为基础;效果就是在数据转化时,除了特征变量按顺序第一个值之外,其他的值都进行转化。


image.png

从edit domain插件看chest pain变量的第一个值是asymptomatic,除了它之外的所有值都变成了一列。
3)Most frequent value as base 选项
跟first value类似,不过这个是将最常出现的值剔除了。


image.png

可以从Distribution插件上看数据的出现占比,可以看下例子中的gender变量。
4)Ignore multinomial attributes选项
忽略多项式,只转化有两个选项的变量。


image.png

例子中chest pain就没有了。
5)Remove categrorical attributes 选项
这个比较狠,把分类变量都删了,何用有之。
image.png

6)Treat as ordinal 选项
将分类名称变为顺序值,哪个值对应哪个序号,默认按字母,也可以用Edit domain插件更改顺序。


image.png

变换后就出现了chest pain值为0、1、2、3.
7)Divide by number of values 选项
跟上一个类似,不过这个是把序号转化为了0-1之间的数字了。数据标准化,数据归一化到0-1之间。


image.png

如chest pain就变成了0、0.333、0.666、1。

Number Features 对数值数据处理
1) leave them as they are 不处理不管他们
2)Normalize by span 将数值归一化到0-1之间


image.png

可以看到age的变化。
3)Normalize by standard deviation 使用标准差归一化。


image.png

Categorical Outcomes 对目标的结果的处理
处理方式跟以上类似,不多解释了。

对应Linear Projections以鸢尾属植物数据为例(iris.tab)简单介绍下:(这个比较直观)

image.png

通过线性投影分类后,鼠标选中的黄色这部分数为Iris-setosa属,后面再加一个Data table插件,就可以看选中这部数据了。
对于要预测的数据,可以根据以上的到的规律,再Linear Projections中选出,然后输出到一个Data table中,完成分类。
在数据连线上选三个:


image.png
image.png

这里就有个select变量标示哪些是你在linear projection中选出来的。

你可能感兴趣的:(Orange3的Continuize和Linear Projection)