Orange3的Distributions、Rank和Sieve Diagram

Orange3做数据分析真的是超级简单，简单的图标拖拉，然后看结果就好了。这里简单介绍下使用，基本能满足写报告。
先看一张图：

image.png

1.数据源
数据源有很多，包括：File、CSV File、SQL Table等等，看左侧DATA菜单：

image.png

直接拖入使用就好了，其中还有行选择和列选择，方便数据的筛选。
这里说下File的使用：
1）点击file图标

image.png

里面有file 或 url选择，其中file可以选择本地文件（excel等）或样例数据，我们这里选用泰坦尼克的titanic.tab样例数据，这样数据就有了。
如果你想看看你导入的数据，可以加一个Data Table插件：

image.png

共四列：survived（幸存）、status（仓位：机组、头等舱、二等舱、三等舱）、age（成年人、小孩）、sex
如果你的文件数据比较多，有些冗余或不需要的列，你可以通过Select Columns 来筛选列，预防后面因为数据过大效率低下：

image.png

Distributions 数据分布
Distributions可以提供二维数据的占比分析，比如我们要看泰坦尼克号上status、sex存活率情况
1）survived与sex的分析

image.png

结论：女性一共有470人，占比21.35%，女性的活下来的概率为73.19%，有可能说明船上的人绅士的让女士优先离开。
2）survived与status的分析

image.png

结论：头等舱人数325人，占比14.77%，活下来的概率为62.46%，二等舱、三等舱就越来越差了；充分说明了，有钱是件好事！

3.Rank 相关性分析
Rank 提供了不同字段与目标字段的相关性分析：

image.png

可以看到有基尼系数、信息增益、信息增益率等，从图上分析可以看出性别和仓位相关性最高，其中Best ranked 可以用来选择显示几列；
关于这些系数啥意思，可以参考度娘。

4.Sieve Diagram 筛网图
Sieve Diagram 在度娘上还没有中文文档，当然官方介绍也不难，这里简单整理下。

image.png

Sieve Diagram也是针对两个特征去分析相关性的，这里我们看sex与survived的相关性，主要两个维度分析：
1）面积越大说明两个特征并集的占比越高；如例子中的男性死亡的最多。对特征并集分析展示比较直观；
2）每个并集中颜色越深、方格越小表示此并集事件实际值与理论预测值差异越大，也可以理解相关性越大。如例子中female的survived就很突出，看图中黄色说明：总人数是2201，女性的数量为470个，占比21%，总幸存用户711个，占比32%，那从整体理论上女性存活的用户应该是151.83个，占比7%，但实际女性存活的用户是344个，占比16%；实际与预测值差异较大，说明女性更容易的活了下来。
再看一个相关性不大的图：

image.png

成年人占比比较大，但实际与预测相差不大。

Score Sombinantions 功能可以直接看所有组合的相关性，两两组合。筛选特征或直接开始 start：

image.png

Sieve Rank显示了所有特征的相关性，也比较直观。

Orange3的Distributions、Rank和Sieve Diagram

你可能感兴趣的:(Orange3的Distributions、Rank和Sieve Diagram)