weka的基本使用---explorer界面的介绍

Explorer界面的介绍

运行weka GUI:

weka的基本使用---explorer界面的介绍_第1张图片

点击 Explorer 按钮,打开explorer界面:

weka的基本使用---explorer界面的介绍_第2张图片

区域1的几个选项卡是用来切换不同的挖掘任务面板。这一节用到的只有“Preprocess”,其他面板的功能将在以后介绍。 
区域2是一些常用按钮。包括打开数据,保存及编辑功能。

在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。 
区域4展示了数据集的一些基本情况。 
区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。
在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。 
区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。
区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。

以weather.arff进行一次操作过程演示

打开Explorer界面,图如下:

weka的基本使用---explorer界面的介绍_第3张图片

最上边的一行是标签行(tags),在preprocess标签下,点击Open file按钮,会出现打开文件窗口:

weka的基本使用---explorer界面的介绍_第4张图片

在weka的安装文件一级目录下,是有一个data文件夹的,下面有他自己附带的几个ARFF数据文件,供你参考查看:

weka的基本使用---explorer界面的介绍_第5张图片

那么导入最经典的决策树所需要的数据weather.arff文件,weka将开始装入数据,识别相应的属性,并在数据扫描期间计算每个属性的一些基本统计量,如下图:

weka的基本使用---explorer界面的介绍_第6张图片

点击左边Attribute标签下的任意属性将会在右侧的Select attribute标签下显示该属性的基本统计量。

对于分类属性,将显示每个属性值的频度,点击outlook(分类属性),Select attribute标签显示如下:

weka的基本使用---explorer界面的介绍_第7张图片

而对于连续属性,我们可以看到最小值、最大值、均值(Mean)和标准差(StdDev)等等,点击temperature(连续属性),Select attribute标签显示如下:

weka的基本使用---explorer界面的介绍_第8张图片

正如之间介绍explorer界面的那样,现在我们选定outlook属性,观察右下角的图像区域,由于分段依据是Class:play(Nom),也就是分类或回归任务的默认目标变量,outlook对应的直方图如下图:

weka的基本使用---explorer界面的介绍_第9张图片

横坐标对应的是分类属性outlook的值:sunny overcast rainy,纵坐标代表的是频度,而分段依据就是是否出去玩(play),蓝色代表出去玩,红色代表不出去玩。

再换个连续属性temperature的直方图分析:

weka的基本使用---explorer界面的介绍_第10张图片

横坐标对应的是连续属性temperature的值,这样我们取某段横坐标,如64-67,那么分割开来也就是和分类属性outlook所对应的直方图了。

点击Visualize All。如下:

weka的基本使用---explorer界面的介绍_第11张图片

综上:叙述了explorer界面下的每一个区域的具体功能,个别词语用的不是很恰当,很多时候有一些词语能用英语描述就用英语描述,换成中文翻译的就不是那么的贴切恰当了,就像唐诗宋词拿给英文翻译,也多半驴唇不对马嘴。

你可能感兴趣的:(数据挖掘weka工具使用)