weka-Explorer-Preprocess 的使用

一、 实验目的

了解 weka 中 Explorer 的 Preprocess 相关功能。

二、 实验内容

进入 weka 中 Explorer 界面,打开 data 目录下 weather.numeric.arff 文件,了解 Preprocess 相关功能。

weka-Explorer-Preprocess 的使用_第1张图片
打开 weather.numeric.arff 文件

三、 实验过程

1. 了解 arff 格式

用记事本打开 weather.numeric.arff 文件,

@relation weather

@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

显而易见,可以知道 arff 格式是这样组织数据的:

  • (唯一)一个 ** @relation ** + 关系名称。
  • 若干 ** @attribute ** + 属性名称 + 属性类型({}中写出枚举类型,以逗号隔开,表示离散型数据; numeric 表示连续型数据;还有 string 和 date 类型,顾名思义,就知道一个是字符串型,一个是日期型)。
  • (唯一)一个 ** @data **占一行,后接若干具体数据(依照上面定义的属性顺序写出采样数据,以逗号隔开)。
  • 另外,网上资料显示,** % ** 为 arff 格式下的注释标记。
2. 了解区域功能
weka-Explorer-Preprocess 的使用_第2张图片
Preprocess 界面

(0) 功能标签:用于数据预处理及针对数据进行的各种处理之间的切换。
(1) 编辑按钮:包括打开各种形式的数据集,生成数据集,撤销,编辑数据集和保存。
(2) 筛选器选择:对数据进行某种变换,比如离散化,二进制化。
(3) 当前信息:显示当前数据集的基本信息,包括关系名,属性个数,实例个数等。
(4) 属性信息:包括所有属性的显示和可以对它们进行的一些操作,比如移除一些无用属性,使数据集更简洁明了。
(5) 选中属性:显示当前选中的属性的摘要信息,比如名称、类型、数值等。
(6) 属性可视化:以直方图的形式显示当前选中属性,给人更直观的感受。
(00) 状态信息: 显示是否在进行数据挖掘,历史记录查看,内存使用信息等。

3. 举例操作
  • 区域(0)和(00),在此实验中(学习 preprocess 的基本操作)基本是用不到的,这里也就不再多说了。

  • 区域(1),前面已经使用过打开 arff 格式数据集功能;至于打开网络资源和数据库内容,现在还不太了解;生成功能,就是根据一定的规则(还不清楚这些规则的意义)生成一些随机数据;而撤销、编辑和保存,跟记事本也差不太多,亦不赘述。

weka-Explorer-Preprocess 的使用_第3张图片
生成数据时用的规则
weka-Explorer-Preprocess 的使用_第4张图片
生成的数据(左至右依次为用 edit 打开,另存为 cvs 格式并用 excel 打开, preprocess 界面打开)
  • 区域(2)中的各个筛选器我还不了解,就做一下归一化(感觉这就是统计里的标准化),并拿 humidity 做一下无监督的离散化(这应该就是画直方图之类的东西时要做的工作吧)好了。
weka-Explorer-Preprocess 的使用_第5张图片
归一化时用的规则
weka-Explorer-Preprocess 的使用_第6张图片
归一化只对连续数据起作用,其结果也是连续的
weka-Explorer-Preprocess 的使用_第7张图片
humidity 原始数据
weka-Explorer-Preprocess 的使用_第8张图片
采用的离散化规则
weka-Explorer-Preprocess 的使用_第9张图片
离散化后的 humidity 数据
  • 区域(3)显示当前数据集的信息,其实就是提取了 ** @relation ** 后面的字符串,统计了 ** @attribute ** 的个数和 ** @data ** 后的行数,没什么可说的。

  • 区域(4)是属性信息栏,可以移除一些无用数据,比如数据的序号、聚类分析时的类别标签;这里试了一下去除 humidity 属性,不过它并非无用信息,所以之后还得用下 undo 。

weka-Explorer-Preprocess 的使用_第10张图片
去除了 humidity 属性
  • 区域(5)用一些统计数据(对于离散和连续数据并不相同)概括地显示了当前选中属性的信息,刚才进行数据离散化时也有涉及。
weka-Explorer-Preprocess 的使用_第11张图片
离散数据,以各类别出现个数方式显示
weka-Explorer-Preprocess 的使用_第12张图片
连续数据,采用两极数值、平均数和标准差显示
  • 区域(6)是可视化区域,以直方图的形式进一步描述数据(和区域(5)相辅相成),给人较为直观的感受(或许利于启发式方法的使用?);在其上的颜色,是以某一属性为目标变量添加的。
weka-Explorer-Preprocess 的使用_第13张图片
以 play 为目标变量时各属性的可视化情况

以上,即为 weka 中 Explorer 的 Preprocess 界面的主要功能。

你可能感兴趣的:(weka-Explorer-Preprocess 的使用)