weka-Explorer-Preprocess 的使用

一、实验目的

了解 weka 中 Explorer 的 Preprocess 相关功能。

二、实验内容

进入 weka 中 Explorer 界面,打开 data 目录下 weather.numeric.arff 文件,了解 Preprocess 相关功能。

打开 weather.numeric.arff 文件

三、实验过程

1. 了解 arff 格式

用记事本打开 weather.numeric.arff 文件，

@relation weather

@attribute outlook {sunny,overcast,rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE,FALSE}
@attribute play {yes,no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no

显而易见,可以知道 arff 格式是这样组织数据的：

（唯一）一个 ** @relation ** + 关系名称。
若干 ** @attribute ** + 属性名称 + 属性类型（{}中写出枚举类型，以逗号隔开，表示离散型数据； numeric 表示连续型数据；还有 string 和 date 类型，顾名思义，就知道一个是字符串型，一个是日期型）。
（唯一）一个 ** @data **占一行，后接若干具体数据（依照上面定义的属性顺序写出采样数据，以逗号隔开）。
另外，网上资料显示，** % ** 为 arff 格式下的注释标记。

2. 了解区域功能

Preprocess 界面

（0）功能标签：用于数据预处理及针对数据进行的各种处理之间的切换。
（1）编辑按钮：包括打开各种形式的数据集，生成数据集，撤销，编辑数据集和保存。
（2）筛选器选择：对数据进行某种变换，比如离散化，二进制化。
（3）当前信息：显示当前数据集的基本信息，包括关系名，属性个数，实例个数等。
（4）属性信息：包括所有属性的显示和可以对它们进行的一些操作，比如移除一些无用属性，使数据集更简洁明了。
（5）选中属性：显示当前选中的属性的摘要信息，比如名称、类型、数值等。
（6）属性可视化：以直方图的形式显示当前选中属性，给人更直观的感受。
（00）状态信息：显示是否在进行数据挖掘，历史记录查看，内存使用信息等。

3. 举例操作

区域（0）和（00），在此实验中（学习 preprocess 的基本操作）基本是用不到的，这里也就不再多说了。
区域（1），前面已经使用过打开 arff 格式数据集功能；至于打开网络资源和数据库内容，现在还不太了解；生成功能，就是根据一定的规则（还不清楚这些规则的意义）生成一些随机数据；而撤销、编辑和保存，跟记事本也差不太多，亦不赘述。

生成数据时用的规则

生成的数据（左至右依次为用 edit 打开，另存为 cvs 格式并用 excel 打开， preprocess 界面打开）

区域（2）中的各个筛选器我还不了解，就做一下归一化（感觉这就是统计里的标准化），并拿 humidity 做一下无监督的离散化（这应该就是画直方图之类的东西时要做的工作吧）好了。

归一化时用的规则

归一化只对连续数据起作用，其结果也是连续的

humidity 原始数据

采用的离散化规则

离散化后的 humidity 数据

区域（3）显示当前数据集的信息，其实就是提取了 ** @relation ** 后面的字符串，统计了 ** @attribute ** 的个数和 ** @data ** 后的行数，没什么可说的。
区域（4）是属性信息栏，可以移除一些无用数据，比如数据的序号、聚类分析时的类别标签；这里试了一下去除 humidity 属性，不过它并非无用信息，所以之后还得用下 undo 。