《数据挖掘基础》实验:Weka环境基本操作

实验目的与要求

  1. Explorer界面的各项功能
    要求:屏幕截图,采用真实的自己的操作,可打开不同的数据文件来区别。
  2. 文件导入与编辑:
    要求1:针对不同类型的数据,说明文件导入的方式(文本文件、excel文件、中文文本、UCI数据集等)。
    要求2:针对ARFF文件,编辑修改数据内容,观察结果的变化。(以data中数据为例即可)
  3. 数据预处理:
    要求:对一个数据集中的某个关键属性,做离散化处理,对比离散化前后的图形变化,并加以说明。

实验过程

1. Explorer界面的各项功能

打开Wake3.8,界面如图1.1所示。

《数据挖掘基础》实验:Weka环境基本操作_第1张图片

图1.1 主界面

Applications分为五部分:1探索环境(Explorer)、2算法实验环境(Experimenter)、3知识流环境(KnowledgeFlow)、4工作台(Workbench)、5命令行环境(Simple CLI)。
进入探索环境,打开Weka安装目录下data数据中glass.arff文件,如图1.2所示:

《数据挖掘基础》实验:Weka环境基本操作_第2张图片

图1.2 Explorer界面

Explorer界面分为8个区域:
区域1的几个选项卡是用来切换不同的挖掘任务面板:

  • Preprocess(数据预处理):选择和修改要处理的数据。
  • Classify(分类):训练和测试分类或回归模型。
  • Cluster(聚类):从数据中聚类。
  • Associate(关联分析):从数据中学习关联规则。
  • Select Attributes(选择属性):选择数据中最相关的属性。
  • Visualize(可视化) :查看数据的二维散布图。

区域2是一些常用按钮,包括打开不同类型文件,退出,保存等。

  • Open file…打开一些已下载好的文件,例如arff,csv类型文件
  • Open URL…请求一个存有数据的URL地址
  • Open DB…从数据库中读取数据
  • Generate…从一些数据生成器(DataGenerators)中生成人造数据
  • Undo:返回到上一步操作
  • Edit:对打开的数据集进行编辑
  • Save:保存当前数据集,例如将当前csv类型文件保存为arff文件

区域3中选择(Choose)某个筛选器(Filter),以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。
区域4展示了数据集的关系名、属性数和实例等基本情况。
区域5显示在区域6中选中的当前某个属性的摘要。

  • 摘要包括属性名(Name)、属性类型(Type)、缺失值(Missing)及比例、不同值(Distinct)、唯一值(Unique)及比例
  • 数值属性显示最小值(Minimum)、最大值(Maximum)、均值(Mean)和标准差(StdDev)

区域6中列出了数据集的所有属性。
区域7是区域6中选中属性的直方图。

  • 若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是类标变量,直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。
  • 要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。
  • 下拉框里选上“No Class”或者一个数据属性会变成黑白的直方图。

区域8是窗口的底部区域,包括状态栏、Log按钮和weka鸟。

  • 状态栏显示一些信息让你知道你正在做什么。例如,如果Explorer正忙于装载一个文件,状态栏就会有通知。

  • 在状态栏中的任意位置右击鼠标将会出现一个小菜单,如图1.3。这个菜单给了你两个选项:

    图1.3 状态栏小菜单

    图1.3 状态栏小菜单
  1. Memory Information—显示WEKA可用的内存量;
  2. Run garbage collector—强制运行Java拦击回收器,搜索不再需要的内存空间并将之释放,从而可为新任务分配更多的内存。
  • Log按钮可以查看以weka操作日志。
  • 右边的weka鸟在动的话说明WEKA正在执行挖掘任务。

2. 文件导入与编辑

2.1 Weka导入不同类型数据集

  • arff数据:Open file打开文件所在位置直接导入即可;

  • csv数据:Open file打开文件导入,如图2.1.1所示,打开之后点击save另存为arff类型文件,如图2.1.2;

    《数据挖掘基础》实验:Weka环境基本操作_第3张图片

    图2.1.1 打开csv数据

    《数据挖掘基础》实验:Weka环境基本操作_第4张图片

    图2.1.2 另存为arff数据
  • Excel数据:打开excel工作表,选中要处理的工作表,另存为csv文件,再按照csv文件的导入方式导入即可;

  • Txt数据:用excel打开一篇空白工作表,切换到“数据”选项卡,然后单击“导入数据”命令,选中要处理的txt文件,进行相关设置即完成txt到excel的转换;

  • UCI数据:打开UCI数据网页: http://archive.ics.uci.edu/ml/datasets.html,如图2.1.3所示。
    《数据挖掘基础》实验:Weka环境基本操作_第5张图片

    图2.1.3 UCI数据网页

    选中要下载的数据集,例如下载Adult数据,如图2.1.4所示。下载好的压缩包有多种格式的文件,按上述方法对不同格式文件进行导入即可。

    《数据挖掘基础》实验:Weka环境基本操作_第6张图片

    图2.1.4 数据下载界面

2.2 编辑修改数据内容并观察

仍然打开glass.arff数据,可以看到Si含量的直方图(图2.2.1),选中区域二中的Edit按钮,对数据集进行修改,将Si属性的第一个值改为了50.0,对其进行保存,结果如图2.2.2所示,可以看出,在图中50位置出现了一个数据。

《数据挖掘基础》实验:Weka环境基本操作_第7张图片

图2.2.1 Si含量直方图

《数据挖掘基础》实验:Weka环境基本操作_第8张图片

图2.2.2 数据修改后直方图

3. 数据预处理

导入Weka自带的数据集iris.arff文件,可看到“spallength”属性的直方图如图3.1所示。

《数据挖掘基础》实验:Weka环境基本操作_第9张图片

图3.1 “spallength”属性直方图

对数据进行离散化处理,可借助Weka中名为“Discretize”的Filter来完成。

  1. 在区域2中点“Choose”,出现一棵“Filter树”,逐级找到“weka->filters->unsupervised->attribute->Discretize”点击,如图3.2所示。

    《数据挖掘基础》实验:Weka环境基本操作_第10张图片

    图3.2 Discretize
  2. 现在“Choose”旁边的文本框应该显示“Discretize -B 10 -M -0.1 -R first-last”。

  3. 点击这个文本框会弹出新窗口以修改离散化的参数,调整好参数,如图3.3所示,采用等频离散化,离散化成10段数据。点击“apply”,可看到属性的直方图如图3.4所示。

    《数据挖掘基础》实验:Weka环境基本操作_第11张图片

    图3.3 参数设置

    《数据挖掘基础》实验:Weka环境基本操作_第12张图片

    图3.4 离散结果

可以看到离散化后的数据被等频率的分成了10段。相对于处理前的数据杂乱的堆放在一起,离散后的数据可清楚的展示出不同区间段的花萼长度所占的频数。
离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,根据数据特点而定。
离散化可以有效地克服数据中隐藏的缺陷,使模型结果更加稳定。例如,数据中的极端值是影响模型效果的一个重要因素。极端值导致模型参数过高或过低,或导致模型被虚假现象“迷惑”,把原来不存在的关系作为重要模式来学习。而离散化,尤其是等距离散,可以有效地减弱极端值和异常值的影响。

结果分析

基本了解了weka各个界面不同区域及按钮的功能;熟练使用Explorer模块的功能,完成数据的导入及基本修改;应用Discretize功能成功实现给定数据集iris的spallength属性的离散化,实验成功完成。

你可能感兴趣的:(数据挖掘原理,数据挖掘,聚类,人工智能,Weka)