数据挖掘::实验一 WEKA分类

目录

一、实验目的  

二、实验环境 

三、实验要求

四、实验过程及结果

(1)KNN分类器:

(2)C4.5决策树分类器:

(3)朴素贝叶斯分类器:

五、实验总结

 

一、实验目的  

使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 

二、实验环境 

实验采用Weka 3.8 平台,数据使用给定的鸢尾花xls格式的数据集iris.xls。 对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。

实验所需的训练集和测试集均为iris.arff。

三、实验要求

1、将iris.xls转化为iris.arff。

2、应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。

3、使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。

四、实验过程及结果

1、先将数据集iris.arff放入Weka 3.8 平台中

第一步:将原始Excel文件另存为CSV文件

数据挖掘::实验一 WEKA分类_第1张图片

 

第二步:在weka中打开iris数据集.csv文件,另save为.arrf文件,然后在weka中打开iris数据集.arrf文件即可。

 

数据挖掘::实验一 WEKA分类_第2张图片

数据挖掘::实验一 WEKA分类_第3张图片

2、在waka中应用iris数据集,分别采用KNN、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价。

打开iris数据集remove(移除)无关数据,本次试验中去掉原数据中的序号:

 

数据挖掘::实验一 WEKA分类_第4张图片

数据挖掘::实验一 WEKA分类_第5张图片

(1)KNN分类器:

关于K的取值,从1开始,逐次增1选取产生最小误差率的K,一般来说不超过20。先将数据作为训练集检测,在进行交叉验证。

数据挖掘::实验一 WEKA分类_第6张图片 

数据挖掘::实验一 WEKA分类_第7张图片 

 

 

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。

(2)C4.5决策树分类器:

C4.5算法是ID3算法的改进,C4.5算法与ID3算法一样使用了信息熵的概念,并和ID3一样通过学习数据来建立决策树。

 

数据挖掘::实验一 WEKA分类_第8张图片

数据挖掘::实验一 WEKA分类_第9张图片 

数据挖掘::实验一 WEKA分类_第10张图片 

 

 

由实验数据可得,鸢尾花花瓣宽度小于等于0.6cm的均为setosa类的鸢尾花;花瓣宽度大于0.6cm且花瓣长度小于等于1.7cm的有48株为versicolor种类的鸢尾花;花瓣宽度大于0.6cm且花瓣长度大于1.7cm的有46株为virginica种类的鸢尾花。

(3)朴素贝叶斯分类器:

贝叶斯方法提供了推理的一种概率手段。它假定待考查的变量遵循某种概率分布,且可根据这些概率及己观察到的数据进行推理,从而作出最优的决策。

本次实验利用朴素贝叶斯算法分类结果如图所示:

数据挖掘::实验一 WEKA分类_第11张图片

 

五、实验总结

应用iris数据集分别利用实验中的算法分析预测,最终结果选用C4.5算法准确率最高,准确分类率为98%。通过实验,也让我更深刻的学习到这三种算法的应用数据集和其优缺点,基本掌握weka平台操作。

关于KNN算法是最简单有效的分类算法,简单且容易实现。当训练数据集很大时,需要大量的存储空间,而且需要计算待测样本和训练数据集中所有样本的距离,所以非常耗时。KNN对于随机分布的数据集分类效果较差,对于类内间距小,类间间距大的数据集分类效果好,而且对于边界不规则的数据效果好于线性分类器。KNN对于样本不均衡的数据效果不好,需要进行改进。改进的方法时对k个近邻数据赋予权重,比如距离测试样本越近,权重越大。KNN很耗时,时间复杂度为O(n),一般适用于样本数较少的数据集,当数据量大时,可以将数据以树的形式呈现,能提高速度,常用的有kd-tree和ball-tree。

关于C4.5算法

优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

关于朴素贝叶斯算法,贝叶斯方法不仅能够计算显式的假设概率,还能为理解多数其他方法提供一种有效的手段贝叶斯方法的特点主要包括:增量式学习的特点;先验知识可以与观察到的实例一起决定假设的最终概率的特点;允许假设做出不确定性预测的特点;对新实例的分类可由多个假设以它们的概率为权重一起作出预测的特点等等。算法处理里的数据集特征之间互不相关,主要应用于文本分类、性别分类。

你可能感兴趣的:(数据挖掘::实验一 WEKA分类)