数据挖掘实验——认识数据与进行数据预处理

本实验的实验报告以及相关数据集处理数据所用代码都放在下面这个资源链接之中
认识数据与进行数据预处理的实验
免费下载 以供学习~

实验内容和目的:

根据老师给出的代码进行复现和运行,实现——对一个数据集进行分析,包括归一化操作、缺失值处理、特征筛选,从而达到认识数据并进行数据预处理的目的。

实验数据及结果分析:

1.归一化处理

在拿到一个数据集之后,我们通常会对数据集进行归一化处理
【1】首先我们引入需要的包
【2】之后我们在主函数中进行设置——
对数据的归一化操作:
读取数据:
对数据进行归一化操作的函数
【3】主函数 读取iris.data数据
得到进行归一化处理之后的数据集 iris_w.data
【4】利用weka获取的GUI结果:
【5】自己编程调用归一化函数的结果

2.缺失值处理

经过第一步的操作 我们已经对数据进行了初步的预处理,接下来创建一个新类实现对labor数据缺失值的处理。
在这一部分,应对不同的数据类型我们采用不同的策略~
对于数值型数据采用策略一,对于标签型数据采用策略二
接下来进行实现:
【1】依旧是先引入所需要的的库
【2】对数值型数据和标签型数据进行一个划分
【3】进行缺失数据的处理时所用的函数
分为
策略1——针对数值型数据:

策略2——针对标签型数据:

其中laborMissing.txt为内容有缺失的文件 内容如下:

进行缺失值处理之后 获得laborMissing_handle.txt文件

可以看到,缺失的数据都进行了补全。

3.特征筛选

【1】引入所需的包~
【2】熟悉的读取文件操作~
返回所有特征的值spf.values 及 数据类别 strs 的label
【3】对每个特征计算信息增益
其中,在离散化的过程中,此处将特征的区间分为10份,不同离散化得到的结果是有差别的。
【4】进行特征筛选~
这里对熵进行计算
【5】在主函数中 读入数据
并且打印出结果

实验结论、心得体会和改进建议:

实验结论:

在进行数据集的分析之前进行数据预处理是非常有必要且高效的,了解数据的第一步,从了解处理数据 了解数据预处理开始~
另外,高效利用python中的各种包可以对数据进行各种有效的操作,例如 缺失值补全、特征筛选等。

心得体会:

我们可以通过技术的手段来将复杂的数据变简单,这是多么有趣的一件事情~之后还要继续努力地学习数据科学的知识与各类处理数据的方法。

改进建议:

感觉可以在本次实验中加入更多可视化的元素,让数据可以被我们直观地看到;或者是有一个应用场景,比如银行一年的流水,这类的“实际操作”可以让我们更有代入感和成就感~

你可能感兴趣的:(课堂笔记-数据挖掘与大数据分析,大数据,实验报告,学校作业,电子科技大学,数据挖掘)