机器学习
数据集有两个,一个是西瓜数据集,另一个是人体特征数据集
基于信息熵准则进行划分选择的决策树算法的实现过程(不使用现有的机器学习包),并画出所生成决策树。数据集使用西瓜数据集3.0,实现语言为Python。
试编程实现基于基尼指数进行划分选择的决策树算法,并画出生成的决策树,并为表4.2中数据生成预剪枝、后剪枝决策树,并与未剪枝决策树进行比较。实现语言为Python
数据集:西瓜数据集3.0
这里是三张图 分别对应 未剪枝 预剪枝 后剪枝。
这里的图片每次生成的都不一样,颜色大小都能调整。
可穿戴式设备的流行,让我们可以更便利地使用传感器获取人体的各项数据,甚至生理数据。当传感器采集到大量数据后,我们就可以通过对数据进行分析和建模,通过各项特征的数值进行用户状态的判断,根据用户所处的状态提供给用户更加 精准、便利的服务。
数据介绍:我们现在收集了来自A,B,C,D,E 5位用户的可穿戴设备上的传感器数据,每位用户的数据集包含一个特征文件(a.feature)和一个标签文件(a.label)。
特征文件中每一行对应一个时刻的所有传感器数值,标签文件中每行记录了和特征文件中对应时刻的标记过的用户姿态,两个文件的行数相同,相同行之间互相对应。
假设现在出现了一个新用户,但我们只有传感器采集的数据,那么该如何得到 这个新用户的姿态呢?又或者对同一用户如果传感器采集了新的数据,怎么样根据新的数据判断当前 用户处于什么样的姿态呢?在明确这是一个分类问题的情况下,我们可以选定某种分类模型(或者说是 算法),通过使用训练数据进行模型学习,然后对每个测试样本给出对应的分类 结果。可选择经典的分类算法,如K近邻、决策树和朴素贝叶斯的原理和实现。
这个简单,三个方法选用就行。KNN和决策数时间较长,建议选择贝叶斯,2s出结果
编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否
12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否
略大,上传了
点这里去下载数据集
代做联系邮箱:[email protected]