数据集下载:https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)
注:下载 sonar.all-data并重命名为sonar.all-data.csv 增加后缀改变文件格式,放到project
用excel打开数据集,有208行60列特征(值域为0到1),标签为R/M。表示208个观察对象,60个不同角度返回的力度值,二分类结果是岩石/金属。
参考程序:https://blog.csdn.net/QcloudCommunity/article/details/79363040
注:from csv import reader 连接中少了个r
参考程序2:http://www.yw1515.com/news/2018-04-06/118700.html
决策树方差高——引入bagging降低方差——bagging下的树相似,预测相似——引入列采样(本例中采用特征数的平方根)
bagging低方差——使用的决策树需低偏差,要深
load_csv:读取csv文件,按行保存到数组dataset中。
str_column_to_float:将某列字符去掉前后空格,并转换为浮点数格式
str_column_to_int:根据分类种类建立字典,标号0,1,2...将字符列转化为整数
cross_validation_split:使用randrange函数将数据集划分为n个无重复元素的子集
accuracy_metric:计算准确率
evaluate_algorithm:使用交叉验证,建立n个训练集和测试集,返回各模型误差数组
test_split:根据特征及特征阈值分割左右子树集合
gini_index:在某个点分成了几个子节点放在groups中,这些样本的类有多种,类集合为classes,计算该点基尼指数:
gini=∑按group(1-∑按同一group中的类p^1)*N1/N。
get_split:限定列采样特征个数n_features,基尼指数代表的是不纯度,gini指数越小越好,对列采样特征中的每个特征的每个 值计算分割下的最小gini值,作为分割依据
to_terminal:输出Group中出现次数最多的标签,实质上就是多数表决法
split:根据树的最大深度、叶子节点最少样本数、列采样特征个数,迭代创作子分类器直到分类结束
build_tree:建立一棵树
predict:用一棵树预测类
subsample:按照一定比例bangging采样
bagging_predict:用多棵树模型的预测结果做多数表决
random_forest:随机森林算法,返回测试集各个样本做多数表决后的预测值
下载csv类型的数据集,将特征转换为浮点型,标签转换为整型,交叉验证集数为5,最深10层,叶子节点最少一个样本,sample_size=1即不做数据集采样,以(特征数-1)开根号作为列采样数的限制。分别建立1,5,10棵树,评估算法。
即:对每种树规模(1,5,10)运行5次,取均值作为最后模型效果。
运行结果:
Trees: 1
Scores: [56.09756097560976, 63.41463414634146, 60.97560975609756, 58.536585365853654, 73.17073170731707]
Mean Accuracy: 62.439%
Trees: 5
Scores: [70.73170731707317, 58.536585365853654, 85.36585365853658, 75.60975609756098, 63.41463414634146]
Mean Accuracy: 70.732%
Trees: 10
Scores: [75.60975609756098, 80.48780487804879, 92.6829268292683, 73.17073170731707, 70.73170731707317]
Mean Accuracy: 78.537%
结果分析:
Scores内部差异不大,毕竟只是搞了下交叉验证。但可以看出随着trees数目的增加,准确率上升了