本项目是利用AdaBoost算法来进行肿瘤预测,先进行数据探索,然后划分训练集和测试集,然后进行模型的训练预测和评估,再绘制准确度折线图。
(1)导入包。
代码如下:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from sklearn import metrics
(2)加载 sklearn 自带的数据集,使用 DataFrame 形式探索数据。
代码如下:
breast=load_breast_cancer()
data=pd.DataFrame(breast.data)
target=pd.DataFrame(breast.target)
feature_names=pd.DataFrame(breast.feature_names)
print("data:",data)
print("target:",target)
(3)划分训练集和测试集,检查训练集和测试集的平均癌症发生率。
代码如下:
train_X,test_X,train_y,test_y=train_test_split(data,target,test_size=0.2)
(4)配置模型,训练模型,模型预测,模型评估。
代码如下:
AdaBoost2=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(max_depth=3))
AdaBoost2.fit(train_X,train_y)
pred2=AdaBoost2.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred2))
print("模型的评估报告:",metrics.classification_report(test_y,pred2))
AdaBoost3=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=50,learning_rate=3)
AdaBoost3.fit(train_X,train_y)
pred3=AdaBoost3.predict(test_X)
print("模型的准确率:",metrics.accuracy_score(test_y,pred3))
print("模型的评估报告:",metrics.classification_report(test_y,pred3))
print("弱学习者的均方误差:",round(metrics.mean_squared_error(test_y,pred2),2))
print("决策树的均方误差:",round(metrics.mean_squared_error(test_y,pred3),2))
(5)绘制准确度的折线图,x 轴为决策树的数量,y 轴为准确度。
代码如下:
score_all=[]
for i in range(1,50):
AdaBoost4=AdaBoostClassifier(base_estimator=DecisionTreeClassifier(),n_estimators=i,learning_rate=3)
AdaBoost4.fit(train_X,train_y)
pred4=AdaBoost4.predict(test_X)
score_all.append(metrics.accuracy_score(test_y,pred4))
plt.figure(figsize=(10,6))
plt.plot(range(1,50),score_all)
plt.xlabel(u'TreeSum')
plt.ylabel(u'sorce')
plt.title(u'The soulution of TreeSum and sorce')
plt.show()
(1)问题:如何构建一个包含50棵树的AdaBoost集成分类器(步长为3)?
这里用for i in range(1, 50, 3)来遍历决策树数量的每种取值,分别进行构建、训练、预测并进行评估,将准确度存入数组再进行绘制。
1.加载 sklearn 自带的数据集,使用 DataFrame 形式探索数据。
2.配置模型,训练模型,模型预测,模型评估。
3.绘制准确度的折线图,x 轴为决策树的数量,y 轴为准确度。
1.通过此实验了解了集成学习是一种算法框架,是将多种基础算法集合在一起共同决策。
2. Adaboost 算法的流程是先训练一个基分类器然后增加误分类的样本的权重,降低正确分类的样本的权重。然后使用最新的带权重样本训练第二个模型,继续更新权重,不断循环。最终结果对所有模型的结果进行加权相加来得到。
3.学会了如何绘制折线图,其中plot中参数的含义分别是横轴值,纵轴值,线的形状,颜色,透明度,线的宽度和标签。