利用决策树,KNN和朴素贝叶斯三种分类器,对鸢尾花数据集进行分类。下面是具体的流程和代码:
1、 数据读取:
实验数据是直接加载的sklearn内置的鸢尾花数据集,共150条数据,包含4个特征,而且是一个三分类问题。
from sklearn import datasets #导入方法类
iris = datasets.load_iris() #加载iris数据集
iris_feature = iris.data #加载特征数据
iris_target = iris.target #加载标签数据
2、 划分数据集:
鸢尾花数据集的特征是已经处理好的,所以这里可以跳过数据预处理的步骤,可以直接进行训练预测了。
但是在训练之前,要先把数据集划分成训练集和测试集,划分代码如下所示:
from sklearn.model_selection import train_test_split
##数据集划分
feature_train,feature_test,target_train,target_test = train_test_split(iris_feature,iris_target,test_size=0.33,random_state=42)
其中train_test_split()方法的参数包括:
(1) train_size :训练集比例
(2) test_size :测试集比例
(3) random_size :乱序程度
3、模型训练+预测:
首先是决策树分类器:
from sklearn.tree import DecisionTreeClassifier
dt_model = DecisionTreeClassifier() #所有参数均设置为默认状态
dt_model.fit(feature_train,target_train) #使用训练集训练模型
predict_results_dt = dt_model.predict(feature_test) #使用模型对测试集进行预测
#查看预测结果
from sklearn.metrics import accuracy_score
print("predict_results:",predict_results_dt)
print("target_test:",target_test)
print(accuracy_score(predict_results_dt,target_test))
其中,DecisionTreeClassifier()模型的参数包括:
(1) criterion :损失函数,包括基尼指数'gini'和熵'entropy'两种
(2) splitter :确定每个节点的分裂策略,最佳'best'or随机'random'
(3) max_depth :决策树的最大深度,防止出现过拟合
(4) min_samples_leaf :叶节点最小样本数量,用于剪枝处理
然后是KNN分类器:
from sklearn.neighbors import KNeighborsClassifier
knn_model = KNeighborsClassifier(n_neighbors=1)
knn_model.fit(feature_train,target_train) #使用训练集训练模型
predict_results_knn = knn_model.predict(feature_test) #使用模型对测试集进行预测
#查看预测结果
print("predict_results:",predict_results_knn)
print("target_test:",target_test)
print(accuracy_score(predict_results_knn,target_test))
其中,KNeighborClassifier的具体参数包括:
(1) n_neighbors :KNN中的k值,默认值是5
(2) weights :近邻权,标识每个样本的K个近邻样本的权重,可选’uniform’/‘distance’或自定义权重。
(3) metric :距离度量方法
最后,朴素贝叶斯分类器:
from sklearn.naive_bayes import GaussianNB
nb_model = GaussianNB() #高斯朴素贝叶斯,参数设置默认状态
nb_model.fit(feature_train,target_train) #使用训练集训练模型
predict_results_nb = nb_model.predict(feature_test) #使用模型对测试集进行预测
#查看预测结果
print("predict_results:",predict_results_nb)
print("target_test:",target_test)
print(accuracy_score(predict_results_nb,target_test))
4、 总结:
很多书中都有拿这个鸢尾花数据分类举例子,算是机器学习中的一个入门的简单小项目。以此来作为我笔记的开始,也希望看到的小伙伴们能够有所收获。
人生,只要照亮某个角落就足够了。