鸢尾花python贝叶斯分类_机器学习-利用三种分类器实现鸢尾花分类

利用决策树,KNN和朴素贝叶斯三种分类器,对鸢尾花数据集进行分类。下面是具体的流程和代码:

1、 数据读取:

实验数据是直接加载的sklearn内置的鸢尾花数据集,共150条数据,包含4个特征,而且是一个三分类问题。

from sklearn import datasets #导入方法类

iris = datasets.load_iris() #加载iris数据集

iris_feature = iris.data #加载特征数据

iris_target = iris.target #加载标签数据

2、 划分数据集:

鸢尾花数据集的特征是已经处理好的,所以这里可以跳过数据预处理的步骤,可以直接进行训练预测了。

但是在训练之前,要先把数据集划分成训练集和测试集,划分代码如下所示:

from sklearn.model_selection import train_test_split

##数据集划分

feature_train,feature_test,target_train,target_test = train_test_split(iris_feature,iris_target,test_size=0.33,random_state=42)

其中train_test_split()方法的参数包括:

(1) train_size :训练集比例

(2) test_size :测试集比例

(3) random_size :乱序程度

3、模型训练+预测:

首先是决策树分类器:

from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier() #所有参数均设置为默认状态

dt_model.fit(feature_train,target_train) #使用训练集训练模型

predict_results_dt = dt_model.predict(feature_test) #使用模型对测试集进行预测

#查看预测结果

from sklearn.metrics import accuracy_score

print("predict_results:",predict_results_dt)

print("target_test:",target_test)

print(accuracy_score(predict_results_dt,target_test))

其中,DecisionTreeClassifier()模型的参数包括:

(1) criterion :损失函数,包括基尼指数'gini'和熵'entropy'两种

(2) splitter :确定每个节点的分裂策略,最佳'best'or随机'random'

(3) max_depth :决策树的最大深度,防止出现过拟合

(4) min_samples_leaf :叶节点最小样本数量,用于剪枝处理

然后是KNN分类器:

from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=1)

knn_model.fit(feature_train,target_train) #使用训练集训练模型

predict_results_knn = knn_model.predict(feature_test) #使用模型对测试集进行预测

#查看预测结果

print("predict_results:",predict_results_knn)

print("target_test:",target_test)

print(accuracy_score(predict_results_knn,target_test))

其中,KNeighborClassifier的具体参数包括:

(1) n_neighbors :KNN中的k值,默认值是5

(2) weights :近邻权,标识每个样本的K个近邻样本的权重,可选’uniform’/‘distance’或自定义权重。

(3) metric :距离度量方法

最后,朴素贝叶斯分类器:

from sklearn.naive_bayes import GaussianNB

nb_model = GaussianNB() #高斯朴素贝叶斯,参数设置默认状态

nb_model.fit(feature_train,target_train) #使用训练集训练模型

predict_results_nb = nb_model.predict(feature_test) #使用模型对测试集进行预测

#查看预测结果

print("predict_results:",predict_results_nb)

print("target_test:",target_test)

print(accuracy_score(predict_results_nb,target_test))

4、 总结:

很多书中都有拿这个鸢尾花数据分类举例子,算是机器学习中的一个入门的简单小项目。以此来作为我笔记的开始,也希望看到的小伙伴们能够有所收获。

人生,只要照亮某个角落就足够了。

你可能感兴趣的:(鸢尾花python贝叶斯分类)