机器学习实验四:贝叶斯分类器

系列文章目录

  1. 机器学习实验一:线性回归
  2. 机器学习实验二:决策树模型
  3. 机器学习实验三:支持向量机模型
  4. 机器学习实验四:贝叶斯分类器
  5. 机器学习实验五:集成学习
  6. 机器学习实验六:聚类

文章目录

  • 系列文章目录
  • 一、实验目的
  • 二、实验原理
  • 三、实验内容
    • 1. 朴素贝叶斯
    • 2. 半朴素贝叶斯
    • 3. 高斯分布的朴素贝叶斯计算方法
    • 4. 实验数据介绍
    • 5. 评价指标介绍
  • 四、实验步骤
    • 1. 划分数据集
    • 2. 训练朴素贝叶斯分类方法
    • 3. 评价分类器
    • 4. 使用分类器进行预测
  • 总结


一、实验目的

(1)了解朴素贝叶斯与半朴素贝叶斯的区别与联系,掌握高斯分布的朴素贝叶
斯计算方法;
(2)编程实现朴素贝叶斯分类器;
(3)使用朴素贝叶斯分类器实现多分类预测,度量模型性能。

二、实验原理

使用 Python 读取数据集信息并生成对应的朴素贝叶斯分类器,随后使用生
成的分类器实现多分类预测,并根据精确率、召回率和 F1值度量模型性能。

三、实验内容

1. 朴素贝叶斯

朴素贝叶斯(Naive Bayes)是基于贝叶斯定理与特征独立假设的分类方法。
使用朴素贝叶斯方法时,首先基于训练数据,基于特征条件独立假设学习输入与
输出的联合概率分布;随后对于给定的 X,利用贝叶斯定理求解后验概率最大的
输出标签。

2. 半朴素贝叶斯

半朴素贝叶斯是适当考虑一部分属性之间的相互依赖信息,其中“独依赖估
计”(One-Dependent Estimator,简称 ODE)是半朴素分类中最常用的一种策略。
所谓“独依赖估计”,也就是假设每个属性在分类类别之外最多仅依赖于一个其
他属性。
与基于特征的条件独立性假设开展的朴素贝叶斯方法相比,其最大的区别就
是半朴素贝叶斯算法放宽了条件独立假设的限制,考虑部分属性之间的相互依赖
信息。但两者有共同特点:假设训练样本所有属性变量的值都已被观测到,即训
练样本是完整的。

3. 高斯分布的朴素贝叶斯计算方法

使用条件:所有特征向量都是连续型特征变量且符合高斯分布。
概率分布密度:在这里插入图片描述

4. 实验数据介绍

实验数据为来自 UCI 的鸢尾花三分类数据集 Iris Plants Database。
数据集共包含 150 组数据,分为 3 类,每类 50 组数据。每组数据包括 4 个
参数和 1 个分类标签,4 个参数分别为:萼片长度 sepal length、萼片宽度 sepal
width、花瓣长度 petal length、花瓣宽度 petal width,单位均为厘米。分类
标签共有三种,分别为 Iris Setosa、Iris Versicolour 和 Iris Virginica。
数据集格式如下图所示:机器学习实验四:贝叶斯分类器_第1张图片
为方便后续使用,该数据集需要进行特征向量与标签分割以及标签编号。

5. 评价指标介绍

评价指标选择精确率 P、召回率 R、F1度量值 F1,计算公式如下:机器学习实验四:贝叶斯分类器_第2张图片
具体代码实现时,可以直接调用 sklearn 库中的相应方法进行计算。

四、实验步骤

1. 划分数据集

按照实验要求,本次数据集划分采用随机划分 80%数据用于训练,其余 20%
数据用于测试。使用 sklearn 库的 train_test_split()方法划分数据,代码如
下:

X_train, X_test, y_train, y_test = train_test_split(X, y, 
test_size=0.2)

2. 训练朴素贝叶斯分类方法

由于实验数据中四个特征变量均为连续型特征变量,我们如果需要使用高斯
分布朴素贝叶斯的话,只需要验证他是否符合高斯分布即可。这里使用 Q-Q 图来
验证数据是否符合高斯分布,如果数据符合高斯分布,则该 Q-Q 图趋近于落在
y=x 线上,绘制的代码如下:

from scipy.stats import probplot
probplot(data,dist='norm',plot=plt)
plt.title('sepal length')
plt.show()
#然后,使用 sklearn 库的 GaussianNB()方法训练分类器
clf = GaussianNB()
clf.fit(X_train, y_train)

3. 评价分类器

使用精确率、召回率、F1度量值对分类器作为评价指标,使用 sklearn 库中
的 accuracy_score()、precision_score()、recall_score()、f1_score()方法
进行计算,具体代码如下:

y_pred = clf.predict(X_test)
print(precision_score(y_test, y_pred, average=None))
print(recall_score(y_test, y_pred, average=None))
print(f1_score(y_test, y_pred, average=None))

4. 使用分类器进行预测

我们选取测试集的最后一条数据进行预测,观察分类器计算得到的概率、分
类结果与真实标签的内容。具体代码如下:

y_proba = clf.predict_proba(X_test[:1])
y_pred_num = clf.predict(X_test[:1])[0]
print("预测值:"+str(y_pred_num)+ " "+label[y_pred_num])
print("预计的概率值:", y_proba)
print("实际值:"+str(y_test[:1][0])+ " "+label[y_test[:1][0]])

总结

以上就是今天要讲的内容,机器学习实验四:贝叶斯分类器

你可能感兴趣的:(吴恩达机器学习,机器学习,人工智能)