西瓜书与Scikit-learn

1.Overview

在《机器学习》周志华中,只讲解了各个算法的原理,没有例程供大家学习。这个仓库主要是用scikit-learn机器学习库完成书上的例题。

  1. Chapter 7 贝叶斯分类器
    Github链接:https://github.com/HuimingPan/Watermelon-scikit
    CSDN链接:
    知乎链接:

2.Contents

更多章节持续更新中

2.1

待更新

2.2

待更新

2.3

待更新

2.4

待更新

2.5

待更新

2.6

待更新

2.7 Chapter 7 贝叶斯分类器

在这一章,需要基于西瓜数据集3.0训练一个贝叶斯分类器(原书 Page.151)。

2.7.1 data_processing

这是一个二分类问题让,我们令标记空间 y={-1,+1} ,其中
y = { − 1 这 是 一 个 坏 瓜 , + 1 这 是 一 个 好 瓜 。 y= \begin{cases} -1&这是一个坏瓜,\\ +1&这是一个好瓜。 \end{cases} y={1+1,
观察样本集,可知样本空间是8维的,其中 色泽,根蒂,敲声,纹理,脐部,触感 这6个属性是离散值,密度和含糖率这两个属性是连续值。可以将离散属性值进行以下标记:

色泽 根蒂 敲声 纹理 脐部 触感
1 青绿 蜷缩 浊响 清晰 凹陷 硬滑
2 乌黑 稍蜷 沉闷 稍糊 稍凹 软粘
3 浅白 硬挺 清脆 模糊 平坦 \

Notation:也可以不进行以上转换,直接输入各种描述性文字作为属性值。

2.7.2 Choose Model

Scikit提供多种朴素贝叶斯分类器模型,对于各种模型的适用情况,参照:
https://scikit-learn.org/stable/modules/naive_bayes.html

2.7.3 Result

为了更好地看清各种模型的区别,我们将每一种贝叶斯分类器的输出结果整合到一起,如下表:

样本编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 准确率
真实类别 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 100%
Gaussian 1 1 1 1 1 1 0 1 0 0 0 0 0 0 1 0 0 88.24%
Multinomial 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 82.35%
ComplementNB 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 82.35%
BernoulliNB 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 52.94%
CategoricalNB 1 1 1 1 1 1 0 1 0 0 0 0 1 0 1 0 0 88.24%

你可能感兴趣的:(Python,机器学习,人工智能)