机器学习——学习记录(1)贝叶斯分类器

第一步:导入各类库

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB
import matplotlib
%matplotlib inline  #一个魔法函数,能让代码嵌入notebook中。

1.NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

2.Matplotlib 是 Python 2D-绘图领域使用最广泛的套件。它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。其中Pyplot是 Matplotlib 的子库,提供了和 MATLAB 类似的绘图 API,是常用的绘图模块,能很方便让用户绘制 2D 图表。示例如下:

机器学习——学习记录(1)贝叶斯分类器_第1张图片

3.scikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包,包含许多机器学习的算法,比如引入高斯朴素贝叶斯分类器GaussianNB。






第二步:建立 生成所有测试样本点 的函数

def make_meshgrid(x, y, h=.02):
    x_min, x_max = x.min() - 1, x.max() + 1
    y_min, y_max = y.min() - 1, y.max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    return xx, yy

1.meshgrid函数,用于生成网格矩阵。如:

  x=[1,2,3] , y=[4,5]  ; 
  xx, yy = np.meshgrid(x,y) ; 
       xx =  1 2 3
             1 2 3
             
       yy =   4 4 4
              5 5 5

  x=[1,2] , y=[3,4,5]  ; 
  xx, yy = np.meshgrid(x,y) ; 
       xx =  1 2
             1 2
             1 2 
          
       yy =  3 3
             4 4
             5 5
   #x成行,行数等于y的长度。
   #y成列,列数等于x的长度。

2.arange函数,用于创建等差数组。






第三步: 载入iris数据集

iris = datasets.load_iris()
X = iris.data[:, :2] #只读取前面两个属性
y = iris.target #读取标签值

1.iris数据集,又称鸢尾花卉数据集。该数据集包含了4个属性:

& Sepal.Length(花萼长度),单位是cm;
& Sepal.Width(花萼宽度),单位是cm;
& Petal.Length(花瓣长度),单位是cm;
& Petal.Width(花瓣宽度),单位是cm;
种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。







第四步:创建并训练朴素贝叶斯分类器

clf = GaussianNB()
clf.fit(X,y)

title = ('GaussianBayesClassifier')

fig, ax = plt.subplots(figsize = (5, 5))
plt.subplots_adjust(wspace=0.4, hspace=0.4)

X0, X1 = X[:, 0], X[:, 1] #取样本的第一个属性,第二个属性

1.fit函数,clf.fit(X,y) ; 用X和y这两个数据来训练分类器clf。

2. plt.subplots()函数,用于绘图。fig, ax = plt.subplots(figsize = (5, 5));其中figsize(5,5)用于设置图的长度宽度;返回值fig表示这个绘图窗口,ax标志坐标系,在后续绘图的时候会继续在ax上进行操作。

3.plt.subplots_adjust(wspace=0.4, hspace=0.4),用于设置子图之间的间隔。wspace, hspace:子图之间的横向间距、纵向间距分别与子图平均宽度、平均高度的比值。最后的成图是各子图的叠加。








第五步:建立 对测试样本进行预测,并显示 的函数

def plot_test_results(ax, clf, xx, yy, **params):
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    ax.contourf(xx, yy, Z, **params)

1.params参数:params参数收集传入是不定个数的参数,并将收集的到参数以元组的方式存储在params中。

2.xx.ravel(),将xx转变为一维数组。

3.np.c_[xx.ravel(), yy.ravel()],将两个数组叠加起来。

4.clf.predict(),用训练得到分类器对样本进行预测。

5. Z.reshape(),用于改变数组的形状。

6.ax.contourf(xx, yy, Z, **params),用于绘制填充轮廓,xx,yy,Z为坐标的横纵坐标及高度,**params是传入的图形参数。








第六步:调用函数生成所有测试样本点并且显示测试样本的分类结果

xx, yy = make_meshgrid(X0, X1)

plot_test_results(ax, clf, xx, yy, cmap=plt.cm.coolwarm, alpha=0.8)

1. cmap=plt.cm.coolwarm,设置绘图的背景颜色。

2. alpha=0.8,设置颜色透明度。








第七步:显示训练样本

ax.scatter(X0, X1, c=y, cmap=plt.cm.coolwarm, s=20, edgecolors='k')
ax.set_xlim(xx.min(), xx.max())
ax.set_ylim(yy.min(), yy.max())
ax.set_xlabel('x1')
ax.set_ylabel('x2')
ax.set_xticks(())
ax.set_yticks(())
ax.set_title(title)
plt.show()

1.ax.scatter()绘图,参数c表示图中样本点的颜色序列(用不同的颜色表示不同的样本结果),参数s表示图中样本点的显示大小,参数edgecolors表示边缘颜色。

2.ax.set_xticks(()),设置图形的坐标刻度。

机器学习——学习记录(1)贝叶斯分类器_第2张图片

你可能感兴趣的:(学习,学习,python)