憶

【推荐收藏】【机器学习实战】分类（以MNIST为例）（挑战全网最全，没有之一，另附完整代码与加速库的使用）

参照《机器学习实战》第二版

1、MNIST

本章使用MNIST数据集，这是一组由70000张手写的数字图片，每张图片都用其代表的数字标记。因此也被成为机器学习领域的“Hello World”：但凡有人想到了一个新的分类算法，都会想看看在MNIST上的执行结果。

1.1、下载 MNIST 素材

Scikit-Learn提供了许多助手功能来帮你下载流行的数据集，MNIST 也是其一：

from sklearn.datasets import fetch_openml

# 从 Scikit-Learn 0.24 开始，fetch_openml() 默认返回 Pandas DataFrame。 
# 为了避免这种情况并保持与书中相同的代码，我们使用 as_frame=False。
# 下载失败可以多尝试几次，初次时间会稍微稍微久一点，我等了 12min7s，再次使用会优先检查缓存文件。
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
mnist.keys()

dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url'])

1.2、了解素材数据基础

type(mnist)

sklearn.utils.Bunch

这里采用的数据格式是sklearn.utils.Bunch，是一个类似字典的结构。下面展示一部分：

{
    # 每一个实例为一行，每一个特征为一列，行70000 × 列784
    'data': array([[0., 0., 0., ..., 0., 0., 0.],
                   [0., 0., 0., ..., 0., 0., 0.],
                   [0., 0., 0., ..., 0., 0., 0.],
                   ...,
                   [0., 0., 0., ..., 0., 0., 0.],
                   [0., 0., 0., ..., 0., 0., 0.],
                   [0., 0., 0., ..., 0., 0., 0.]]),
    # 每个实例的标记数组，70000个
    'target': array(['5', '0', '4', ..., '4', '5', '6'], dtype=object),
    # 框架
    'frame': None,
    # 类别
    'categories': {},
    # 功能名称：28×28=784个，与data的列对应
    'feature_names': ['pixel1', 'pixel2', 'pixel3', ...'pixel783', 'pixel784'],
    # 标记名称
    'target_names': ['class'],
    # 数据集描述：作者、来源、引用
    'DESCR': "**Author**: ...  \n**Source**: ...  \n**Please cite**: ...",
    # 详细信息
    'details': {
        'id': '554',
        'name': 'mnist_784',
        'version': '1',
        'description_version': '1',
        'format': 'ARFF',
        'creator': ['Yann LeCun', 'Corinna Cortes', 'Christopher J.C. Burges'],
        'upload_date': '2014-09-29T03:28:38',
        'language': 'English',
        'licence': 'Public',
        'url': 'https://www.openml.org/data/v1/download/52667/mnist_784.arff',
        'file_id': '52667',
        'default_target_attribute': 'class',
        'tag': ['AzurePilot', 'OpenML-CC18', 'OpenML100', 'study_1', 'study_123', 'study_41', 'study_99', 'vision'],
        'visibility': 'public',
        'status': 'active',
        'processing_date': '2020-11-20 20:12:09',
        'md5_checksum': '0298d579eb1b86163de7723944c7e495'
    },
    # 地址
    'url': 'https://www.openml.org/d/554'
}

X, y = mnist['data'], mnist['target']

>>> X.shape
(70000, 784)
>>> y.shape
(70000)

一共有7万张图片，每张图片有784个特征。因为图片是28×28像素。每个特征代表了一个像素点的强度，从0（白色）到255（黑色）。随便取一个实例的特征向量，将其重新组成一个28×28的数组，然后使用Matplotlib的imshow()函数将其显示出来：

import matplotlib as mpl # 专业绘制图形、图像的库
import matplotlib.pyplot as plt

some_digit = X[0]
some_digit_image = some_digit.reshape(28, 28)

plt.imshow(some_digit_image, cmap="binary")  # cmap="binary" 颜色按二进制绘制
plt.axis("off")  # 关闭坐标轴
plt.show()

some_digit_image：在IDEA中查看，就是这个样子。

上图看起来像 5，而我们用标签验证一下：

import numpy as np

def plot_digits(instances, images_per_row=10, **options):
    size = 28
    images_per_row = min(len(instances), images_per_row)
    images = [instance.reshape(size,size) for instance in instances]
    n_rows = (len(instances) - 1) // images_per_row + 1
    row_images = []
    n_empty = n_rows * images_per_row - len(instances)
    images.append(np.zeros((size, size * n_empty)))
    for row in range(n_rows):
        rimages = images[row * images_per_row : (row + 1) * images_per_row]
        row_images.append(np.concatenate(rimages, axis=1))
    image = np.concatenate(row_images, axis=0)
    plt.imshow(image, cmap = mpl.cm.binary, **options)
    plt.axis("off")

plt.figure(figsize=(9,9))
example_images = X[:100]
plot_digits(example_images, images_per_row=10)
plt.show()

y[0], type(y[0])

('5', str)

这里我们可以注意到标签是字符，大部分机器学习算法希望是数字，那么就把 y 转成整数：

import numpy as np

y = y.astype(np.uint8)

1.3、创建测试集

实际上，MNIST 已经分成训练集（前 6 万张图片），和测试集（最后 1 万张图片）：如果你仔细看过mnist['DESCR']，里面有说明。

X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

同样，我们先将训练集数据混洗，这样能保证交叉验证时所有的折叠都差不多。此外，有些机器学习算法对训练实例顺序敏感（如果连续输入许多相似的实例，可能导致执行性能不佳）。给数据集混洗正是为了确保这种情况不会发生（当前也有例外，例如具有时间序列的数据，股市或者天气，混洗就不是一个好主意）。

2、训练二元分类器

现在先简化问题，只尝试识别一个数字，比如数字 5，那么这个“数字 5 检测器”就是一个二元分类器的示例，它只能区分两个类别：5和非5。先为此分类任务创建目标向量：

# 这里将得到两个由 True 和 False 组成的 列表
y_train_5 = (y_train == 5)
y_test_5 = (y_test == 5)

y_train[:20]

array([5, 0, 4, 1, 9, 2, 1, 3, 1, 4, 3, 5, 3, 6, 1, 7, 2, 8, 6, 9], dtype=uint8)

y_train_5[:20]

array([ True, False, False, False, False, False, False, False, False,
       False, False,  True, False, False, False, False, False, False,
       False, False])

接着挑选一个分类器并开始训练，一个好的初始选择是随机梯度下降(SGD)分类器，使用Scikit-Learn的SGDClassifier类即可。这个分类器的优势是能够有效处理非常大型的数据集。这部分是因为 SGD 独立处理训练实例，一次一个（也就使得 SGD 非常适合在线学习）。此时先创建一个SGDClassifier并在整个训练集上进行训练：

from sklearn.linear_model import SGDClassifier

# 因为 SGDClassifier 是完全随机的，所以如果希望结果可复现，需要设置 random_state
# sgd_clf = SGDClassifier(random_state=42)
sgd_clf = SGDClassifier(max_iter=1000, tol=1e-3, random_state=42)  # 前两个是新版默认参数
sgd_clf.fit(X_train, y_train_5)

SGDClassifier(random_state=42)

现在来检测一下数字 5 的图片：

sgd_clf.predict([some_digit])

array([ True])

3、性能测量

评估分类器比评估回归器要困难得多，因此本章将用很多篇幅来讨论这个主题，同时会涉及许多性能考核的方法。

3.1、使用交叉验证测量准确率

3.1.1、实现交叉验证（手写交叉验证）

相比于Scikit-Learn提供的cross_val_score()这一类交叉验证的函数，有时你可以希望自己能控制的多一些。在这种情况下，你可以自行实现交叉验证。下面代码与cross_val_score()大致相同，并打印结果：

from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

def self_cross_val_score(estimator, X, y, n_splits):
    # StratifiedKFold：K-交叉验证分层器，返回分层折叠
    skfolds = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=42)
    # 返回两个折叠：训练集索引，测试集索引
    for train_index, test_index in skfolds.split(X, y):
        clone_clf = clone(estimator)    # 克隆分类器
        X_train_folds = X[train_index]  # 训练集
        y_train_folds = y[train_index]  # 训练标签集
        X_test_folds = X[test_index]    # 测试集
        y_test_folds = y[test_index]    # 测试标签集
        
        clone_clf.fit(X_train_folds, y_train_folds)  # 训练分配器
        y_pred = clone_clf.predict(X_test_folds)     # 进行预测
        n_correct = sum(y_pred == y_test_folds)      # 统计正确预测次数
        print(n_correct / len(y_pred))               # 输出准确率

self_cross_val_score(sgd_clf, X_train, y_train_5, 3)

0.9669
0.91625
0.96785

3.1.2、Scikit-Learn 的 cross_val_score()

现在用cross_val_score()函数来评估SGDClassifier模型，采用 K-折交叉验证法（老版本默认3个折叠，新版本默认5个折叠）：

from sklearn.model_selection import cross_val_score

cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")

array([0.95035, 0.96035, 0.9604 ])

所有折交叉验证的准确率超过95%，先不要激动，我们来简单的分类器，它将所有图片都分类成“非5”：

from sklearn.base import BaseEstimator

class Never5Classifier(BaseEstimator):
    def fit(self, X, y=None):
        return self

    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool)  # 生成 len(X) 行，1 列，的 False(0)


never_5_clf = Never5Classifier()
cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring="accuracy")

array([0.91125, 0.90855, 0.90915])

当我们把所有图片都分类为“非5”，准确率依然在90%以上，这是因为只有大约10%的图片是数字 5，所以如果你猜一张图片不是 5，90%的概率都是对的。

这说明准确率通常无法作为分类器的首要性能指标，特别是当你处理有偏数据集时（即某些类比其他类更为频繁）。

3.2、混淆矩阵

评估分类器，性能的更好方法是混淆矩阵，其总体思路就是统计A类别实例被分成为B类别的次数。例如，要想知道分类器将数字3和数字5混淆的次数。只需要通过混淆矩阵的第5行第3列查看。

要计算混淆矩阵，需要先有一组预测才能将其与实际目标进行比较。当然，可以通过测试集来进行预测，但是现在先不要动它（测试集最好留到项目最后，准备启动分类器时再使用）。作为替代，可以使用cross_val_predict()函数：

from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
y_train_pred.shape

(60000,)

y_train_pred[:27]

array([ True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False])

与cross_val_score()函数一样，cross_val_predict()函数相同执行K-折交叉验证，但是返回的不是评估分数，而是每个折叠的预测。这意味着对于每个实例都可以得到一个干净的预测（“干净”的意思是模型预测时使用的数据在其训练期间从未见过）。

现在可以使用confusion_matrix()函数来获取混淆矩阵了。只需要给出目标类别（y_train_5）和预测类别（y_train_pred）即可：

from sklearn.metrics import confusion_matrix

confusion_matrix(y_train_5, y_train_pred)

array([[53892,   687],
       [ 1891,  3530]])

混淆矩阵中的行表示实际类别，列表示预测类别。

混洗矩阵	非5(实际)	5(实际)
非5(负类)	53892(真负类)	687(假正类)
5(正类)	1891(假负类)	3530(真正类)

一个完美的分类器只有真负类和真正类，所以它的混淆矩阵只会在其对角线上有非零值。

confusion_matrix(y_train_5, y_train_5)

array([[54579,     0],
       [    0,  5421]])

混淆矩阵能提供大量信息，但有时你可能希望指标更简洁一些。正类预测的准确率是一个有意思的指标，它也被称为分类器的精度。

公式： $\frac{TP}{TP + FP}$

TP：真正类的数量，FP：假正类的数量。

做一个单独的正类预测，并保证它是正确的，就可以得到完美精度（1/1 = 100%）。但这没有意义，因为分类器会忽略这个正类实例之外的所有内容。因此，精度通常与另一个指标一起使用，这个指标就是召回率，也称为灵敏度或者真正类率：它是分类器正确检查到的正类实例的比例。

公式： $\frac{TP}{TP + FN}$

TN：真负类的数量，FN：假负类的数量。

	非(真)	是(真)
非(预)	TN(真负类)	FP(假正类)
是(预)	FN(假负类)	TP(真正类)

3.3、精度和召回率

Scikit-Learn提供了计算多种分类器指标的函数，包括精度和召回率：

from sklearn.metrics import precision_score, recall_score
precision_score(y_train_5, y_train_pred) # 精度：3530 / (3530 + 687)

0.8370879772350012

recall_score(y_train_5, y_train_pred) # 召回率：3530 / (3530 + 1891)

0.6511713705958311

现在在看，这个5-分类器看起来并不像它的准确率那么光线亮眼。

当一张图片被判断成5时，只有83.7%的准确率；
并且也只有65.1%的数字5被检查出来。

因此我们可以很方便地将精度和召回率组合成一个单一的指标，成为 $F_1$ 分数。当你需要一个简单的方法来比较两种分类器时，这是个非常不错的指标。 $F_1$ 分数是精度和召回率的谐波平均值。正常的平均值平等对待所有值，而谐波平均值会给予低值更高的权重。因此，只有当召回率和精度都很高时，分类器才能得到较高的 $F_1$ 分数。

公式： $F_1 = \frac{2}{\frac{1}{精度} + \frac{1}{召回率}} = 2 × \frac{精度 × 召回率}{精度＋召回率} = \frac{TP}{TP + \frac{FN + FP}{2}}$

要计算 $F_1$ 分数，只需要调用f1_score()即可：

from sklearn.metrics import f1_score

f1_score(y_train_5, y_train_pred)

0.7325171197343846

$F_1$ 分数对这些具有相近的精度和召回率的分类器更为有利。这不一定能一直符合你的期望：在某些情况下，你更关心的是精度，而另一些情况下，你可能真正关心的是召回率。

假如你训练一个分类来检测儿童可以放心观看的视频，那么你可以更青睐这种拦截了很多视频（低召回率），但是保留下来的视频都是安全（高精度）的分类器，而不是召回率虽高，但是在产品中可能会出现一些非常糟糕的视频的分类器。反过来讲，如果你训练一个分类器通过图像监控来检查小偷：你大概可以接收精度只有30%，但召回率达到99%。

遗憾的是，鱼与熊掌不可兼得，你不能同时增加精度有减少召回率，反之亦然。这称作精度/召回率权衡。

3.4、精度/召回率权衡

要理解这个权衡过程，我们来看看SGDClassifier如何进行分类决策的。

对于每个实例，它会基于决策函数计算出一个分值；
如果该值大于阈值，则将该实例判为正类，否则便将其判为负类；

Scikit-Learn不允许直接设置阈值，但是可以访问它用于预测的决策分数。不是调用分类器的predict()方法，而是调用decision_funcion()方法。这种方法返回每个实例的分数，然后就可以根据这些分数，使用任意阈值进行预测了：

y_scores = sgd_clf.decision_function([some_digit])
y_scores

array([2164.22030239])

threshold = 0  # 如果阈值设置为 0
y_some_digit_pred = (y_scores > threshold)  # 结果为 True
y_some_digit_pred

array([ True])

threshold = 3000  # 如果阈值设置为 0
y_some_digit_pred = (y_scores > threshold)  # 结果为 False
y_some_digit_pred

array([False])

上面证明了提高阈值的确可以降低召回率。这张图的确是 5，当阈值为0时，分类器可以检测到这个值（True），但是当阈值提高到 8000 时，就错过了这张图。

那么要如何决定使用什么阈值呢？首先，使用cross_val_predick()函数获取训练集中所有实例的分数，但是这次需要返回的是决策分数而不是预测结果：

y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")
y_scores[:52]

array([  1200.93051237, -26883.79202424, -33072.03475406, -15919.5480689 ,
       -20003.53970191, -16652.87731528, -14276.86944263, -23328.13728948,
        -5172.79611432, -13873.5025381 , -22112.989794  ,  -2315.51879869,
       -29304.06327411, -18276.25416535,  -6790.91252517, -16924.86869525,
       -24589.95425105, -18278.36420614,  -6027.9952283 , -22381.6171182 ,
       -49309.77476771, -17839.33188677, -18790.52598692, -17252.40958724,
       -15735.74829459, -26564.59912951,  -7330.87070698, -29867.39668611,
       -55517.28436239, -23393.91582122, -23748.85652153, -38673.64006081,
        -9727.17183759, -31510.32108813, -26321.37189264,   2128.09444578,
       -17549.24805908, -30196.1371314 , -27894.21110125, -12411.15070702,
       -16150.91103934, -20214.54378109,  -7708.78445896, -13618.81181688,
       -11098.63132251, -18164.82278546, -16222.80882902,   7218.00578357,
        -2050.26809833, -19307.4594483 , -10577.29484418, -21488.49452455])

3.4.1、精度、召回率和阈值的图：precision_recall_curve()

有了这些分数，可以使用precision_recall_curve()函数来计算所有可能的阈值的精度和召回率：

from sklearn.metrics import precision_recall_curve
# 准确率、召回率、阈值：返回值按 准确率 从低到高 排序
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2)
    plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
    plt.legend(loc="center right", fontsize=16)  # 显示图例，位置 中右
    plt.xlabel("Threshold", fontsize=16)         # X轴命名
    plt.grid(True)                               # 显示网格
    plt.axis([-50000, 50000, 0, 1])              # 坐标显示 X轴范围 -50000~50000；Y轴范围 0~1


recall_90_precision = recalls[np.argmax(precisions >= 0.90)]        # 当准确率第一次大于0.90时的召回率。
threshold_90_precision = thresholds[np.argmax(precisions >= 0.90)]  # 当准确率第一次大于0.90时的阈值。


plt.figure(figsize=(8, 4))  # 指定figure的宽和高，单位为英寸
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
plt.plot([threshold_90_precision, threshold_90_precision], [0., 0.9], "r:")
plt.plot([-50000, threshold_90_precision], [0.9, 0.9], "r:")
plt.plot([-50000, threshold_90_precision], [recall_90_precision, recall_90_precision], "r:")
plt.plot([threshold_90_precision], [0.9], "ro")
plt.plot([threshold_90_precision], [recall_90_precision], "ro")
plt.show()

上图中，精确率后面有明显的下降与波折，原因在于，当你提高阈值时，精度有时也有可能会下降。所以并不是阈值越高越好。

3.4.2、PR曲线（精度/召回率曲线）

另一种找到好的精度/召回率权衡的方法是直接绘制精度和召回率的函数图：

def plot_precision_vs_recall(precisions, recalls):
    plt.plot(recalls, precisions, "b-", linewidth=2)
    plt.xlabel("Recall", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])
    plt.grid(True)

plt.figure(figsize=(8, 6))
plot_precision_vs_recall(precisions, recalls)
plt.plot([recall_90_precision, recall_90_precision], [0., 0.9], "r:")
plt.plot([0.0, recall_90_precision], [0.9, 0.9], "r:")
plt.plot([recall_90_precision], [0.9], "ro")
plt.show()

从图中可以看到，从80%的召回率往右，精度开始急剧下降。你可能会尽量在这个陡降之前选择一个精度/召回率权衡–比如召回率60%。然后，如何选择取决于你的项目。假设你决定将精度设为90%：

threshold_90_precision  # 精度为90%时的阈值

3370.0194991439557

要进行预测（现在是在训练集上），除了调用分类器的predict()方法，也可以运行这段代码：

y_train_pred_90 = (y_scores >= threshold_90_precision)

# 精度、召回率
precision_score(y_train_5, y_train_pred_90), recall_score(y_train_5, y_train_pred_90)

(0.9000345901072293, 0.4799852425751706)

这样你就有一个90%精度的分类器了！

3.5、ROC 曲线

还有一种经常与二元分类器一起使用的工具，叫做受试者工作特征曲线（简称 ROC）。它与精度/召回率曲线非常类似，但绘制得不是精度和召回率，而是真正类率（召回率的另一名称）和假正类率（FPR）。

假正类率（FPR）：是被错误分为正类的负类实例比例。它等于1减去真负类率（TNR）；
真负类率（TNR）：是被正确分类为负类的负类实例比例，也成为特异度；
因此，ROC 曲线绘制的是灵敏度（召回率）和（1 - 特异度）的关系。

	非(真)	是(真)
非(预)	TN(真负类)	FP(假正类)
是(预)	FN(假负类)	TP(真正类)

要绘制 ROC 曲线，首先需要使用roc_curve()函数计算多种阈值的 TPR 和 FPR：

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

然后，使用Matplotlib绘制 FPR 对 TPR 的曲线：

def plot_roc_curve(fpr, tpr, label=None):
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')                             # 绘制对角虚线
    plt.axis([0, 1, 0, 1])                                      # X、Y轴范围均为 0~1
    plt.xlabel('False Positive Rate (Fall-Out)', fontsize=16)   # 假正率
    plt.ylabel('True Positive Rate (Recall)', fontsize=16)      # 真正率（召回率）
    plt.grid(True)

    
plt.figure(figsize=(8, 6))
plot_roc_curve(fpr, tpr)
fpr_90 = fpr[np.argmax(tpr >= recall_90_precision)]             # 准确率90%时，召回率的位置
plt.plot([fpr_90, fpr_90], [0., recall_90_precision], "r:")
plt.plot([0.0, fpr_90], [recall_90_precision, recall_90_precision], "r:")
plt.plot([fpr_90], [recall_90_precision], "ro")
plt.show()

同样这里再次面临一个折中权衡：召回率（TPR）越高，分类器产生的假正率（FPR）就越高。虚线表示纯随机分类器的 ROC 曲线、一个优秀的分类器应该离这条线越远越好（像左上角）。

有一种比较分类器的方法，是测量曲线下面积（AUC）。完美的分类器的 ROC AUC 等于 1，而纯粹随机分类器的 ROC AUC 等于 0.5。Scikit-Learn提供计算 ROC AUC 的函数：

from sklearn.metrics import roc_auc_score

roc_auc_score(y_train_5, y_scores)

0.9604938554008616

ROC 曲线和 PR 曲线非常类似，如何选择呢？有一个经验法则是：当正类非常少见或者你更关注假正类而不是假负类时，应该选择 PR 曲线，反之则是 ROC 曲线。

现在我们来训练一个RandomForestClassifier分类器，并比较它和SGDClassifier分类器的 ROC 曲线和 ROC AUC 分数。

首先，获取训练集中每个实例的分数。但是由于它的工作方式不同，RandomForestClassifier类没有decision_function()方法，相反，它有predict_proba()方法。Scikit-Learn的分类器通常都有这两种方法的一种（或两种都有）。

predict_proba()方法：返回一个数组，其中一行代表一个实例，每一列代表一个类别，意思是某个给定实例属于某个给定列表的概率（例如，这种图片 70% 可能是数字 5）

from sklearn.ensemble import RandomForestClassifier
# 耗时 50秒左右
forest_clf = RandomForestClassifier(random_state=42)
y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3, method="predict_proba")

y_probas_forest[:10]

array([[0.11, 0.89],
       [0.99, 0.01],
       [0.96, 0.04],
       [1.  , 0.  ],
       [0.99, 0.01],
       [1.  , 0.  ],
       [1.  , 0.  ],
       [1.  , 0.  ],
       [1.  , 0.  ],
       [0.99, 0.01]])

y_scores_forest = y_probas_forest[:, 1]
fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5, y_scores_forest)

recall_for_forest = tpr_forest[np.argmax(fpr_forest >= fpr_90)]

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, "b:", linewidth=2, label="SGD")
plot_roc_curve(fpr_forest, tpr_forest, "Random Forest")
plt.plot([fpr_90, fpr_90], [0., recall_90_precision], "r:")
plt.plot([0.0, fpr_90], [recall_90_precision, recall_90_precision], "r:")
plt.plot([fpr_90], [recall_90_precision], "ro")
plt.plot([fpr_90, fpr_90], [0., recall_for_forest], "r:")
plt.plot([fpr_90], [recall_for_forest], "ro")
plt.grid(True)
plt.legend(loc="lower right", fontsize=16)
plt.show()

roc_auc_score(y_train_5, y_scores_forest)

0.9983436731328145

# 耗时 53秒左右
y_train_pred_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3)

# 精度、召回率
precision_score(y_train_5, y_train_pred_forest), recall_score(y_train_5, y_train_pred_forest)

(0.9905083315756169, 0.8662608374838591)

上面数据表明随机森林分类器优于SGD分类器，ROC AUC 分数更高，99%的精度和86.8%的召回率，还不错！

4、多类分类器（最后附上加速库代码）

二元分类器在两个类中区分，而多元分类器（也称多项分类器）可以区分两个以上的类。

有一些算法可以直接处理多个类；
也有一些严格的二元分类器；
有多种策略可以用几个二元分类器实现多类分类的目的。

要创建一个系统将数字图片分为10类（从0到9）有两个方法：

方法一

训练10个二元分类器，每个数字一个。然后，当你对一张图片进行检测分类时，获取每个分类器的决策分数，哪个分数高，就将其分给哪一类，这称为一对剩余（OvR）策略，也称为一对多（one-versus-all）。

方法二

为每一对数字训练一个二元分类器：一个用于区分0和1，一个用于区分0和2…，一个用于区分0和9；一个用于区分1和2，一个用于区分1和3…，一个用于区分1和9；以此类推，这称为一对一（OvO）策略。如果存在N个类别，那么这需要训练N×(N-1)/2个分类器，对于MNIST问题，这意味需要训练45个二元分类器，当需要对一张图片进行分类时，你需要运行45个分类器来对图片进行分类，最后看哪一类获胜最多。OvO的主要优点在于，每个分类器只需要用到部分训练集对其必须区分的两类进行训练。

有些算法（例如支持向量机分类器）在数据规模扩大时表现很糟。对于这类算法，OvO是一个优先的选择，因为在较小训练集上分别训练多个分类器比在大型数据集上训练少数分类器要快得多。但是对大多数二元分类器来说，OvR策略还是更好的选择。

Scikit-Learn可以检测到你尝试使用二元分类器算法进行多类分类任务，它会根据情况自动运行OvR或者OvO。我们用sklearn.svm.SVC类来试试SVM分类器：

from sklearn.svm import SVC

svm_clf = SVC(gamma="auto", random_state=42)
# 因为这里使用多类分类器，所以用的 y_train 而不是 y_train_5
# 因为是多元分类器，所以特别的慢，这里只用 前1000个实例，减少运算时间（只用几秒）
# 经过我多次尝试，完整运行预计 2小时左右
svm_clf.fit(X_train[:1000], y_train[:1000])
svm_clf.predict([some_digit])

array([5], dtype=uint8)

可是看出非常容易！SVC的预测结果不再是简单的是/非，而是预测具体是哪个类。而在内部，Scikit-Learn实际上训练了45个二元分类器，获得它们对图片的决策分数，然后选择了分数最高的类。

想要知道是不是这样的，可以调用decision_function()方法，它会返回10个分数，每个类一个，而不再是每个实例返回1个分数：

some_digit_scores = svm_clf.decision_function([some_digit])
some_digit_scores

array([[ 2.81585438,  7.09167958,  3.82972099,  0.79365551,  5.8885703 ,
         9.29718395,  1.79862509,  8.10392157, -0.228207  ,  4.83753243]])

# svm_clf.classes_：目标类的列表，按值的大小排序，一般来说，不会这么巧合。
# np.argmax[some_digit_scores]：列表中最大值的索引
svm_clf.classes_[np.argmax(some_digit_scores)]

如果想要强制Scikit-Learn使用OvO或者OvR，可以使用OneVsOneClassifier或OneVsRestClassifier类。只需要创建一个实例，然后将分类器传给其构造函数（它甚至不必是二元分类器）。

例如下面，使用OvR策略，基于SVC创建一个多类分类器：

from sklearn.multiclass import OneVsRestClassifier

ovr_clf = OneVsRestClassifier(SVC(gamma="auto", random_state=42))
# 经过我多次尝试，完整运行预计 21小时左右
ovr_clf.fit(X_train[:1000], y_train[:1000])
ovr_clf.predict([some_digit])

array([5], dtype=uint8)

训练SGDClassifier或者RandomForestClassifier同样简单：

sgd_clf.fit(X_train, y_train)
sgd_clf.predict([some_digit])

array([3], dtype=uint8)

这次Scikit-Learn不必运行OvR或者OvO了，因为SGD分类器直接就是可以将实例分为多个类。调用decision_function()可以获得分类器将每个实例分类为每个类的概率列表：

sgd_clf.decision_function([some_digit])

array([[-31893.03095419, -34419.69069632,  -9530.63950739,
          1823.73154031, -22320.14822878,  -1385.80478895,
        -26188.91070951, -16147.51323997,  -4604.35491274,
        -12050.767298  ]])

好吧，看起来结果并不太准确，像之前一样，使用交叉验证来评估一下：

cross_val_score(sgd_clf, X_train, y_train, cv=3, scoring="accuracy")

array([0.87365, 0.85835, 0.8689 ])

在所有的测试折叠上都超过了85%，如果是一个纯随机分类器，准确率大概在10%，所以这个结果还不太糟糕，但是依然有提升的空间。

例如，进行简单缩放（上一章有讲到）可以将准确率提高到89%：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train.astype(np.float64))
# 下面耗时 9分钟左右
cross_val_score(sgd_clf, X_train_scaled, y_train, cv=3, scoring="accuracy")

array([0.8983, 0.891 , 0.9018])

5、误差分析

当你找到一个有潜力的模型，现在需要找到一些方法对其进一步改进。方法之一就是分析其错误类型。

首先看看混淆矩阵。就像之前做的，使用cross_val_predick()函数进行预测，然后调用confusion_matrix()函数：

y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
conf_mx = confusion_matrix(y_train, y_train_pred)

conf_mx.shape

(10, 10)

conf_mx

array([[5577,    0,   22,    5,    8,   43,   36,    6,  225,    1],
       [   0, 6400,   37,   24,    4,   44,    4,    7,  212,   10],
       [  27,   27, 5220,   92,   73,   27,   67,   36,  378,   11],
       [  22,   17,  117, 5227,    2,  203,   27,   40,  403,   73],
       [  12,   14,   41,    9, 5182,   12,   34,   27,  347,  164],
       [  27,   15,   30,  168,   53, 4444,   75,   14,  535,   60],
       [  30,   15,   42,    3,   44,   97, 5552,    3,  131,    1],
       [  21,   10,   51,   30,   49,   12,    3, 5684,  195,  210],
       [  17,   63,   48,   86,    3,  126,   25,   10, 5429,   44],
       [  25,   18,   30,   64,  118,   36,    1,  179,  371, 5107]])

上面是一个 10×10 的混淆矩阵，我们使用Matplotlib的matshow()函数来擦汗混淆矩阵的图像表示通常更加方便：

fig = plt.figure(figsize=plt.figaspect(1/2))

ax = fig.add_subplot(121)
im = ax.matshow(conf_mx, cmap=plt.get_cmap('gray'))
plt.colorbar(im, cax=None, ax=None, shrink=0.75)

ax = fig.add_subplot(122)
im = ax.matshow(conf_mx)
plt.colorbar(im, cax=None, ax=None, shrink=0.75)

plt.show()

混淆矩阵看起来很不错，大多数图片都在主对角线上，这说明它们被正确分类。

不过上面色块的颜色不同，比如数字5（最绿或最暗）。

让我们把焦点放在错误上。首先，需要将混淆矩阵中的每个值除以类中的图片数量，这样你比较的就是错误率而不是错误的绝对值（后者对图片数量多的类不公平）：

row_sums = conf_mx.sum(axis=1, keepdims=True)
norm_conf_mx = conf_mx / row_sums

plt.matshow(norm_conf_mx)
plt.colorbar(shrink=0.8)
plt.show()

由于正确率远远大于错误率（上图可知，错误率颜色不明显），所以我们要用0填充主对角线，只保留错误，重新绘制结果：

np.fill_diagonal(norm_conf_mx, 0)  # 填充对角线为0

fig = plt.figure(figsize=plt.figaspect(1./2))

ax = fig.add_subplot(121)
im = ax.matshow(norm_conf_mx, cmap=plt.get_cmap('gray'))
plt.colorbar(im, cax=None, ax=None, shrink=0.75)

ax = fig.add_subplot(122)
im = ax.matshow(norm_conf_mx)
plt.colorbar(im, cax=None, ax=None, shrink=0.75)

plt.show()

现在可以清晰地看到分类器产生的错误种类了。每一行代表实例列，每一列代表预测类。第8列看起来非常亮（其他数字被预测成数字8），而第8行看起来就正常了许多（数字8被正确分类为数字8）；另外一个比较明显的错误就是数字3和数字5经常混淆（在两个方向上）。

分析混淆矩阵通常可以帮助你深入了解如何改进分类器。通过上图看了，你的精力可以花在改进数字8的分类错误上：

可以收集更多看起来像数字8的训练数据；
可以写一个算法来计算闭环的数量（比如：数组8有有两个，数字6有一个，数字5没有）；
可以对图片进行预处理，让某些模式更为突出（比如，闭环之类的）。

分析单个错误也可以为分类器提供洞察：它在做什么？它为什么失败？但这通常更加困难和耗时。例如：看看数字3和数字5的示例：

def plot_digits_ax(ax, instances, images_per_row=10, **options):
    size = 28
    images_per_row = min(len(instances), images_per_row)
    images = [instance.reshape(size,size) for instance in instances]
    n_rows = (len(instances) - 1) // images_per_row + 1
    row_images = []
    n_empty = n_rows * images_per_row - len(instances)
    images.append(np.zeros((size, size * n_empty)))
    for row in range(n_rows):
        rimages = images[row * images_per_row : (row + 1) * images_per_row]
        row_images.append(np.concatenate(rimages, axis=1))
    image = np.concatenate(row_images, axis=0)
    ax.imshow(image, cmap="binary", **options)
    ax.axis("off")

cl_3, cl_5 = 3, 5
X_33 = X_train[(y_train == cl_3) & (y_train_pred == cl_3)]
X_35 = X_train[(y_train == cl_3) & (y_train_pred == cl_5)]
X_53 = X_train[(y_train == cl_5) & (y_train_pred == cl_3)]
X_55 = X_train[(y_train == cl_5) & (y_train_pred == cl_5)]

fig, ax = plt.subplots(2, 2, figsize=(8, 8))
plot_digits_ax(ax[0, 0], X_33[:25], 5)  # 左上，正确分类的 数字3
plot_digits_ax(ax[0, 1], X_35[:25], 5)  # 右上，被分为 数字5 的 数字3
plot_digits_ax(ax[1, 0], X_53[:25], 5)  # 左下，被分为 数字3 的 数字5
plot_digits_ax(ax[1, 1], X_55[:25], 5)  # 右下，正确分类的 数字5
plt.show()

有一些写的的确很糟糕，例如：左下第一行第二个数字，看起来更像数字3。

虽然对于我们来讲，上面大多数图片都有明显的区别，很难理解为什么分类器会分类错误。原因在于，我们使用的简单的SGDClassifier模型是简单线性模型。它做作的就是为每一个像素分配一个各个类别的权重，当它看到新的图像时，将加权后的像素强度汇总，从而得到一个分数进行分类。而数字3和数字5只在一部分像素位上有区别，所以分类器很容易将其混淆。

而解决方法就是对图片进行预处理。

6、多标签分类

到目前为止，每个实例都只会被分在一个类里，而在某些情况下，你希望分类器为每个实例输出多个类。例如，人脸识别的分类：如果在一张照片里识别出多个人怎么办？当然，应该为识别出来的每个人都附上一个标签。假设分类器经过训练，已经可以识别出三张人脸 – 张三、赵四、王五。那么当看到一张张三和王五的合照时，它应该输出 [1, 0, 1]（意思是“是张三，不是赵四，是王五”）这种输出多个二元标签的分类系统称为多标签分类系统。

这里看一个简单的示例：

from sklearn.neighbors import KNeighborsClassifier

y_train_large = (y_train >= 7)  # 大于7
y_train_odd = (y_train % 2 == 1)  # 奇数
y_multilabel = np.c_[y_train_large, y_train_odd]
# 训练
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)
# 预测
knn_clf.predict([some_digit])

array([[False,  True]])

结果是正确的，数字5的确不大于7（False），为奇数（True）。

评估多标签分类器的方法很多，如果选择正确的度量指标取决于你的项目。比如方法之一是测量每个标签的F1分数（或者之前用过的的任何其他二元分类器指标），然后简单地计算平均分数。下面计算所有标签的平均F1分数：

y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_multilabel, cv=3)
f1_score(y_multilabel, y_train_knn_pred, average="macro")

0.976410265560605

这里假设所有的标签都同等重要，但实际可能不是这样。特别地，如果训练的照片里张三比赵四和王五的多很多，你可能想给区分张三的分类器更高的权重。一个简单地办法是给每个标签设置一个等于其自身支持的权重（也就是具有该目标标签的实例的数量），为此，只需要在上面的代码中设置average="weighted"即可。

7、多输出分类

这种分类也称为多输出 - 多类分类，简单的来说，它是多标签分类的泛化，其标签也可以是多类的（比如它可以有两个以上可能的值）。

为了说明这一点，构建一个系统去除图片中的噪点。给它输入一张有噪点的图片，它将（希望）输出一张干净的数字图片，与其他 MNIST 图片一样，以像素强度的一个数组作为呈现方式，请注意，这个分类器的输出是多个标签（一个像素点一个标签），每个标签可以有多个值（像素强度范围为 0~255）。所以这是个多输出分类器系统的示例。

还是先从创建训练集和测试集开始，使用NumPy的randint()函数为MNIST图片的像素强度增加噪点。目标是将图片还原为原始图片：

# 随机生成0~100的整数，填充（60000，784）的数组
noise = np.random.randint(0, 100, (len(X_train), 784))
X_train_mod = X_train + noise  # 训练集添加噪点
# 随机生成0~100的整数，填充（10000，784）的数组
noise = np.random.randint(0, 100, (len(X_test), 784))
X_test_mod = X_test + noise  # 测试集添加噪点

# 添加噪点之前的数组作为标签
y_train_mod = X_train
y_test_mod = X_test

查看一下添加噪点前后的对比：

fig = plt.figure(figsize=plt.figaspect(1./2))

# 加了噪点的数字图片
ax = fig.add_subplot(121)
mod_digit = X_train_mod[0]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

# 希望还原的数字图片
ax = fig.add_subplot(122)
mod_digit = y_train_mod[0]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

plt.show()

左边是有噪点的输入图片, 右边是根据的图片。现在我们通过训练分类器，清洗这张照片：

some_index = 23
knn_clf.fit(X_train_mod, y_train_mod)
clean_digit = knn_clf.predict([X_test_mod[some_index]])

fig = plt.figure(figsize=plt.figaspect(1./2))

# 清洗前的数字图片
ax = fig.add_subplot(121)
mod_digit = X_test_mod[some_index]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

# 清洗后的数字图片
ax = fig.add_subplot(122)
mod_digit_image = clean_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

plt.show()

看起来离目标够接近了。分类器之旅到此就结束了。

8、完整关键代码

import matplotlib.pyplot as plt
import numpy as np
from sklearn.base import BaseEstimator
from sklearn.base import clone
from sklearn.datasets import fetch_openml
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.multiclass import OneVsRestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC


class Never5Classifier(BaseEstimator):
    """
    返回全部为 False 的列表
    """
    def fit(self, X, y=None):
        return self

    def predict(self, X):
        return np.zeros((len(X), 1), dtype=bool)  # 生成 len(X) 行，1 列，的 False(0)
    
    
def self_cross_val_score(estimator, X, y, n_splits):
    """
    交叉验证，输出每次准确率。
    :param estimator: 分类器模型
    :param X: 训练集
    :param y: 标签集
    :param n_splits: 折叠次数
    :return: 打印每次交叉验证的准确率
    """
    # StratifiedKFold：K-交叉验证分层器，返回分层折叠
    skfolds = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=42)
    accuracy_list = []
    # 返回两个折叠：训练集索引，测试集索引
    for train_index, test_index in skfolds.split(X, y):
        clone_clf = clone(estimator)    # 克隆分类器
        X_train_folds = X[train_index]  # 训练集
        y_train_folds = y[train_index]  # 训练标签集
        X_test_folds = X[test_index]    # 测试集
        y_test_folds = y[test_index]    # 测试标签集

        clone_clf.fit(X_train_folds, y_train_folds)    # 训练分配器
        y_pred = clone_clf.predict(X_test_folds)       # 进行预测
        n_correct = sum(y_pred == y_test_folds)        # 统计正确预测次数
        accuracy_list.append(n_correct / len(y_pred))  # 输出准确率
    return accuracy_list


def plot_precision_recall_vs_threshold(precisions, recalls, thresholds):
    """
    绘制 精度、召回率 和 阈值 的图像
    :param precisions: 精度
    :param recalls: 召回率
    :param thresholds: 阈值
    """
    plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2)
    plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
    plt.legend(loc="center right", fontsize=16)  # 显示图例，位置 中右
    plt.xlabel("Threshold", fontsize=16)         # X轴命名
    plt.grid(True)                               # 显示网格
    plt.axis([-50000, 50000, 0, 1])              # 坐标显示 X轴范围 -50000~50000；Y轴范围 0~1
    
    
def plot_precision_vs_recall(precisions, recalls):
    """
    绘制 精度 和 召回率 的图像
    :param precisions: 精度
    :param recalls: 召回率
    """
    plt.plot(recalls, precisions, "b-", linewidth=2)
    plt.xlabel("Recall", fontsize=16)
    plt.ylabel("Precision", fontsize=16)
    plt.axis([0, 1, 0, 1])
    plt.grid(True)
    
    
def plot_roc_curve(fpr, tpr, label=None):
    """
    绘制 受试者工作特征曲线（简称 ROC）
    :param fpr: 假正类率（FPR）：是被错误分为正类的负类实例比例。它等于1减去真负类率（TNR）；
    :param tpr: 真负类率（TNR）：是被正确分类为负类的负类实例比例，也成为特异度；
    :param label: 图像名称
    """
    plt.plot(fpr, tpr, linewidth=2, label=label)
    plt.plot([0, 1], [0, 1], 'k--')  # 绘制对角虚线
    plt.axis([0, 1, 0, 1])           # X、Y轴范围均为 0~1
    plt.xlabel('False Positive Rate (Fall-Out)', fontsize=16)  # 假正率
    plt.ylabel('True Positive Rate (Recall)', fontsize=16)     # 真正率（召回率）
    plt.grid(True)
    
    
def plot_digits_ax(ax, instances, images_per_row=10, **options):
    size = 28
    images_per_row = min(len(instances), images_per_row)
    images = [instance.reshape(size,size) for instance in instances]
    n_rows = (len(instances) - 1) // images_per_row + 1
    row_images = []
    n_empty = n_rows * images_per_row - len(instances)
    images.append(np.zeros((size, size * n_empty)))
    for row in range(n_rows):
        rimages = images[row * images_per_row : (row + 1) * images_per_row]
        row_images.append(np.concatenate(rimages, axis=1))
    image = np.concatenate(row_images, axis=0)
    ax.imshow(image, cmap="binary", **options)
    ax.axis("off")
    
    
"""
下载素材
"""
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
# X：数据集；y：标签集
X, y = mnist['data'], mnist['target']
y = y.astype(np.uint8)  # 标签集 字符串 转 数字
# 随便找一个数据集数据，用于后续数据探索示例
some_digit = X[0]
"""
创建 训练集与测试集
"""
X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
"""
训练二元分类器：SGDClassifier
"""
# 分类器以 数字5 为示例
y_train_5 = (y_train == 5)  # 判断 y_train 中的数据是否等于 5，得到一个 布尔列表。
y_test_5 = (y_test == 5)
# 随机梯度下降(SGD)分类器
sgd_clf = SGDClassifier(max_iter=1000, tol=1e-3, random_state=42)  # 前两个是新版默认参数
sgd_clf.fit(X_train, y_train_5)              # 训练
sgd_predict = sgd_clf.predict([some_digit])  # 预测
print("SGD预测结果：", sgd_predict)
"""
性能测量
"""
# 手写交叉验证
sgd_score = self_cross_val_score(sgd_clf, X_train, y_train_5, 3)
print("手写交叉验证：", sgd_score)
# Scikit-Learn 提供的；scoring="accuracy"：选择输出类型为"准确率"
sgd_score = cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")
print("Scikit-Learn：", sgd_score)

# 验证全部分为"非5"的准确率
never_5_clf = Never5Classifier()
never_5_score = cross_val_score(never_5_clf, X_train, y_train_5, cv=3, scoring="accuracy")
print("Never5Classifier：", sgd_score)

# 混淆矩阵
# 与cross_val_score()函数一样，cross_val_predict()函数相同执行K-折交叉验证
# cross_val_score() 返回评估分数；cross_val_predict() 返回每个实例的预测（即 一个布尔列表）
y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)
print("混淆矩阵：\n", confusion_matrix(y_train_5, y_train_pred))
print("完美分类器的混淆矩阵：\n", confusion_matrix(y_train_5, y_train_5))

# 精度与召回率
print("精度\t：", precision_score(y_train_5, y_train_pred))
print("召回率\t：", recall_score(y_train_5, y_train_pred))
print("F1\t：", f1_score(y_train_5, y_train_pred))

# 精度/召回率权衡
# sgd_clf.predict：返回预测结果；sgd_clf.decision_function：返回预测分数
y_scores = sgd_clf.decision_function([some_digit])
print("SGD预测分数：", y_scores)

threshold = 0  # 如果阈值设置为 0
y_some_digit_pred = (y_scores > threshold)
print("通过设置阈值为 {}，把SGD预测分数变为结果：{} -> {}".format(threshold, y_scores, y_some_digit_pred))
threshold = 3000  # 如果阈值设置为 0
y_some_digit_pred = (y_scores > threshold)
print("通过设置阈值为 {}，把SGD预测分数变为结果：{} -> {}".format(threshold, y_scores, y_some_digit_pred))

# cross_val_predict 这里不再返回每个实例的预测结果（布尔值），而是使用 decision_function 返回每个实例的预测分数
y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3, method="decision_function")
# 精度、召回率、阈值：返回值按 精度 从低到高 排序
precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

recall_90_precision = recalls[np.argmax(precisions >= 0.90)]        # 当准确率第一次大于0.90时的召回率。
threshold_90_precision = thresholds[np.argmax(precisions >= 0.90)]  # 当准确率第一次大于0.90时的阈值。
# 精度、召回率 与 阈值 的关系曲线
plt.figure(figsize=(8, 4))  # 指定figure的宽和高，单位为英寸
plot_precision_recall_vs_threshold(precisions, recalls, thresholds)
plt.plot([threshold_90_precision, threshold_90_precision], [0., 0.9], "r:")
plt.plot([-50000, threshold_90_precision], [0.9, 0.9], "r:")
plt.plot([-50000, threshold_90_precision], [recall_90_precision, recall_90_precision], "r:")
plt.plot([threshold_90_precision], [0.9], "ro")
plt.plot([threshold_90_precision], [recall_90_precision], "ro")
plt.show()

# PR曲线（精度/召回率曲线）
plt.figure(figsize=(8, 6))
plot_precision_vs_recall(precisions, recalls)
plt.plot([recall_90_precision, recall_90_precision], [0., 0.9], "r:")
plt.plot([0.0, recall_90_precision], [0.9, 0.9], "r:")
plt.plot([recall_90_precision], [0.9], "ro")
plt.show()

y_train_pred_90 = (y_scores >= threshold_90_precision)
print("当精度为：{} 时，召回率为：{}，阈值为：{}".format(
    precision_score(y_train_5, y_train_pred_90),  # 精度
    recall_score(y_train_5, y_train_pred_90),     # 召回率
    threshold_90_precision))                      # 阈值

# ROC 曲线
fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

plt.figure(figsize=(8, 6))
plot_roc_curve(fpr, tpr)
fpr_90 = fpr[np.argmax(tpr >= recall_90_precision)]  # 准确率90%时，召回率的位置
plt.plot([fpr_90, fpr_90], [0., recall_90_precision], "r:")
plt.plot([0.0, fpr_90], [recall_90_precision, recall_90_precision], "r:")
plt.plot([fpr_90], [recall_90_precision], "ro")
plt.show()
# 测量曲线下面积（AUC）
print("SGDClassifier 的 ROC AUC：", roc_auc_score(y_train_5, y_scores))
"""
训练二元分类器：RandomForestClassifier
"""
forest_clf = RandomForestClassifier(random_state=42)
# 由于工作方式不同，RandomForestClassifier类没有decision_function()方法，相反，它有predict_proba()方法。
# Scikit-Learn的分类器通常都有这两种方法的一种（或两种都有）。
y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3, method="predict_proba")
print("RandomForestClassifier分类器 交叉验证部分结果：\n", y_probas_forest[:10])
y_scores_forest = y_probas_forest[:, 1]
fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5, y_scores_forest)

recall_for_forest = tpr_forest[np.argmax(fpr_forest >= fpr_90)]

plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, "b:", linewidth=2, label="SGD")       # 绘制上面 SGD 的 ROC 曲线
plot_roc_curve(fpr_forest, tpr_forest, "Random Forest")  # 绘制新的 随机森林分类器 的 ROC 曲线
plt.plot([fpr_90, fpr_90], [0., recall_90_precision], "r:")
plt.plot([0.0, fpr_90], [recall_90_precision, recall_90_precision], "r:")
plt.plot([fpr_90], [recall_90_precision], "ro")
plt.plot([fpr_90, fpr_90], [0., recall_for_forest], "r:")
plt.plot([fpr_90], [recall_for_forest], "ro")
plt.grid(True)
plt.legend(loc="lower right", fontsize=16)
plt.show()

print("RandomForestClassifier 的 ROC AUC：", roc_auc_score(y_train_5, y_scores_forest))

y_train_pred_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3)
print("精度为：{} 时，召回率为：{}".format(
    precision_score(y_train_5, y_train_pred_forest),   # 精度
    recall_score(y_train_5, y_train_pred_forest)))     # 召回率

"""
多类分类器
"""
svm_clf = SVC(gamma="auto", random_state=42)
svm_clf.fit(X_train[:1000], y_train[:1000])           # 训练
print("SVC 预测结果：", svm_clf.predict([some_digit]))  # 预测
# svm_clf.decision_function 返回结果是 每个类的预测分数
some_digit_scores = svm_clf.decision_function([some_digit])
print("SVC 每个类的预测分数：\n", svm_clf.predict([some_digit]))
# svm_clf.classes_：目标类的列表，按值的大小排序，一般来说，不会这么巧合。
# np.argmax[some_digit_scores]：列表中最大值的索引
print("最大预测分数的类：", svm_clf.classes_[np.argmax(some_digit_scores)])

# 一对多分类器
ovr_clf = OneVsRestClassifier(SVC(gamma="auto", random_state=42))
ovr_clf.fit(X_train[:1000], y_train[:1000])                   # 训练
print("一对多 SVC 预测结果：\n", ovr_clf.predict([some_digit]))  # 预测

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train.astype(np.float64))
y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
conf_mx = confusion_matrix(y_train, y_train_pred)
print("SGD 数据缩放后 多类分类交叉验证后 混淆矩阵：\n", conf_mx)
# 绘制 conf_mx 图像
plt.matshow(conf_mx)
plt.colorbar(shrink=0.8)
plt.show()
# 绘制 conf_mx 错误概率的图像
row_sums = conf_mx.sum(axis=1, keepdims=True)
norm_conf_mx = conf_mx / row_sums
np.fill_diagonal(norm_conf_mx, 0)  # 填充对角线为0

plt.matshow(norm_conf_mx)
plt.colorbar(shrink=0.8)
plt.show()

# 绘制 数字3、数字5，正确分类和相互错误分类的图像
cl_3, cl_5 = 3, 5
X_33 = X_train[(y_train == cl_3) & (y_train_pred == cl_3)]
X_35 = X_train[(y_train == cl_3) & (y_train_pred == cl_5)]
X_53 = X_train[(y_train == cl_5) & (y_train_pred == cl_3)]
X_55 = X_train[(y_train == cl_5) & (y_train_pred == cl_5)]

fig, ax = plt.subplots(2, 2, figsize=(8, 8))
plot_digits_ax(ax[0, 0], X_33[:25], 5)  # 左上，正确分类的 数字3
plot_digits_ax(ax[0, 1], X_35[:25], 5)  # 右上，被分为 数字5 的 数字3
plot_digits_ax(ax[1, 0], X_53[:25], 5)  # 左下，被分为 数字3 的 数字5
plot_digits_ax(ax[1, 1], X_55[:25], 5)  # 右下，正确分类的 数字5
plt.show()

"""
多标签分类
"""
y_train_large = (y_train >= 7)    # 大于7
y_train_odd = (y_train % 2 == 1)  # 奇数
y_multilabel = np.c_[y_train_large, y_train_odd]

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)        # 训练
print("多标签分类 预测结果：", knn_clf.predict([some_digit]))  # 预测

y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_multilabel, cv=3)
print("多标签分类 F1 分数：", f1_score(y_multilabel, y_train_knn_pred, average="macro"))

"""
多输出分类
"""
# 随机生成0~100的整数，填充（60000，784）的数组
noise = np.random.randint(0, 100, (len(X_train), 784))
X_train_mod = X_train + noise
# 随机生成0~100的整数，填充（10000，784）的数组
noise = np.random.randint(0, 100, (len(X_test), 784))
X_test_mod = X_test + noise

y_train_mod = X_train
y_test_mod = X_test
# 加入噪点前后对比
fig = plt.figure(figsize=plt.figaspect(1./2))
# 加了噪点的数字图片
ax = fig.add_subplot(121)
mod_digit = X_train_mod[0]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")
# 希望还原的数字图片
ax = fig.add_subplot(122)
mod_digit = y_train_mod[0]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

plt.show()
# 多输出分类学习清洗
some_index = 23
knn_clf.fit(X_train_mod, y_train_mod)
clean_digit = knn_clf.predict([X_test_mod[some_index]])
# 清洗前后对比
fig = plt.figure(figsize=plt.figaspect(1./2))
# 清洗前的数字图片
ax = fig.add_subplot(121)
mod_digit = X_test_mod[some_index]
mod_digit_image = mod_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")
# 清洗后的数字图片
ax = fig.add_subplot(122)
mod_digit_image = clean_digit.reshape(28, 28)
ax.imshow(mod_digit_image, cmap="binary")
plt.axis("off")

plt.show()

9、加速库的使用

# pip install scikit-learn-intelex

import time

import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.multiclass import OneVsRestClassifier
from sklearnex.svm import SVC # intel官方，scikit-learn加速库，使用与原库相同，可加速10-100倍。


def times():
    time_now = time.time()
    print(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(time_now)))
    return time_now


def svc_clf_fit():
    svm_clf = SVC(gamma="auto", random_state=42)
    st = times()
    svm_clf.fit(X_train, y_train)
    et = times()
    print("SVC 预测结果：{}".format(svm_clf.predict([some_digit])))
    print("SVC 共耗时：{} 秒".format(et - st))


def ovr_clf_fit():
    ovr_clf = OneVsRestClassifier(SVC(gamma="auto", random_state=42))
    st = times()
    ovr_clf.fit(X_train, y_train)
    et = times()
    print("OvR 预测结果：{}".format(ovr_clf.predict([some_digit])))
    print("OvR 共耗时：{} 秒".format(et - st))


if __name__ == '__main__':
    mnist = fetch_openml('mnist_784', version=1, as_frame=False)

    X, y = mnist['data'], mnist['target']
    y = y.astype(np.uint8)
    X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

    some_digit = X[0]

    svc_clf_fit()  # 原库耗时 约 2小时，加速后 只需要 约40秒
    ovr_clf_fit()  # 原库耗时 约21小时，加速后 只需要 约43秒

你可能感兴趣的:(机器学习,分类,sklearn)

通信方式与交换方式详解两圆相切网络规划设计师网络
通信方式与交换方式是通信网络中的核心概念，分别定义了数据传输的基本模式（通信方向与同步机制）和网络节点间的转发策略（路径选择与资源分配）。理解两者的分类与特性，对网络设计、协议选型及性能优化至关重要。一、通信方式（CommunicationModes）通信方式描述数据在传输过程中方向性和同步性的特征，决定了终端设备间的交互模式。1.1按传输方向分类类型定义核心特性典型场景单工通信数据仅能沿单一固定
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
25岁从零开始学习平面设计，会不会太晚？ 93091cdf8ebb
很多新手小白想学平面设计，但是苦于不知从何处入门、怎么样去学。究竟怎样系统学习平面设计？今天就来谈谈平面设计系统学习的方法。更多学习设计内容关注V公众号广告设计之站了解平面设计平面设计是以“视觉”作为沟通和表现的方式，通过文字、图片等媒介有机结合，借此表达视觉上的讯息。平面设计的分类有很多，如：名片设计、标志设计、字体设计、VI视觉形象设计等等。所以设计师要掌握字体排印、视觉艺术、版面、电脑软件等
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
API开发全攻略：从入门到精通的企业级API架构与实战 Android洋芋架构 API设计 RESTful API 微服务架构实战案例
简介API开发已成为现代软件架构的核心能力，掌握API设计与实现技术能显著提升开发效率和系统可扩展性。本文将从零开始，全面解析API的基础概念、架构设计、安全认证、性能优化等关键技术点，并提供完整的Python和Go语言代码实战示例，帮助开发者构建高性能、可扩展的企业级API系统。本文旨在为初学者和进阶开发者提供一份全面的API开发指南。内容涵盖API的基础概念、类型分类、架构设计、安全认证、性能
【Python篇】Python基础——08day.面向对象编程中类和对象的基本概念及属性和方法的常见分类和使用场景 WXX_s python基础篇 python 分类开发语言学习
目录前言一、类和对象1.类→Class1.1概念1.2创建2.对象→Object2.1概念2.2创建二、属性和方法1.实例属性2.实例方法3.类属性4.类方法5.静态方法5.1综合应用6.构造方法7.初始化方法8.魔术方法8.1常用方法8.2案例参考总结前言这章讲的面向对象编程（Object-OrientedProgramming，简称OOP）是一种通过组织对象来设计程序的编程方法。为什么需要类和
C语言：第11天笔记 Star在努力 c语言笔记开发语言
C语言：第11天笔记内容提要函数函数的概述函数的分类函数的定义形参和实参函数的返回值函数的调用函数的声明函数函数的概述**函数：**实现一定功能的，独立的代码模块，对于函数的使用，一定是先定义，后使用。使用函数的优势：①我们可以通过函数提供功能给别人使用。当然我们也可以使用别人提供的函数，减少代码量。②借助函数可以减少重复性的代码。③实现结构化（模块化：C语言中的模块化其实就是多文件+函数）程序设
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
281129-李晏林-2022/10/6【day2】尘心_aa8c
总目标是什么？总目标是什么最近3年的成为销售高手要具备的能务：销售主手的标准：1、超强的执行力，2、见客户的胆量3、口才4、分析问题的能务5、推荐产品的话术、6做增值服务的能务7、谈判的能务8、解决客种宊发问题的能力9、控制心态的能力、10、送小礼物的能务关键词：胆量、口才、分析问题、产品话术、小礼物、增值服务、谈判、突发问题、控制心态执行力。以上是成为销售高手的关键能力。汇总分类：心态：目标细分
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
阿里云天池-学习笔记（7.22） 2301_81822737 深度学习
概念的初步认识和学习一、损失函数损失函数是衡量模型预测值与真实值之间差异的一个量度，通过最小化这个差异来优化模型的参数。损失函数的选择直接影响到模型的训练效果和最终性能。二、one-hot编码one-hot编码使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候其中只有一位有效（即为1，其余为0）。具体来说，对于每个分类变量，都会为其分配一个唯一的二进制位，并使用该
用 K-means 算法实现水果分堆 wh_xia_jun AI+医疗算法 kmeans 机器学习
先看运行效果：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeans#生成模拟数据（两个高斯分布的混合点集）np.random.seed(42)X1=np.random.randn(100,2)+np.array([2,2])#第一簇数据，中心在(2,2)X2=np.random.randn(100,2)
BSCAN 在糖尿病患者数据聚类分析中的应用 wh_xia_jun AI+医疗机器学习支持向量机人工智能
完整代码：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANfromsklearn.preprocessingimportStandardScalerfromsklearn.datasetsimportmake_blobs#设置随机种子，确保结果可复现np.random.seed(42)#1.生成模拟
Linux系统编程（六）线程同步、互斥机制小仇学长 Linux linux 线程互斥锁信号量
本文目录前述：同步机制的引入及概念一、互斥锁1.定义2.互斥锁常用方法3.相关函数（1）头文件（2）创建互斥锁（3）销毁互斥锁（4）加锁（5）解锁4.使用例程二、条件变量1.相关函数（1）创建条件变量（2）注销条件变量（3）等待条件变量成立（4）条件变量激发（使条件变量成立）2.使用注意3.使用例程三、信号灯1.分类2.信号灯操作3.相关函数4.使用例程四、原子操作（内核层）1.优势2.常用的原子
线程安全之乐观锁和悲观锁
锁可以从不同的⻆度分类。其中，乐观锁和悲观锁是⼀种分类⽅式。悲观锁：悲观锁就是我们常说的锁。对于悲观锁来说，它总是认为每次访问共享资源时会发⽣冲突，所以必须对每次数据操作加上锁，以保证临界区的程序同⼀时间只能有⼀个线程在执⾏。乐观锁：乐观锁⼜称为“⽆锁”，顾名思义，它是乐观派。乐观锁总是假设对共享资源的访问没有冲突，线程可以不停地执⾏，⽆需加锁也⽆需等待。⽽⼀旦多个线程发⽣冲突，乐观锁通常是使⽤⼀
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
OSPF知识之凹の鸥网络智能路由器
在网络工程师、系统工程师等岗位的面试中，OSPF（OpenShortestPathFirst，开放最短路径优先）是高频考点，尤其是对中高级网络岗位（如网络架构师、运维工程师）。以下是OSPF的核心考点和必须掌握的知识点，按优先级分类整理，帮助你高效备考：一、基础概念与核心机制OSPF的定义与特点定义：OSPF是一种基于链路状态（Link-State）的内部网关协议（IGP），用于在自治系统（AS）
分类模型（BERT）训练全流程巴伦是只猫人工智能分类 bert 数据挖掘
使用BERT实现分类模型的完整训练流程BERT(BidirectionalEncoderRepresentationsfromTransformers)是一种强大的预训练语言模型，在各种NLP任务中表现出色。下面我将详细梳理使用BERT实现文本分类模型的完整训练过程。1.准备工作1.1环境配置pipinstalltransformerstorchtensorflowpandassklearn1.2
【Android】UI布局工具及详解米莱虾 #Android ui android
ViewGroup1.简介ViewGroup是一种View，他是View容器，也就是里边可以包含其他View.分类：（1）layout布局类的ViewGroup（2）ScrollView带滚动条的ViewGroup（3）高级View容器（适配器View）（4）其他ViewGroup2.布局类的ViewGroup布局类的容器主要是用来控制子元素的排布方式和排列位置分类：（1）线性布局（2）相对布局（
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
macOS 上安装 Kubernetes（k8s）老兵发新帖 macos kubernetes 容器
在macOS上安装Kubernetes（k8s）主要有三种主流方案，以下根据安装复杂度、资源占用和适用场景分类说明，并附详细步骤：⚙️一、推荐方案：Minikube（单节点本地集群）适用场景：学习、开发测试、资源有限（需2-4GB内存）。安装步骤：安装依赖工具安装DockerDesktop（推荐）或VirtualBox：brewinstall--caskdocker或brewinstallvirt
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
草莓叶片病害识别与分类数据集 qq_38220914 分类数据挖掘人工智能
草莓作为一种重要的经济作物，在全球范围内广泛种植。然而，草莓生产过程中常常受到各种病害的困扰，其中叶片病害尤为严重。为了有效识别、检测和分类草莓叶片病害，构建一个高质量的数据集是至关重要的。本文介绍了一个针对草莓叶片病害识别检测与分类的数据集，该数据集涵盖了多种草莓叶片病害类型，包括白粉病、灰霉病、炭疽病、蛇眼病、叶斑病、黄萎病和根腐病。数据集构建过程中，采用了严格的图像采集、标注和预处理流程，确
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
植物病害识别：YOLO甘蔗叶片病害识别分类数据集
YOLO甘蔗叶片病害识别数据集,包含尾孢菌叶斑病，眼斑病，健康，红腐病，锈病，黄叶病6个常见病类别，3300多张图像，yolo标注完整，全部原始图像，应用数据增强。适用于CV项目，毕设，科研，实验等需要此数据集或其他任何数据集请私信
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj