ourkix

从零开始实现神经网络(二)_CNN卷积神经网络

参考文章:

介绍卷积神经网络1

介绍卷积神经网络2

在过去的几年里，关于卷积神经网络（CNN）的讨论很多，特别是因为它们彻底改变了计算机视觉领域。在这篇文章中，我们将建立在神经网络的基本背景知识的基础上，探索什么是 CNN，了解它们是如何工作的，并在 Python 中从头开始（仅使用 numpy）构建一个真正的 CNN。

一、目的

CNN 的一个经典用例是执行图像分类，例如查看宠物的图像并确定它是猫还是狗。这是一项看似简单的任务——为什么不直接使用普通的神经网络呢？

问得好。

原因1：图像很大

如今，用于计算机视觉问题的图像通常是 224x224 或更大。想象一下，构建一个神经网络来处理 224x224 彩色图像：包括图像中的 3 个颜色通道（RGB），结果是 224 x 224 x 3 = 150,528 个输入特征！在这样的网络中，一个典型的隐藏层可能有 1024 个节点，因此我们必须单独训练第一层的 150,528 x 1024 = 150+ 百万权重。我们的网络将是巨大的，几乎不可能训练。

我们也不是需要那么多砝码。图像的好处在于，我们知道像素在其邻居的上下文中最有用。图像中的对象由小的局部特征组成，例如眼睛的圆形虹膜或一张纸的方角。第一个隐藏层中的每个节点查看每个像素似乎不是很浪费吗？

原因 2：物体位置可能会发生变化

如果你训练了一个网络来检测狗，你会希望它能够检测一只狗，而不管它出现在图像中的哪个位置。想象一下，训练一个网络，该网络在某个狗图像上运行良好，然后向它提供同一图像的略微偏移版本。狗不会激活相同的神经元，因此网络的反应会完全不同！

我们很快就会看到CNN如何帮助我们缓解这些问题。

二. 数据集

在这篇文章中，我们将解决计算机视觉的“Hello， World！”：MNIST手写数字分类问题。这很简单：给定一张图像，将其归类为数字。

来自 MNIST 数据集的示例图像

MNIST数据集下载地址：点击下载

MNIST 数据集中的每张图像都是 28x28 的，并包含一个居中的灰度数字。

说实话，一个普通的神经网络实际上可以很好地解决这个问题。您可以将每个图像视为一个 28 x 28 = 784 维的矢量，将其馈送到 784 度的输入层，堆叠一些隐藏层，最后形成一个包含 10 个节点的输出层，每个数字 1 个。

这只会起作用，因为 MNIST 数据集包含居中的小图像，因此我们不会遇到上述大小或移动问题。然而，请记住，在这篇文章的整个过程中，大多数现实世界的图像分类问题并不是那么容易。

足够的积累。让我们进入CNN吧！

三. 卷积

什么是卷积神经网络？

它们基本上只是使用卷积层的神经网络，也就是Conv 层，它基于卷积(将被卷积对象的值对y轴翻转，右移，与卷积对象进行上下相乘求和所得到的一个结果)的数学运算。Conv 层由一组过滤器组成，您可以将其视为数字的 2D 矩阵。下面是一个 3x3 的过滤器示例：

我们可以使用输入图像和过滤器通过将过滤器与输入图像进行卷积来生成输出图像。这包括

将滤镜叠加在图像顶部的某个位置。
在过滤器中的值与其在图像中的相应值之间执行元素乘法。
对所有元素进行求和，此总和是输出图像中目标像素的输出值。
对所有位置重复上述步骤。

旁注：从技术上讲，我们（以及许多CNN实现）实际上在这里使用互相关而不是卷积，但它们几乎做同样的事情。我不会在这篇文章中讨论其中的区别，因为它并不那么重要，但如果您好奇，请随时查找。

这个 4 步描述有点抽象，所以让我们举个例子。考虑这个小的 4x4 灰度图像和这个 3x3 过滤器：

4x4 图像（左）和 3x3 滤镜（右）

图像中的数字表示像素强度，其中 0 表示黑色，255 表示白色。我们将对输入图像和过滤器进行卷积，以生成 2x2 的输出图像：

2x2 输出图像

首先，让我们在图像的左上角叠加我们的过滤器：

第 1 步：将过滤器（右）叠加在图像（左）的顶部

接下来，我们在重叠的图像值和过滤器值之间执行元素乘法。以下是结果，从左上角开始，向右走，然后向下走：

图像值	过滤器值	结果
0	-1	0
50	0	0
0	1	0
0	-2	0
80	0	0
31	2	62
33	-1	-33
90	0	0
0	1	0

第 2 步：执行元素乘法。

接下来，我们对所有结果进行相加。这很简单： 62−33=29

最后，我们将结果放在输出图像的目标像素中。由于我们的过滤器覆盖在输入图像的左上角，因此我们的目标像素是输出图像的左上角像素：

我们将如此重复对所有像素做同样的操作，如下:

3.1 这有什么用？

让我们缩小一秒钟，在更高的层面上看到这一点。使用滤镜对图像进行卷积有什么作用？我们可以从使用我们一直在使用的示例 3x3 滤波器开始，它通常称为垂直 Sobel 滤波器：

立式 Sobel 过滤器

下面是垂直 Sobel 过滤器的示例：

使用垂直 Sobel 滤波器卷积的图像

同样，还有一个水平 Sobel 过滤器：

使用水平 Sobel 滤波器卷积的图像

看看发生了什么？Sobel 滤波器是边缘检测器。垂直 Sobel 滤波器检测垂直边缘，水平 Sobel 滤波器检测水平边缘。输出图像现在很容易解释：输出图像中的明亮像素（具有高值的像素）表明原始图像周围有很强的边缘。

您能理解为什么边缘检测图像可能比原始图像更有用吗？回想一下我们的MNIST手写数字分类问题。例如，在MNIST上训练的CNN可能会通过使用边缘检测过滤器并检查图像中心附近的两个突出的垂直边缘来查找数字1。一般来说，卷积可以帮助我们寻找特定的局部图像特征（如边缘），以便我们稍后在网络中使用。

3.2 填充

还记得之前使用 4x4 滤波器对 3x3 输入图像进行卷积以生成 2x2 输出图像吗？通常，我们更希望输出图像的大小与输入图像的大小相同。为此，我们在图像周围添加零，以便我们可以在更多位置叠加滤镜。3x3 滤镜需要 1 像素的填充：

这称为“相同”填充，因为输入和输出具有相同的尺寸。不使用任何填充，这是我们一直在做的，，有时被称为“有效”填充。

3.3 转换层

现在我们知道了图像卷积的工作原理以及它为什么有用，让我们看看它在 CNN 中的实际使用方式。如前所述，CNN 包括使用一组过滤器将输入图像转换为输出图像的卷积层。转换层的主要参数是它所拥有的过滤器数量。

对于我们的 MNIST CNN，我们将使用一个带有 8 个过滤器的小型转换层作为我们网络中的初始层。这意味着它会将 28x28 的输入图像转换为 26x26x8 的输出体积：

提醒：输出是 26x26x8，而不是 28x28x8，因为我们使用的是有效的填充，这会将输入的宽度和高度减少 2。

conv 层中的 8 个过滤器中的每一个都产生 26x26 的输出，因此它们堆叠在一起构成了一个 26x26x8 的体积。所有这一切的发生都是因为 3×3 （过滤器尺寸）×8（过滤器数量）= 只有 72 个权重！

3.4 实现卷积

是时候将我们学到的知识融入代码了！我们将实现一个 conv 层的前馈部分，该部分负责将过滤器与输入图像进行卷积以生成输出体积。为简单起见，我们假设过滤器始终是 3x3（事实并非如此 - 5x5 和 7x7 过滤器也很常见）。

让我们开始实现一个 conv 层类：

该类只接受一个参数：过滤器的数量。在构造函数中，我们存储过滤器的数量并使用 NumPy 的 randn（）方法初始化一个随机过滤器数组。Conv3x3

注意：在初始化期间，除以 9 比您想象的更重要。如果初始值过大或过小，则训练网络将无效。要了解更多信息，请阅读 Xavier 初始化。

class Conv3x3:
  # A Convolution layer using 3x3 filters.

  def __init__(self, num_filters):
    self.num_filters = num_filters

    # filters is a 3d array with dimensions (num_filters, 3, 3)
    # We divide by 9 to reduce the variance of our initial values
    self.filters = np.random.randn(num_filters, 3, 3) / 9


  def iterate_regions(self, image):
    '''
    Generates all possible 3x3 image regions using valid padding.
    - image is a 2d numpy array
    '''
    h, w = image.shape

    for i in range(h - 2):
      for j in range(w - 2):
        im_region = image[i:(i + 3), j:(j + 3)]
        yield im_region, i, j

  def forward(self, input):
    '''
    Performs a forward pass of the conv layer using the given input.
    Returns a 3d numpy array with dimensions (h, w, num_filters).
    - input is a 2d numpy array
    '''
    input = np.reshape(input, (28, 28))
    self.last_input = input
    h, w = input.shape
    output = np.zeros((h - 2, w - 2, self.num_filters))

    for im_region, i, j in self.iterate_regions(input):
      output[i, j] = np.sum(im_region * self.filters, axis=(1, 2))

    return output


  def backprop(self, d_L_d_out, learn_rate):
    '''
    Performs a backward pass of the conv layer.
    - d_L_d_out is the loss gradient for this layer's outputs.
    - learn_rate is a float.
    '''
    # 初始化一个与滤波器同形状的零数组，用于存储损失函数关于滤波器的梯度。
    d_L_d_filters = np.zeros(self.filters.shape)

    # 这一行是在遍历输入图像的每个区域
    for im_region, i, j in self.iterate_regions(self.last_input):
      # 这一行是在遍历每个滤波器。
      for f in range(self.num_filters):
        #  这一行计算损失函数关于滤波器的梯度。d_L_d_out[i, j, f] 
        # 是损失函数关于卷积层输出的梯度，im_region 是输入图像的一个区域。
        # 它们的乘积就是损失函数关于滤波器的梯度，然后累加
        d_L_d_filters[f] += d_L_d_out[i, j, f] * im_region
        #遍历整个图像，将其区域乘以dldout的对应ij元素，并全部累加起来，得出就是一个卷积核大小的东西
    # Update filters
    self.filters -= learn_rate * d_L_d_filters

    # We aren't returning anything here since we use Conv3x3 as
    # the first layer in our CNN. Otherwise, we'd need to return
    # the loss gradient for this layer's inputs, just like every
    # other layer in our CNN.
    return None

iterate_regions()是一种辅助生成器方法，可为我们生成所有有效的 3x3 图像区域。这对于反向传播算法部分很有用。

output[i, j] = np.sum(im_region * self.filters, axis=(1, 2))

实际执行卷积的代码。让我们分解一下：

我们有一个包含相关图像区域的 3x3 数组。im_region
我们有一个 3d 数组。self.filters
我们这样做，它使用 numpy 的广播功能将两个数组逐个元素相乘。结果是与3D 数组的维数相同。im_region * self.filtersself.filters
np.sum（），它生成一个长度为 1d 数组，其中每个元素都包含相应滤波器的卷积结果。axis=(1, 2)num_filters
我们将结果分配给输出，它包含输出中像素的卷积结果。output[i, j](i, j)

对输出中的每个像素执行上述，直到我们获得最终的输出体积！让我们对代码进行测试运行：

from mnist import MNIST


#需要将文件解压到固定目录 名称为 t10k-images-idx3-ubyte t10k-lables-idx1-ubyte tran-images-idx3-ubyte  tran-lables-idx1-ubyte ，我是将4个文件文件放到此目录下的C:/Users/Thomas/Desktop/mnistDate
mndata = MNIST('C:/Users/Thomas/Desktop/mnistDate')
train_images, train_labels = mndata.load_training()
test_images, test_labels = mndata.load_testing()



conv = Conv3x3(8)
output = conv.forward(train_images[0])
print(output.shape) # (26, 26, 8)

到目前为止看起来不错。

注意：在我们的实现中，为了简单起见，我们假设输入是一个 2d numpy 数组，因为这就是我们的 MNIST 图像的存储方式。这对我们有用，因为我们将其用作网络中的第一层，但大多数 CNN 都有更多的 Conv 层。如果我们要构建一个需要多次使用的更大网络，我们必须使输入是一个 3d numpy 数组。Conv3x3

四. 池化

图像中的相邻像素往往具有相似的值，因此卷积图层通常也会为输出中的相邻像素生成相似的值。因此，conv 层输出中包含的大部分信息都是冗余的。例如，如果我们使用边缘检测滤波器并在某个位置找到一条强边缘，那么我们很可能还会在从原始位置偏移 1 个像素的位置找到相对较强的边缘。然而，这些都是相同的优势！我们没有发现任何新东西。

池化层解决了这个问题。他们所做的只是通过（你猜对了）在输入中将值汇集在一起来减少输入的大小。池化通常通过简单的操作（max min average）完成。以下是池化大小为 2 的 Max Pooling 图层的示例：

为了执行最大池化，我们以 2x2 块遍历输入图像（因为池大小 = 2），并将最大值放入输出图像的相应像素处。就是这样！

池化将输入的宽度和高度除以池大小。对于我们的 MNIST CNN，我们将在初始 conv 层之后放置一个池大小为 2 的 Max Pooling 层。池化层会将 26x26x8 的输入转换为 13x13x8 的输出：

4.1 实现池化

我们将使用与上一节中的 conv 类相同的方法实现一个类：MaxPool2

class MaxPool2:
  # A Max Pooling layer using a pool size of 2.

  def iterate_regions(self, image):
    '''
    Generates non-overlapping 2x2 image regions to pool over.
    - image is a 2d numpy array
    '''
    h, w, _ = image.shape
    new_h = h // 2
    new_w = w // 2

    for i in range(new_h):
      for j in range(new_w):
        im_region = image[(i * 2):(i * 2 + 2), (j * 2):(j * 2 + 2)]
        yield im_region, i, j

  def forward(self, input):
    '''
    Performs a forward pass of the maxpool layer using the given input.
    Returns a 3d numpy array with dimensions (h / 2, w / 2, num_filters).
    - input is a 3d numpy array with dimensions (h, w, num_filters)
    '''
    self.last_input = input

    h, w, num_filters = input.shape
    
    output = np.zeros((h // 2, w // 2, num_filters))

    for im_region, i, j in self.iterate_regions(input):
      output[i, j] = np.amax(im_region, axis=(0, 1))

    return output

  def backprop(self, d_L_d_out):
    '''
    Performs a backward pass of the maxpool layer.
    Returns the loss gradient for this layer's inputs.
    - d_L_d_out is the loss gradient for this layer's outputs.
    '''
    # 将池化前的形状拿出来，全部设置为零
    d_L_d_input = np.zeros(self.last_input.shape)

    # 这一行是在遍历输入图像的每个池化区域
    for im_region, i, j in self.iterate_regions(self.last_input):
      # 获取每个池化区域的高度 h、宽度 w 和过滤器数量 f。
      h, w, f = im_region.shape
      # 计算每个过滤器的最大值。
      amax = np.amax(im_region, axis=(0, 1))

      # 找到最大值保留下来
      for i2 in range(h):
        for j2 in range(w):
          for f2 in range(f):
            # If this pixel was the max value, copy the gradient to it.
            if im_region[i2, j2, f2] == amax[f2]:
              d_L_d_input[i * 2 + i2, j * 2 + j2, f2] = d_L_d_out[i, j, f2]

    return d_L_d_input

这个类的工作方式与我们之前实现的类类似。

关键代码：

output[i, j] = np.amax(im_region, axis=(0, 1))

为了从给定的图像区域中找到最大值，我们使用 np.amax（），numpy 的数组 max 方法。我们之所以设置，是因为我们只想在前两个维度（高度和宽度）上最大化，而不是第三个维度。Conv3x3 axis=(0, 1) num_filters

让我们来测试一下吧！

from mnist import MNIST


#需要将文件解压到固定目录 名称为 t10k-images-idx3-ubyte t10k-lables-idx1-ubyte tran-images-idx3-ubyte  tran-lables-idx1-ubyte ，我是将4个文件文件放到此目录下的C:/Users/Thomas/Desktop/mnistDate
mndata = MNIST('C:/Users/Thomas/Desktop/mnistDate')
train_images, train_labels = mndata.load_training()
test_images, test_labels = mndata.load_testing()


conv = Conv3x3(8)
pool = MaxPool2()

output = conv.forward(train_images[0])
output = pool.forward(output)
print(output.shape) # (13, 13, 8)

五. Softmax(软最大化)

为了完成我们的CNN，我们需要赋予它实际进行预测的能力。为此，我们将使用标准的最后一层来解决多类分类问题：Softmax 层，这是一个使用 Softmax 函数作为其激活函数的全连接（密集）层。

提醒：全连接层的每个节点都连接到前一层的每个输出。如果你需要复习一下，我们在神经网络简介中使用了全连接层。

5.1Softmax介绍

如果您以前没有听说过 Softmax，这里详细说下：

Softmax 是将任意实数值转换为概率，这在机器学习中通常很有用。它背后的数学原理非常简单：

给定一些数字，

将我们的数字（假设数字为x）变为 e的x次幂。如：数字2，变化后就成了 $e^{2}$ .
将所有指数（的幂)进行相加，作为分母。
使用每个数字的幂作为其分子。因为会算出每个值所占概率（这里的概率，数字越大概率越高），所以会轮询计算x1、x2到xn
概率 = 分子除以分母

公式如下：

s(xi)表示softmax函数，参数xi（是你要算的某个值占据的概率），正常情况会带入x1-xn逐一计算

$e^{xi}$ 表示某个值（xi）的e的xi次方

$\sum ^{n}_{j=1}e^{xj}$ 表示将你要计算的所有值的e的（值）次方，全部进行相加求和，

展开了写就是 $e^{x1}+e^{x2}+e^{x3}+.....+e^{xn}$

Softmax 变换的输出始终在[0,1]区间内，并加起来等于 1。因此，它们形成了概率分布。

5.2softmax简单的例子

假设我们有数字 -1、0、3 和 5。

首先，我们计算分母：

分母 $=e^{-1}+e^{0}+e^{3}+e^{5}$

然后我们就能计算每个数字所占的概率了：

x	分子 ( $e^{x}$ )	概率 ( $\frac{e^{x}}{169.87}$ )
-1	$e^{-1}$ = 0.368	0.002
0	$e^{0}$ = 1	0.006
3	$e^{3}$ = 20.09	0.118
5	$e^{5}$ = 148.41	0.874

较大的x值会有更高的概率，而且这些所有概率加起来为1.

5.3softmax编程实例

import numpy as np

def softmax(xs):
    return np.exp(xs) / sum(np.exp(xs))

xs = np.array([-1, 0, 3, 5])
print(softmax(xs)) # [0.0021657, 0.00588697, 0.11824302, 0.87370431]

5.4为什么 Softmax 有用？

想象一下，构建一个神经网络来回答这个问题：这张照片是狗还是猫？

这个神经网络的常见设计是让它输出 2 个实数，一个代表狗，另一个代表猫，并对这些值应用 Softmax。例如，假设网络输出[−1,2]

动物	x	$e^{x}$	概率
狗	-1	0.368	0.047
猫	2	7.39	0.953

这意味着我们的网络有 95.3% 的置信度认为这张照片是一只猫。Softmax 允许我们用概率来回答分类问题，这比更简单的答案（例如二元是/否）更有用。

5.5 用法

我们将使用一个具有 10 个节点的 softmax 层，每个节点代表一个数字，作为 CNN 的最后一层。层中的每个节点都将连接到每个输入。应用softmax变换后，概率最高的节点所表示的数字将是CNN的输出！

5.6 交叉熵损失

您可能会想，为什么要费心将输出转换为概率？输出最大的值不是总是有最大的概率吗？如果你这么认为，你绝对是正确的。我们实际上不需要使用 softmax 来预测数字 - 我们可以从网络中选择输出最大的数字！

softmax真正的作用是帮助我们量化我们对预测的确定性，这在训练和评估我们的CNN时很有用。更具体地说，使用 softmax 可以让我们使用交叉熵损失，它考虑了我们对每个预测的确定性。

什么事交叉熵呢？是香农信息论中一个重要概念，主要用于度量两个概率分布间的差异性信息。

以下是我们计算交叉熵损失的方法：

$L= -ln(P_{c})$

L是损失函数，前面我们用的是均方误差顺势函数，这里用交叉熵函数。Pc是正确的类的概率（例子中，代表正确的数字的概率），和之前一样这个损失函数输出的值越低越好，例如：

$P_{c} = 1 , L = -ln(1)= 0$

更现实一点，概率可能会是Pc = 0.8,

$P_{c} = 0.8, L = -ln(0.8)= 0.223$

5.7softmax算法实现

让我们实现softmax层的类


class Softmax:
  # A standard fully-connected layer with softmax activation.

  def __init__(self, input_len, nodes):
    # We divide by input_len to reduce the variance of our initial values
    self.weights = np.random.randn(input_len, nodes) / input_len
    self.biases = np.zeros(nodes)

  def forward(self, input):
    '''
    Performs a forward pass of the softmax layer using the given input.
    Returns a 1d numpy array containing the respective probability values.
    - input can be any array with any dimensions.
    '''
    self.last_input_shape = input.shape

    input = input.flatten()

    self.last_input = input

    input_len, nodes = self.weights.shape

    #这里求出来是一个nodes个数的向量
    totals = np.dot(input, self.weights) + self.biases
    self.last_totals = totals
    #对每个向量进行求e的指数
    exp = np.exp(totals)
    #将求得的值，求和，然后一次求得softmax激活函数的值，形成nodes个向量
    return exp / np.sum(exp, axis=0)

  def backprop(self, d_L_d_out, learn_rate):
    '''
    Performs a backward pass of the softmax layer.
    Returns the loss gradient for this layer's inputs.
    - d_L_d_out is the loss gradient for this layer's outputs.
    '''
    # We know only 1 element of d_L_d_out will be nonzero
    for i, gradient in enumerate(d_L_d_out):
      if gradient == 0:
        continue

      # e^totals
      t_exp = np.exp(self.last_totals)

      # Sum of all e^totals
      S = np.sum(t_exp)

      # Gradients of out[i] against totals
      #选出非零的（也就是类是正确的），求得全为零的倒数，求得正确类的倒数
      d_out_d_t = -t_exp[i] * t_exp / (S ** 2)
      d_out_d_t[i] = t_exp[i] * (S - t_exp[i]) / (S ** 2)

      # Gradients of totals against weights/biases/input
      d_t_d_w = self.last_input
      d_t_d_b = 1
      d_t_d_inputs = self.weights
      # Gradients of loss against totals
      d_L_d_t = gradient * d_out_d_t
      # Gradients of loss against weights/biases/input
      d_L_d_w = d_t_d_w[np.newaxis].T @ d_L_d_t[np.newaxis]
      d_L_d_b = d_L_d_t * d_t_d_b
      d_L_d_inputs = d_t_d_inputs @ d_L_d_t

      # Update weights / biases
      self.weights -= learn_rate * d_L_d_w
      self.biases -= learn_rate * d_L_d_b
      return d_L_d_inputs.reshape(self.last_input_shape)

input.flatten() 输入扁平化以使其更易于使用，因为我们不再需要它的形状。
np.dot() 逐个元素相乘，然后对结果求和。
np.exp() 计算用于 Softmax 的指数。

我们现在已经完成了 CNN 的整个前向传递！把它放在一起：

import mnist
import numpy as np
from conv import Conv3x3
from maxpool import MaxPool2
from softmax import Softmax

# We only use the first 1k testing examples (out of 10k total)
# in the interest of time. Feel free to change this if you want.
test_images = mnist.test_images()[:1000]
test_labels = mnist.test_labels()[:1000]

conv = Conv3x3(8)                  # 28x28x1 -> 26x26x8
pool = MaxPool2()                  # 26x26x8 -> 13x13x8
softmax = Softmax(13 * 13 * 8, 10) # 13x13x8 -> 10

def forward(image, label):
  '''
  Completes a forward pass of the CNN and calculates the accuracy and
  cross-entropy loss.
  - image is a 2d numpy array
  - label is a digit
  '''
  # We transform the image from [0, 255] to [-0.5, 0.5] to make it easier
  # to work with. This is standard practice.
  out = conv.forward((image / 255) - 0.5)
  out = pool.forward(out)
  out = softmax.forward(out)

  # Calculate cross-entropy loss and accuracy. np.log() is the natural log.
  loss = -np.log(out[label])
  acc = 1 if np.argmax(out) == label else 0

  return out, loss, acc

print('MNIST CNN initialized!')

loss = 0
num_correct = 0
for i, (im, label) in enumerate(zip(test_images, test_labels)):
  # Do a forward pass.
  _, l, acc = forward(im, label)
  loss += l
  num_correct += acc

  # Print stats every 100 steps.
  if i % 100 == 99:
    print(
      '[Step %d] Past 100 steps: Average Loss %.3f | Accuracy: %d%%' %
      (i + 1, loss / 100, num_correct)
    )
    loss = 0
    num_correct = 0

运行得出了类似于以下内容：

MNIST CNN initialized!
[Step 100] Past 100 steps: Average Loss 2.302 | Accuracy: 11%
[Step 200] Past 100 steps: Average Loss 2.302 | Accuracy: 8%
[Step 300] Past 100 steps: Average Loss 2.302 | Accuracy: 3%
[Step 400] Past 100 steps: Average Loss 2.302 | Accuracy: 12%

通过随机权重初始化，你会期望CNN只和随机猜测一样好。随机猜测将产生 10% 的准确率（因为有 10 个类）

这就是我们得到的！

六. 训练CNN介绍

训练神经网络通常包括两个阶段：

前向传播，输入完全通过网络传递。
后向传播，反向传播并更新权重。

我们将遵循此模式来训练我们的 CNN。我们还将使用两个特定的方法：

在前向传播，每一层都将缓存后向阶段所需的任何数据（如输入、中间值等）。这意味着任何后向传播之前都必须有相应的正向传播。
在后退阶段，每一层将接收一个梯度，并返回一个梯度。它将收到相对于其输出的损失梯度 ( $\frac{\partial L}{\partial out}$ ），并返回相对于其输入的损失梯度 ( $\frac{\partial L}{\partial in}$ ).

这两个方法将有助于我们的训练整洁有序。了解原因的最好方法可能是查看代码。训练我们的 CNN 最终将如下所示：

# Feed forward
out = conv.forward((image / 255) - 0.5)
out = pool.forward(out)
out = softmax.forward(out)

# Calculate initial gradient
gradient = np.zeros(10)
# ...

# Backprop
gradient = softmax.backprop(gradient)
gradient = pool.backprop(gradient)
gradient = conv.backprop(gradient)

看看它，多漂亮啊，现在想象一下，构建一个有 50 层而不是 3 层的网络——这比拥有良好的系统更有价值。

6.1 反向传播：Softmax

我们将从最后开始，从头开始，因为这就是反向传播的工作方式。首先，回想一下交叉熵损失：

$L= -ln(P_{c})$

Pc是正确的类别的预测概率。

我们需要计算的是 Softmax 层反向传播的输入， $\frac{\partial L}{\partial out_{s}}$ ，即损失函数（L）中求得softmax输出( $out_{s}$ )的偏导， $out_{s}$ 是 Softmax 层的输出：10 个概率的向量。下面是损失方程求得的导数（i代表类的遍历，例如，10个类1-10，那么i就从1-10，算出10个结果）：

总损失函数求概率p的偏导数,当 $out_{s}$ 是正确类的概率时， $out_{s}$ =Pc：

$\frac{\partial L}{\partial out_{s}(i)} = \frac{-ln(P_{c})}{\partial Pc} = -\frac{1}{P_{c}}$

代码的实现：

# Calculate initial gradient
gradient = np.zeros(10)
gradient[label] = -1 / out[label]

参考前面5.7softmax算法实现中的forward函数，里面有这三句

self.last_input_shape = input.shape

self.last_input = input

self.last_totals = totals

我们在这里缓存了 3 个对实现反向传播有用的东西：

存储在将其压平之前的形状数据。input.shape
存储压平之后的数据。input
总和，即传递给 softmax 激活的值。

这样一来，我们就可以开始推导反向传播阶段的偏导了。我们已经派生了 Softmax 反向传播的输入 $\frac{\partial L}{\partial out_{s}}$ ：.我们可以使用的一个正确的类，因为由上面的公式可知只有正确的类偏导才是非零.这意味着我们除了 $\partial out_{s}(c)$ 可以忽略一切.

这里我们写出 $out_{s}(c)$ 的表达式:

当时，可以写成

这里为了方便理解，画图说明下各个值所代表的意义,假设有两个类，就会有两个神经元节点，输入为三项：

加权求和：

通过激活函数：

$P1 = \frac{e^{t1}}{\sum ^{n}_{i} e^{ti}}$

$P2 = \frac{e^{t2}}{\sum ^{n}_{i} e^{ti}}$

解释： $\partial out_{s}(c)$ 是正确类的softmax输出的概率，即上面的P1、P2， $e^{tc}$ 是正确的类的加权求和tc的幂，这里的t1、t2就是我们所说的向量，即在进入激活函数之前的值。

为了加深理解，我们用个例子来说明，计算 $\partial out_{s}(c)$ 的表达式，这个即是softmax在正确类时的式子

当softmax()是函数时，假设一共有三个类（x0，x1，x2），x0是正确的类，那么就有softmax(x0),由softmax的公式得出：

$softmax(x_{0}) = \frac{e^{x_{0}}}{e^{x_{0}} + e^{x_{1}} + e^{x_{2}}}$

我们可以将其他看做常数C，这个式子可以写成：

$softmax(x_{0}) = \frac{e^{x_{0}}}{e^{x_{0}} + C}$

那么这里求个导数，后面要用到，我们要对x0求导,设softmax（x0）= f(x0)：

$f(x_{0}) '= [softmax(x_{0}) ]'= [\frac{e^{x_{0}}}{e^{x_{0}} + C}]'$

$[\frac{e^{x_{0}}}{e^{x_{0}} + C}]' = [\frac{e^{x_{0}}}{e^{x_{0}} + C} * \frac{e^{-x_{0}}}{e^{-x_{0}} } ]' = [\frac{1}{C*e^{-x_{0}} +1 } ]'$

用除法求导法则得：

$= \frac{e^{x_{0}}}{C+e^{x_{0}} } * \frac{C}{C+e^{x_{0}} }$

$= \frac{e^{x_{0}}}{C+e^{x_{0}} } * (1- \frac{e^{x_{0}}}{C+e^{x_{0}} })$

$= f(x_{0}) * (1-f(x_{0}))$

用另一种方法来求导数：

我们要求得的是输入到 $out_{s}(c)$ 函数的向量，假设这里tc为正确的向量，实际情况中tc为一个常数，我为了区分写成代号，我们设要求的变量为tk，那么我们要求的导数就是上面例子所提到的向量t1、t2的趋势，如下：

那么当神经元节点是处于非正确类的时候，我们求得就是非tc的其他向量的导数，我们的导数公式为：

$\frac{\partial out_{s}(c)}{\partial tk}$

由于我们已经知道而S又是

这里直接求导数tk有点难，所以用链式法则，所以详细写出来就成了

$\frac{\partial out_{s}(c)}{\partial tk} = \frac{\partial out_{s}(c)}{\partial S} * \frac{\partial S}{\partial tk}$

这里先求 $\frac{\partial out_{s}(c)}{\partial S}$ ，我们带入上面已知的式子得 $\frac{\partial out_{s}(c)}{\partial S} = \frac{e^{tc}S^{-1}}{\partial S}$ ,这里对S求导， $e^{tc}$ 是常数

所以得 $\frac{\partial out_{s}(c)}{\partial S} = \frac{e^{tc}S^{-1}}{\partial S} = -e^{tc}S^{-2}$

然后求 $\frac{\partial S}{\partial tk}$ ，带入上面的式子得 $\frac{\partial S}{\partial tk} = \frac{\sum ^{n}_{i} e^{ti}}{\partial tk}$ ，这里的 $\partial tk$ 是代表一个变量，是分母求和中的其中一员。为了能够更加清楚的理解，这里展开上面的求和公式得到：

$\frac{\partial S}{\partial tk} = \frac{e^{t1}+e^{t2}+e^{t3}+e^{t4}+\cdot \cdot \cdot e^{tk}+\cdot \cdot \cdot +e^{tn}}{\partial tk}$

解释下，求和是1-n个类别，所以tk就是这n个里面其中一个，对于tk求导，那么除了tk其他的就其实都是常数。

所以求导得： $\frac{\partial S}{\partial tk} = \frac{e^{t1}+e^{t2}+e^{t3}+e^{t4}+\cdot \cdot \cdot e^{tk}+\cdot \cdot \cdot +e^{tn}}{\partial tk} = e^{tk}$

那么结合起来求得在输入是非正确类别时的偏导为， $\frac{\partial out_{s}(c)}{\partial S} = -e^{tc}S^{-2}e^{tk} = \frac{-e^{tc}e^{tk}}{S^{-2}}$

那么当神经元节点是处于正确类的时候，我们求得就是tc的向量的导数，我们的导数公式为：

$\frac{\partial out_{s}(c)}{\partial tc}$ 这里把上面已知式子代入用除法求导公式 $(\frac{u}{v})'=\frac{(u'v-uv')}{v^{2}}$ 展开，

所以这里是直接对 $\frac{e^{tc}}{S}$ 式子对变量tc进行求导： $\frac{\partial out_{s}(c)}{\partial tc} = \frac{e^{tc}S^{-1}}{\partial tc} =\frac{Se^{tc} - e^{tc}\frac{\partial S}{\partial tc}}{S^{2}} =\frac{Se^{tc} - e^{tc}e^{tc}}{S^{2}}=\frac{e^{tc}(S - e^{tc})}{S^{2}}$

这是整篇文章中最难的一点 - 从这里开始只会变得更容易！

整合上面的两种情况，当输入的类k为正确与非正确是，求得向量t的的偏导公式为：

让我们继续前进。我们最终想要损失与权重、偏差和输入的梯度：

我们将使用权重梯度， $\frac{\partial L}{\partial w}$ ，以更新图层的权重。
我们将使用偏差梯度， $\frac{\partial L}{\partial b}$ ，以更新我们图层的偏差。
我们将返回输入梯度， $\frac{\partial L}{\partial input}$ ，从我们的函数中，以便下一层可以使用它。这是我们在“训练”部分讨论的反向传播！backprop()

为了计算这 3 个损失梯度，我们首先需要推导出另外 3 个结果：总量与权重、偏差和输入的梯度。这里的相关等式是：

t=W∗input+b

这些渐变很容易！

把所有东西放在一起：

将其放入代码中就不那么简单了，代码部分见 5.7softmax算法实现 中的backprop()函数

     # Gradients of totals against weights/biases/input
      d_t_d_w = self.last_input
      d_t_d_b = 1
      d_t_d_inputs = self.weights
      # Gradients of loss against totals
      d_L_d_t = gradient * d_out_d_t
      # Gradients of loss against weights/biases/input
      d_L_d_w = d_t_d_w[np.newaxis].T @ d_L_d_t[np.newaxis]
      d_L_d_b = d_L_d_t * d_t_d_b
      d_L_d_inputs = d_t_d_inputs @ d_L_d_t

首先，我们预先计算重复使用的变量，因为我们会多次使用它。然后，我们计算每个梯度：

$\frac{\partial L}{\partial w}$ ：我们需要二维数组来做矩阵乘法（），但是 $\frac{\partial L}{\partial w}$ 和 $\frac{\partial L}{\partial t}$ 是一维数组。np.newaxis 让我们可以轻松创建一个长度为 1 的新轴，因此我们最终将矩阵与维度（input_len， 1）和（1，nodes ）相乘。因此 $\frac{\partial L}{\partial w}$ 最终的结果具有形状（input_len，nodes ）,与self.weights一样
$\frac{\partial L}{\partial b}$ ：这个很简单，因为导数是1。
$\frac{\partial L}{\partial inputs}$ ：我们将矩阵与维数（input_len，nodes ）和（nodes， 1）相乘，得到长度为input_len 的结果。

尝试通过上面计算的小例子，尤其 $\frac{\partial L}{\partial w}$ , $\frac{\partial L}{\partial inputs}$ 矩阵乘法。这是理解正确计算梯度的最佳方法。

计算完所有梯度后，剩下的就是实际训练 Softmax 层了！我们将使用随机梯度下降（SGD）更新权重和偏差，就像我们在神经网络中所做的那样，然后返回： $\frac{\partial L}{\partial inputs}$

请注意，我们添加了一个参数来控制更新权重的速度。此外，我们必须在返回之前这样做，因为我们在前向传递期间扁平化了输入：learn_rate reshape() d_L_d_inputs

      # Update weights / biases
      self.weights -= learn_rate * d_L_d_w
      self.biases -= learn_rate * d_L_d_b
      return d_L_d_inputs.reshape(self.last_input_shape)

6.2Softmax 进行反向传播实例

我们已经完成了第一个 backprop 实现！让我们快速测试一下。我们将开始在文件中实现一个方法：train()

def forward(image, label):
  # Implementation excluded
  # ...

def train(im, label, lr=.005):
  '''
  Completes a full training step on the given image and label.
  Returns the cross-entropy loss and accuracy.
  - image is a 2d numpy array
  - label is a digit
  - lr is the learning rate
  '''
  # Forward
  out, loss, acc = forward(im, label)

  # Calculate initial gradient
  gradient = np.zeros(10)
  gradient[label] = -1 / out[label]

  # Backprop
  gradient = softmax.backprop(gradient, lr)
  # TODO: backprop MaxPool2 layer
  # TODO: backprop Conv3x3 layer

  return loss, acc

print('MNIST CNN initialized!')

# Train!
loss = 0
num_correct = 0
for i, (im, label) in enumerate(zip(train_images, train_labels)):
  if i % 100 == 99:
    print(
      '[Step %d] Past 100 steps: Average Loss %.3f | Accuracy: %d%%' %
      (i + 1, loss / 100, num_correct)
    )
    loss = 0
    num_correct = 0

  l, acc = train(im, label)
  loss += l
  num_correct += acc

运行此命令会得到类似于以下内容的结果：

MNIST CNN initialized!
[Step 100] Past 100 steps: Average Loss 2.239 | Accuracy: 18%
[Step 200] Past 100 steps: Average Loss 2.140 | Accuracy: 32%
[Step 300] Past 100 steps: Average Loss 1.998 | Accuracy: 48%
[Step 400] Past 100 steps: Average Loss 1.861 | Accuracy: 59%
[Step 500] Past 100 steps: Average Loss 1.789 | Accuracy: 56%
[Step 600] Past 100 steps: Average Loss 1.809 | Accuracy: 48%
[Step 700] Past 100 steps: Average Loss 1.718 | Accuracy: 63%
[Step 800] Past 100 steps: Average Loss 1.588 | Accuracy: 69%
[Step 900] Past 100 steps: Average Loss 1.509 | Accuracy: 71%
[Step 1000] Past 100 steps: Average Loss 1.481 | Accuracy: 70%

损失在下降，准确性在上升——我们的 CNN 已经在学习了！

6.3. 反向传播：最大池化 max pooling

Max Pooling 层无法训练，因为它实际上没有任何权重，但我们仍然需要实现一种方法来计算梯度。我们将从再次添加前向传播缓存开始。

这次我们需要缓存的只是输入：详细代码参考 5.7softmax算法实现

class MaxPool2:
  # ...

  def forward(self, input):
    '''
    Performs a forward pass of the maxpool layer using the given input.
    Returns a 3d numpy array with dimensions (h / 2, w / 2, num_filters).
    - input is a 3d numpy array with dimensions (h, w, num_filters)
    '''
    self.last_input = input

    # More implementation
    # ...

在前向传播期间，Max Pooling 图层采用输入体积，并通过选取 2x2 块上的最大值将其宽度和高度尺寸减半。反向传播相反：我们将通过将每个梯度值分配给原始最大值在其相应的 2x2 块中的位置，将损失梯度的宽度和高度加倍。

下面是一个示例。请考虑 Max Pooling 层的以下前向传播：

将 4x4 输入转换为 2x2 输出的前向传播示例

同一层的反向传播如下所示

将 2x2 梯度转换为 4x4 梯度的反向传播示例

每个梯度值都分配给原始最大值所在的位置，其他的每个值均为零。上图就是反向传播后的样子

为什么 Max Pooling 层的后退阶段会这样工作？想想为什么， $\frac{\partial L}{\partial inputs}$ 中输入的像素要是不是其 2x2 块中的最大值，对损失的边际影响为零，因为稍微改变该值根本不会改变输出！换言之， $\frac{\partial L}{\partial inputs} = 0$ 对于非最大像素值来说。另一方面，作为最大值的输入像素会将其值传递到输出，因此 $\frac{\partial output}{\partial input} = 1$ ，所以 $\frac{\partial L}{\partial input} = \frac{\partial L}{\partial output} = \frac{\partial L}{\partial out }$

我们可以使用我们在上面所写的iterate_regions() 方法非常快速地实现。

class MaxPool2:
  # ...

  def iterate_regions(self, image):
    '''
    Generates non-overlapping 2x2 image regions to pool over.
    - image is a 2d numpy array
    '''
    h, w, _ = image.shape
    new_h = h // 2
    new_w = w // 2

    for i in range(new_h):
      for j in range(new_w):
        im_region = image[(i * 2):(i * 2 + 2), (j * 2):(j * 2 + 2)]
        yield im_region, i, j

  def backprop(self, d_L_d_out):
    '''
    Performs a backward pass of the maxpool layer.
    Returns the loss gradient for this layer's inputs.
    - d_L_d_out is the loss gradient for this layer's outputs.
    '''
    d_L_d_input = np.zeros(self.last_input.shape)

    for im_region, i, j in self.iterate_regions(self.last_input):
      h, w, f = im_region.shape
      amax = np.amax(im_region, axis=(0, 1))

      for i2 in range(h):
        for j2 in range(w):
          for f2 in range(f):
            # If this pixel was the max value, copy the gradient to it.
            if im_region[i2, j2, f2] == amax[f2]:
              d_L_d_input[i * 2 + i2, j * 2 + j2, f2] = d_L_d_out[i, j, f2]

    return d_L_d_input

对于每个过滤器中每个 2x2 图像区域中的每个像素，如果它是前向传播期间的最大值，我们将直接把值复制到其原来的对应位置上。

6.4 反向传播：Conv

我们终于来了：通过 Conv 层反向传播是训练 CNN 的核心。

正向传播缓存很简单：

class Conv3x3
  # ...

  def forward(self, input):
    '''
    Performs a forward pass of the conv layer using the given input.
    Returns a 3d numpy array with dimensions (h, w, num_filters).
    - input is a 2d numpy array
    '''
    self.last_input = input

    # More implementation
    # ...

关于我们实现的提醒：为简单起见，我们假设 conv 层的输入是一个 2d 数组。这只适用于我们，因为我们将其用作网络中的第一层。如果我们要构建一个需要多次使用的更大网络，我们必须使输入为3D数组。

我们主要对 conv 层中过滤器的损失梯度感兴趣，因为我们需要它来更新过滤器权重。我们已经有了 $\frac{\partial L}{\partial out }$ 对于 conv 层，所以我们只需要计算 $\frac{\partial out}{\partial filters}$ .为了计算这一点，我们问自己：改变过滤器的权重将如何影响conv层的输出？

现实情况是，更改任何过滤器权重都会影响经过该过滤器的整个输出图像，因为每个输出像素在卷积过程中都会使用每个像素权重。为了更容易考虑这个问题，让我们一次只考虑一个输出像素：修改过滤器将如何改变一个特定输出像素的输出？

这里有一个超级简单的例子来帮助思考这个问题：

我们有一个 3x3 图像，用一个全零的 3x3 过滤器卷积，以产生 1x1 输出。如果我们将中心过滤器的权重增加 1 会怎样？输出将增加中心图像值 80：

同样，将任何其他过滤器权重增加 1 将使输出增加相应图像像素的值！这表明特定输出像素相对于特定过滤器权重的导数只是相应的图像像素值。下面计算将证实这点

我们将其全部整合在一起，用于计算出特定过滤器的权重梯度

为了加深理解，这里详细说明下如何进行卷积的求导操作的：

假设有一张图片的数据(左)如下，有卷积核(右)如下：

那么卷积的结果就是四个值，具体操作步骤如三.卷积中讲述了，

那么假设输入图形的像素值为x1-xn，卷积核的值为w1-wn，

卷积出来的一个像素值表达式可以写成：

所以我们要求过滤器（即卷积核）的某个权重导数就可以表达为：

$\frac{\partial cov}{\partial wi} = xi$

wi表示w1-wn中某个的值,xi表示为x1-xn中某个的值

由于除了你要求的wi的，其他w都是常数，所以最终求得就是xi的值，即是输入的像素值。

那么对于整个卷积核的导数值就是n次计算所得到的相同卷积核大小的一个矩阵了。其值就是原来的图像，即值为x1-xn。

所以公式写成 $\frac{\partial cov}{\partial w} = x$

那么一张图像进行卷积核求导操作就会进行(图像高-2 * 图像宽度-2)*n这么多次卷积求导运算。我们将这么多次运算排成矩阵，就是整张图的卷积求导输出了

这里将上面的表达式 $\frac{\partial cov}{\partial w} = x$ 写成更通俗易懂点 $\frac{\partial cov}{\partial filter} = img$ ,这里的img大小是和卷积核一样大的一个区域，并不是输入的全部原图。

图形的卷积操作可以写成公式: 卷积(img图像，filter卷积核)：

这里的out(i,j)指的是卷积后的输出，是一个值，(i，j)为索引表示某个区域的卷积结果

所以可以写成

(i，j)为索引表示某个区域的卷积结果，而内部的求和0-3，是把3x3卷积核的值进行相加(x,y)是进行遍历3x3中的数值。

那么如上所说的 $\frac{\partial cov}{\partial filter} = img$ ，结合起来就能写为:

这样就清晰明了了吧，某个区块的卷积结果的对卷积核求导得到的是这个区块的原输入图像。

那么我们最终要求的其实是损失对卷积核的权重偏导，用链式法则：

$\frac{\partial L}{\partial filter} = \frac{\partial L}{\partial out} * \frac{\partial out}{\partial filter}$

这里 $\frac{\partial L}{\partial out}$ 我们在池化层已经算出来了，所以结果显而易见了

那么我们理一理， $\frac{\partial out}{\partial filter}$ 的结果是卷积核大小的源输入图像，假设是3x3卷积核。那么结果就是在索引(i,j)位置的3x3大小img。所以要写成 $\frac{\partial out(i,j)}{\partial filter(x,y)}$

而 $\frac{\partial L}{\partial out}$ ,由于out在这里是单独一次卷积得出的单一一个out值，所以写成 $\frac{\partial L}{\partial out(i,j)}$ ,如上面所说out(i,j)是图形卷积后，在out整张图上的(i,j)索引处的一个值。

所以公式写成： $\frac{\partial L}{\partial filter(x,y)} = \frac{\partial L}{\partial out(i,j)} * \frac{\partial out(i,j)}{\partial filter(x,y)}$

求得的就是卷积核上x，y位置的，对应i，j位置的单个输出的卷积梯度。而由于卷积核会在图像滑动进行计算，所以要求出i，j全部的对应的卷积梯度才是这个卷积核x，y对应的梯度。因为它们都源自L函数中，所以我们要将其相加，这样算出来的就是其真正的卷积梯度了。

然而实际上 $\partial out$ 是一个矩阵，我们上面求得的只是其中一个值，所以实际上 $\frac{\partial out}{\partial filter}$ 是一个矩阵， $\frac{\partial L}{\partial out}$ 也是一个矩阵。

这里假设out(i,j),i的范围为0-2，j的范围为0-2，那么矩阵 $\frac{\partial L}{\partial out}$ 就是这样的

$\frac{\partial L}{\partial out} = \begin{bmatrix} \frac{\partial L}{\partial out(0,0)} & \frac{\partial L}{\partial out(0,1)} & \frac{\partial L}{\partial out(0,2)} \\ \frac{\partial L}{\partial out(1,0)} & \frac{\partial L}{\partial out(1,1)} & \frac{\partial L}{\partial out(1,2)} \\ \frac{\partial L}{\partial out(2,0)}& \frac{\partial L}{\partial out(2,1)}& \frac{\partial L}{\partial out(2,2)} \end{bmatrix}$

同理 $\frac{\partial out}{\partial filter}$ 是这样的,x,y值为要求的卷积核的卷积梯度对应的位置,里面的元素就是由上面公式求得的像素值

$\frac{\partial out}{\partial filter(x,y)} =\begin{bmatrix} x_{0+x,0+y} & x_{0+x,1+y} & x_{0+x,2+y} \\ x_{1+x,0+y} & x_{1+x,1+y} & x_{1+x,2+y} \\ x_{2+x,0+y} & x_{2+x,1+y} & x_{2+x,2+y} \end{bmatrix}$

那么我们对两个矩阵进行点乘，即两举证对应位置的元素进行相乘，求得矩阵(这里求得就是卷积核滑动过的所有位置的卷积梯度值的一个集合)

$\frac{\partial L}{\partial filter(x,y)} =\begin{bmatrix} filter_{0+x,0+y} & filter_{0+x,1+y} & filter_{0+x,2+y} \\ filter_{1+x,0+y} & filter_{1+x,1+y} & filter_{1+x,2+y} \\ filter_{2+x,0+y} & filter_{2+x,1+y} & filter_{2+x,2+y} \end{bmatrix}$

因为它们和卷积核的梯度都有关系(是对于像素不同输入的不同结果)，我们把他们相加就得到了卷积核的x，y位置的卷积梯度了。。

总结成公式如下：

至此，所有的反向传播都已经讲解完毕了。

(如果有错误请指出，因为包含了个人的学习理解在里面不一定正确)

下面实现conv的反向传播:

class Conv3x3
  # ...

  def backprop(self, d_L_d_out, learn_rate):
    '''
    Performs a backward pass of the conv layer.
    - d_L_d_out is the loss gradient for this layer's outputs.
    - learn_rate is a float.
    '''
    d_L_d_filters = np.zeros(self.filters.shape)

    for im_region, i, j in self.iterate_regions(self.last_input):
      for f in range(self.num_filters):
        d_L_d_filters[f] += d_L_d_out[i, j, f] * im_region

    # Update filters
    self.filters -= learn_rate * d_L_d_filters

    # We aren't returning anything here since we use Conv3x3 as
    # the first layer in our CNN. Otherwise, we'd need to return
    # the loss gradient for this layer's inputs, just like every
    # other layer in our CNN.
    return None

我们通过遍历每个图像区域/过滤器并逐步构建损失梯度来应用我们推导的方程。一旦我们涵盖了所有内容，我们就会像以前一样使用 SGD随机梯度下降进行更新。

这样，我们就完成了！我们已经通过CNN实现了完整的反向传播。是时候测试一下了......

6. 5训练 CNN

我们将对 CNN 进行几个周期的训练，在训练期间跟踪其进度，然后在单独的测试集上对其进行测试。整个工程的完整代码如下：

import numpy as np
from mnist import MNIST


class Conv3x3:
  # A Convolution layer using 3x3 filters.

  def __init__(self, num_filters):
    self.num_filters = num_filters

    # filters is a 3d array with dimensions (num_filters, 3, 3)
    # We divide by 9 to reduce the variance of our initial values
    self.filters = np.random.randn(num_filters, 3, 3) / 9


  def iterate_regions(self, image):
    '''
    Generates all possible 3x3 image regions using valid padding.
    - image is a 2d numpy array
    '''
    h, w = image.shape

    for i in range(h - 2):
      for j in range(w - 2):
        im_region = image[i:(i + 3), j:(j + 3)]
        yield im_region, i, j

  def forward(self, input):
    '''
    Performs a forward pass of the conv layer using the given input.
    Returns a 3d numpy array with dimensions (h, w, num_filters).
    - input is a 2d numpy array
    '''
    input = np.reshape(input, (28, 28))
    self.last_input = input
    h, w = input.shape
    output = np.zeros((h - 2, w - 2, self.num_filters))

    for im_region, i, j in self.iterate_regions(input):
      output[i, j] = np.sum(im_region * self.filters, axis=(1, 2))

    return output


  def backprop(self, d_L_d_out, learn_rate):
    '''
    Performs a backward pass of the conv layer.
    - d_L_d_out is the loss gradient for this layer's outputs.
    - learn_rate is a float.
    '''
    # 初始化一个与滤波器同形状的零数组，用于存储损失函数关于滤波器的梯度。
    d_L_d_filters = np.zeros(self.filters.shape)

    # 这一行是在遍历输入图像的每个区域
    for im_region, i, j in self.iterate_regions(self.last_input):
      # 这一行是在遍历每个滤波器。
      for f in range(self.num_filters):
        #  这一行计算损失函数关于滤波器的梯度。d_L_d_out[i, j, f] 
        # 是损失函数关于卷积层输出的梯度，im_region 是输入图像的一个区域。
        # 它们的乘积就是损失函数关于滤波器的梯度，然后累加
        d_L_d_filters[f] += d_L_d_out[i, j, f] * im_region
        #遍历整个图像，将其区域乘以dldout的对应ij元素，并全部累加起来，得出就是一个卷积核大小的东西
    # Update filters
    self.filters -= learn_rate * d_L_d_filters

    # We aren't returning anything here since we use Conv3x3 as
    # the first layer in our CNN. Otherwise, we'd need to return
    # the loss gradient for this layer's inputs, just like every
    # other layer in our CNN.
    return None





class MaxPool2:
  # A Max Pooling layer using a pool size of 2.

  def iterate_regions(self, image):
    '''
    Generates non-overlapping 2x2 image regions to pool over.
    - image is a 2d numpy array
    '''
    h, w, _ = image.shape
    new_h = h // 2
    new_w = w // 2

    for i in range(new_h):
      for j in range(new_w):
        im_region = image[(i * 2):(i * 2 + 2), (j * 2):(j * 2 + 2)]
        yield im_region, i, j

  def forward(self, input):
    '''
    Performs a forward pass of the maxpool layer using the given input.
    Returns a 3d numpy array with dimensions (h / 2, w / 2, num_filters).
    - input is a 3d numpy array with dimensions (h, w, num_filters)
    '''
    self.last_input = input

    h, w, num_filters = input.shape
    
    output = np.zeros((h // 2, w // 2, num_filters))

    for im_region, i, j in self.iterate_regions(input):
      output[i, j] = np.amax(im_region, axis=(0, 1))

    return output

  def backprop(self, d_L_d_out):
    '''
    Performs a backward pass of the maxpool layer.
    Returns the loss gradient for this layer's inputs.
    - d_L_d_out is the loss gradient for this layer's outputs.
    '''
    # 将池化前的形状拿出来，全部设置为零
    d_L_d_input = np.zeros(self.last_input.shape)

    # 这一行是在遍历输入图像的每个池化区域
    for im_region, i, j in self.iterate_regions(self.last_input):
      # 获取每个池化区域的高度 h、宽度 w 和过滤器数量 f。
      h, w, f = im_region.shape
      # 计算每个过滤器的最大值。
      amax = np.amax(im_region, axis=(0, 1))

      # 找到最大值保留下来
      for i2 in range(h):
        for j2 in range(w):
          for f2 in range(f):
            # If this pixel was the max value, copy the gradient to it.
            if im_region[i2, j2, f2] == amax[f2]:
              d_L_d_input[i * 2 + i2, j * 2 + j2, f2] = d_L_d_out[i, j, f2]

    return d_L_d_input



class Softmax:
  # A standard fully-connected layer with softmax activation.

  def __init__(self, input_len, nodes):
    # We divide by input_len to reduce the variance of our initial values
    self.weights = np.random.randn(input_len, nodes) / input_len
    self.biases = np.zeros(nodes)

  def forward(self, input):
    '''
    Performs a forward pass of the softmax layer using the given input.
    Returns a 1d numpy array containing the respective probability values.
    - input can be any array with any dimensions.
    '''
    self.last_input_shape = input.shape

    input = input.flatten()

    self.last_input = input

    input_len, nodes = self.weights.shape

    #这里求出来是一个nodes个数的向量
    totals = np.dot(input, self.weights) + self.biases
    self.last_totals = totals
    #对每个向量进行求e的指数
    exp = np.exp(totals)
    #将求得的值，求和，然后一次求得softmax激活函数的值，形成nodes个向量
    return exp / np.sum(exp, axis=0)

  def backprop(self, d_L_d_out, learn_rate):
    '''
    Performs a backward pass of the softmax layer.
    Returns the loss gradient for this layer's inputs.
    - d_L_d_out is the loss gradient for this layer's outputs.
    '''
    # We know only 1 element of d_L_d_out will be nonzero
    for i, gradient in enumerate(d_L_d_out):
      if gradient == 0:
        continue

      # e^totals
      t_exp = np.exp(self.last_totals)

      # Sum of all e^totals
      S = np.sum(t_exp)

      # Gradients of out[i] against totals
      #选出非零的（也就是类是正确的），求得全为零的倒数，求得正确类的倒数
      d_out_d_t = -t_exp[i] * t_exp / (S ** 2)
      d_out_d_t[i] = t_exp[i] * (S - t_exp[i]) / (S ** 2)

      # Gradients of totals against weights/biases/input
      d_t_d_w = self.last_input
      d_t_d_b = 1
      d_t_d_inputs = self.weights
      # Gradients of loss against totals
      d_L_d_t = gradient * d_out_d_t
      # Gradients of loss against weights/biases/input
      d_L_d_w = d_t_d_w[np.newaxis].T @ d_L_d_t[np.newaxis]
      d_L_d_b = d_L_d_t * d_t_d_b
      d_L_d_inputs = d_t_d_inputs @ d_L_d_t

      # Update weights / biases
      self.weights -= learn_rate * d_L_d_w
      self.biases -= learn_rate * d_L_d_b
      return d_L_d_inputs.reshape(self.last_input_shape)





#需要将文件解压到固定目录 名称为 t10k-images-idx3-ubyte t10k-lables-idx1-ubyte tran-images-idx3-ubyte  tran-lables-idx1-ubyte 
mndata = MNIST('C:/Users/Thomas/Desktop/mnistDate')
train_images, train_labels = mndata.load_training()
test_images, test_labels = mndata.load_testing()


conv = Conv3x3(8)
pool = MaxPool2()
softmax = Softmax(13 * 13 * 8, 10) # 13x13x8 -> 10


def forward(image, label):
  '''
  Completes a forward pass of the CNN and calculates the accuracy and
  cross-entropy loss.
  - image is a 2d numpy array
  - label is a digit
  '''
  # We transform the image from [0, 255] to [-0.5, 0.5] to make it easier
  # to work with. This is standard practice.
  image =  np.reshape(image, (28, 28))
  out = conv.forward((image / 255) - 0.5)
  out = pool.forward(out)
  out = softmax.forward(out)

  # Calculate cross-entropy loss and accuracy. np.log() is the natural log.
  loss = -np.log(out[label])
  acc = 1 if np.argmax(out) == label else 0

  return out, loss, acc



def train(im, label, lr=.005):
  '''
  Completes a full training step on the given image and label.
  Returns the cross-entropy loss and accuracy.
  - image is a 2d numpy array
  - label is a digit
  - lr is the learning rate
  '''
  # Forward
  out, loss, acc = forward(im, label)

  # Calculate initial gradient
  gradient = np.zeros(10)
  gradient[label] = -1 / out[label]

 # Backprop
  gradient = softmax.backprop(gradient, lr)
  gradient = pool.backprop(gradient)
  gradient = conv.backprop(gradient, lr)

  return loss, acc

print('MNIST CNN initialized!')

# Train the CNN for 3 epochs
for epoch in range(3):
  print('--- Epoch %d ---' % (epoch + 1))

  # Shuffle the training data
  permutation = np.random.permutation(len(train_images))
  train_images1 = train_images[permutation]
  train_labels1 = train_labels[permutation]

  # Train!
  loss = 0
  num_correct = 0
  for i, (im, label) in enumerate(zip(train_images1, train_labels1)):
    if i > 0 and i % 100 == 99:
      print(
        '[Step %d] Past 100 steps: Average Loss %.3f | Accuracy: %d%%' %
        (i + 1, loss / 100, num_correct)
      )
      loss = 0
      num_correct = 0

    l, acc = train(im, label)
    loss += l
    num_correct += acc

# Test the CNN
print('\n--- Testing the CNN ---')
loss = 0
num_correct = 0
for im, label in zip(test_images, test_labels):
  _, l, acc = forward(im, label)
  loss += l
  num_correct += acc

num_tests = len(test_images)
print('Test Loss:', loss / num_tests)
print('Test Accuracy:', num_correct / num_tests)

运行代码的输出示例：

MNIST CNN initialized!
--- Epoch 1 ---
[Step 100] Past 100 steps: Average Loss 2.254 | Accuracy: 18%
[Step 200] Past 100 steps: Average Loss 2.167 | Accuracy: 30%
[Step 300] Past 100 steps: Average Loss 1.676 | Accuracy: 52%
[Step 400] Past 100 steps: Average Loss 1.212 | Accuracy: 63%
[Step 500] Past 100 steps: Average Loss 0.949 | Accuracy: 72%
[Step 600] Past 100 steps: Average Loss 0.848 | Accuracy: 74%
[Step 700] Past 100 steps: Average Loss 0.954 | Accuracy: 68%
[Step 800] Past 100 steps: Average Loss 0.671 | Accuracy: 81%
[Step 900] Past 100 steps: Average Loss 0.923 | Accuracy: 67%
[Step 1000] Past 100 steps: Average Loss 0.571 | Accuracy: 83%
--- Epoch 2 ---
[Step 100] Past 100 steps: Average Loss 0.447 | Accuracy: 89%
[Step 200] Past 100 steps: Average Loss 0.401 | Accuracy: 86%
[Step 300] Past 100 steps: Average Loss 0.608 | Accuracy: 81%
[Step 400] Past 100 steps: Average Loss 0.511 | Accuracy: 83%
[Step 500] Past 100 steps: Average Loss 0.584 | Accuracy: 89%
[Step 600] Past 100 steps: Average Loss 0.782 | Accuracy: 72%
[Step 700] Past 100 steps: Average Loss 0.397 | Accuracy: 84%
[Step 800] Past 100 steps: Average Loss 0.560 | Accuracy: 80%
[Step 900] Past 100 steps: Average Loss 0.356 | Accuracy: 92%
[Step 1000] Past 100 steps: Average Loss 0.576 | Accuracy: 85%
--- Epoch 3 ---
[Step 100] Past 100 steps: Average Loss 0.367 | Accuracy: 89%
[Step 200] Past 100 steps: Average Loss 0.370 | Accuracy: 89%
[Step 300] Past 100 steps: Average Loss 0.464 | Accuracy: 84%
[Step 400] Past 100 steps: Average Loss 0.254 | Accuracy: 95%
[Step 500] Past 100 steps: Average Loss 0.366 | Accuracy: 89%
[Step 600] Past 100 steps: Average Loss 0.493 | Accuracy: 89%
[Step 700] Past 100 steps: Average Loss 0.390 | Accuracy: 91%
[Step 800] Past 100 steps: Average Loss 0.459 | Accuracy: 87%
[Step 900] Past 100 steps: Average Loss 0.316 | Accuracy: 92%
[Step 1000] Past 100 steps: Average Loss 0.460 | Accuracy: 87%

--- Testing the CNN ---
Test Loss: 0.5979384893783474
Test Accuracy: 0.78

我们的代码有效！在短短 3000 个训练步骤中，我们从损失 2.3 和 10% 准确率的模型增加到 0.6 损失和 78% 的准确率。

你可能感兴趣的:(神经网络,机器学习,人工智能,神经网络,cnn,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，