syphomn

吴恩达深度学习课程笔记之卷积神经网络（1st week）

0 参考资料

[1] 【中英字幕】吴恩达深度学习课程第四课 — 卷积神经网络_哔哩哔哩_bilibili

[2] 02-吴恩达深度学习系列课程/04卷积神经网络/PDFs · 大大鹏/Bilibili资料 - 码云 - 开源中国 (gitee.com)

[3] 深度学习笔记-目录 (ai-start.com)——深度学习笔记 (ai-start.com)

[4] CNN笔记：通俗理解卷积神经网络_结构之法算法之道-CSDN博客_卷积神经网络通俗理解

1 计算机视觉（Computer vision）

计算机视觉中有个叫做目标检测的常见问题，所谓的目标检测，用一个例子来解释就是说在一个无人驾驶项目中，可能不需要非得识别出前方物体是否是车辆，但必须计算出自己与该物体的位置，以确保能够避开它；还有一个更有趣的例子，就是通过神经网络实现图片风格迁移，所谓图片风格迁移，就是将两张不同风格的图片融合到一起，描绘出一张新的图片。

但在应用计算机视觉时要面临的一个挑战就是数据的输入可能会非常大。如果输入300万的数据量，就意味着特征向量的维度高达也将300万。如果在第一隐藏层中使用了1000个隐藏单元，那么在标准的全连接网络下，权重矩阵W的大小将会是1000×300万，这是个非常巨大的数字。在参数如此大量的情况下，将会难以获得足够的数据来防止神经网络发生过拟合，也不能满足竞争的需求。此外，要处理包含30亿参数的神经网络，巨大的内存需求也让人不太能接受。

2 边缘检测示例（Edge detection example）

下面通过一个边缘检测例子来理解卷积计算的操作步骤。

这是一个6×6×1的图像（6×6表示图像的高度和宽度；1表示图像通道数目为1，也就是黑白图）：

为了检测图像中的垂直边缘，可以构造一个3×3矩阵，在卷积神经网络的术语中，该矩阵也被称为过滤器。要进行垂直边缘检测需要构造一个如下所示的3×3过滤器：

$\left[\begin{array}{rrr} 1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1 \end{array}\right]$

对这个6×6的图像使用3×3的过滤器进行卷积运算（卷积运算通常用“ * ”来表示）。这个卷积运算的输出将会是一个4×4的矩阵，可以将该矩阵看成一个4×4的图像。下面来说明如何计算得到这个4×4矩阵。

（1）第一步

为了计算得到最左上角元素，先找到6×6×1的图像中位于左上角的4×4矩阵元素，对这个矩阵元素使3×3的过滤器过滤，过滤算法如下所示：

$\left[\begin{array}{ccc} 3 \times 1 & 0 \times 0 & 1 \times(1) \\ 1 \times 1 & 5 \times 0 & 8 \times(-1) \\ 2 \times 1 & 7 \times 0 & 2 \times(-1) \end{array}\right]=\left[\begin{array}{ccc} 3 & 0 & -1 \\ 1 & 0 & -8 \\ 2 & 0 & -2 \end{array}\right]$

然后将该矩阵每个元素相加得到最左上角的元素，即：

完成上述计算后，便可得到：

（2）第二步

接下来，为了求取最左上角旁边的第二个元素，现把蓝色的方块，向右移动一步，继续第一步的操作，得到第二个元素；

（3）第三步

重复第二步操作，直到不能再右移为止，最终得到：

（4）第四步

接下来为了得到下一行的元素，现在把蓝色块移动到最左端后再下移一格，继续前三步操作；

（5）重复第四步操作，直到不能再下移为止，最终得到：

按照上述的运算步骤，6×6矩阵和3×3矩阵进行卷积运算将会得到4×4矩阵。这些图片和过滤器是不同维度的矩阵。左边矩阵可以理解为一张图片，中间的矩阵被理解为过滤器，右边的矩阵可以理解为输入图片被过滤后得到的另一张图片。整个操作过程就是所谓的垂直边缘检测，此过滤矩阵也被称为垂直边缘检测器。

现在用一个例子说明为什么这个过滤器可以做垂直边缘检测：本例是一个简单的6×6图像，左边的一半是10，右边一般是0。如果把它当成一个图片，左边那部分看起来是白色的，其像素值为10，右边像素值比较暗，像素值为0。在图像中间有一个特别明显的垂直边缘，这条垂直线是从黑到白的过渡线。将左边的图像使用中间的过滤器执行卷积计算后，便可以得到右边的新图像，如下图所示：

如果把最右边的矩阵当成图像，它中间有段亮一点的区域，对应左边的6×6图像中间的垂直边缘。这里的维数似乎有点不正确——检测到的边缘太粗了，这是因为这个例子中的图片尺寸与过滤器的尺寸太过接近了。输出图像中间的亮处表示在图像中间有一个特别明显的垂直边缘。从垂直边缘检测中可以得到的启发是：因为使用的是3×3的矩阵（过滤器），所以垂直边缘是一个3×3的区域，左边是明亮的像素，中间的并不需要考虑，右边是深色像素。在这个6×6图像的中间部分，明亮的像素在左边，深色的像素在右边，就被视为一个垂直边缘，卷积运算提供了一个方便的方法来发现图像中的垂直边缘。

3 更多边缘检测内容（More edge detection）

本节将学习如何区分正边和负边，这实际就是由亮到暗与由暗到亮的区别，也就是边缘的过渡。

上图这张6×6的图片，左边较亮，而右边较暗。现使用垂直边缘检测过滤器对其进行卷积，检测结果如上图第三部分所示。

与本节第一幅图相比，上图变成了左边比较暗，右边比较亮——亮度为10的点跑到了右边，为0的点则跑到了左边。如果用它与相同的过滤器进行卷积，最后得到的图中间会是-30，而不是30。如果将其矩阵转换为图片，就会是该矩阵下面图片的样子。现在中间的过渡部分被翻转了，之前的30翻转成了-30，表明是由暗向亮过渡，而不是由亮向暗过渡。

如果要检测水平边缘，而不是垂直边缘，则应该使用下图左边的过滤器矩阵：

对于一个稍微复杂的图像，应用水平过滤可以得到以下结果：

再次强调，现在所使用的都是相对很小的图片（仅有6×6），但这些中间的数值，比如说上图右边矩阵中黄色方框标记的部分（也就是10）是一个过渡带，其对应于上图右边矩阵被黄色圈出来的部分，这块区域左边两列是正边，右边一列是负边，正边和负边的值加在一起得到了一个中间值。若本例的输入图像是一个1000×1000这种数量级尺寸的大图，就不会出现（或者无法识别出）这些亮度为10的过渡带了。因为图片尺寸很大，这些中间值就会变得非常小。

除了上述两种过滤器以外，还有其他很多的过滤器，比如Sobel过滤器：

$\left[\begin{array}{rrr} 1 & 0 & -1 \\ 2 & 0 & -2 \\ 1 & 0 & -1 \end{array}\right]$

Sobel过滤器的优点在于增加了中间一行元素的权重，这使得结果的鲁棒性会更高一些。还有比如Scharr过滤器：

$\left[\begin{array}{ccc} 3 & 0 & -3 \\ 10 & 0 & -10 \\ 3 & 0 & -3 \end{array}\right]$

它有着和之前完全不同的特性：它实际上也是一种垂直边缘检测，如果将其翻转90度，就能得到对应水平边缘检测。

其实不管是基础的两种过滤器也好，还是Sobel过滤器、Scharr过滤器也罢，只需要把过滤器中的九个数字当做是参数即可，其实卷积神经网络的目的就是通过反向传播去确定这9个参数的取值。

4 Padding卷积

如果用一个3×3的过滤器卷积一个6×6的图像，最后会得到一个4×4的输出，也就是一个4×4矩阵。这背后的数学解释：对一个n*n的图像，用f*f的过滤器做卷积，那么输出的维度是：

$(n-f+1) \times(n-f+1)$

将n=6，f=3代入立即有输出维度为4。

此公式有两个缺陷，第一个缺点是每次做卷积操作，图像就会缩小，比如本例从6×6缩小到4×4，可能做了几次卷积之后，图像就会缩小到只有1×1的大小。这显然是需要被避免的。

第二个缺点就是对于角落边缘的像素只被一个3×3的输出所触碰或者使用，而如果是在中间的像素点就会有许多3×3的区域与之重叠。也就是说那些在角落或者边缘区域的像素点在输出中采用较少，换言之就是图像边缘位置的许多信息被丢掉了。

为了解决这些问题，可以在卷积操作之前填充这幅图像。在这个案例中，可以沿着图像边缘再填充一层像素。如果这样操作了，那么6×6的图像就被填充成了一个8×8的图像。如果再用3×3的图像对这个8×8的图像卷积，得到的输出就不是4×4的，而是6×6的图像，也就得到了一个尺寸和原始图像一样的6×6图像。

习惯上，可以用0去填充。如果p是填充的数量，对一个n*n的图像，用f*f的过滤器做卷积，那么输出的维度是：

$(n+2 p-f+1) \times(n+2 p-f+1) \$

至于选择填充多少像素，通常有两个选择，分别叫做Valid卷积和Same卷积。Valid卷积意味着不填充输入矩阵；Same卷积意味着填充再进行卷积操作后能够让输出大小和输入大小是一样的。要维持输出和过滤后的输出一样的形状，p的值由以下公式确定：

求上式得到：，所以当f是一个奇数的时候，只要选择相应的填充尺寸，就能得到和输入相同尺寸的输出。而且f通常是奇数，很少有一个偶数尺寸的过滤器，主要有以下两个原因：

其中一个可能是：如果f是一个偶数，那么只能使用一些不对称填充。只有f是奇数的情况下，Same卷积才会有自然的填充；第二个原因是对一个奇数维过滤器而言，比如3×3或者5×5的，其存在一个中心点，这样会更方便——便于指出过滤器的位置。

5 卷积步长（Strided convolutions）

如果想用3×3的过滤器卷积下图这个7×7的图像，和之前不同的是，本例把步幅设置成了2。还和之前一样取左上方的3×3区域的元素的乘积，再加起来，最后结果为91。

只是之前移动蓝框的步长是1，现在移动的步长是2。让过滤器跳过2个步长，注意一下左上角，这个点移动到其后两格的点，跳过了一个位置。然后还是将每个元素相乘并求和，将会得到的结果是100。

现在继续将蓝色框移动两个步长，将会得到83的结果。当移动到下一行的时候，也是使用步长2而不是步长1，所以将蓝色框移动到这里：

然后得到69的结果，现在继续移动两个步长，会得到91，127，最后一行分别是44，72，74：

总结上述例子，对于一个n*n的图像，使用f*f的过滤器进行卷积，其padding为p，步幅为s，输出矩阵的形状为：

$(\frac{n+2 p-f}{s}+1) \times (\frac{n+2 p-f}{s}+1)$

对于本例，n=7; p=0; f=3; s=2，代入数据就可算得输出为3*3的矩阵。

现在只剩下最后的一个细节了，如果商不是一个整数怎么办？在这种情况下，只需要向下取整即可。这个原则实现的内涵是：只在蓝框完全包括在图像或填充完的图像内部时，才对其进行运算，如果有任意一个蓝框移动到了外面，那就不进行相乘操作。

因此，对于一个n*n的图像，使用f*f的过滤器进行卷积，其padding为p，步幅为s，输出矩阵的形状为：

$[\frac{n+2 p-f}{s}+1] \times [\frac{n+2 p-f}{s}+1]$

补充一点，学习过《复变函数》的人可能会发现数学意义上的卷积与深度学习中的卷积并不一致。深度学习意义上的卷积缺少了翻转过滤器的操作：先将过滤器顺时针旋转90度，然后再水平对称翻转，最后将翻转后得到的过滤器与图像进行乘积求和。上述的整个操作过程才是数学意义上的卷积操作（或许正是因为这些旋转，此操作才会被称之为卷积，深度学习里面的卷积操作属实是有点名不副实了）。

与数学意义上的卷积不同，按照机器学习的惯例，过滤器通常不进行翻转操作，直接进行乘积求和操作。从技术上说，这个操作可能更应该叫做互相关（cross-correlation）而不是卷积（convolution），但在大部分的深度学习文献中都把它叫做卷积运算，那也只好继承这种大多数研究深度学习的人之约定。就深度学习而言，称为卷积还是互相关无关紧要，只需遵循主流，仍然称互相关为卷积即可。但对于其他领域而言，比如信号处理领域，卷积与互相关需要明确区分，因为信号处理运用了一些翻转带来的性质（比如卷积运算结合律），换句话说，深度学习领域不关心那些因为翻转矩阵带来的特殊性质。

6 三维卷积（Convolutions over volumes）

本节将会提供一种检测多通道多特征的卷积计算方法。

假如现在不仅想检测灰度图像的特征，也想检测一个维度为6×6×3的RGB彩色图像之特征，这里的3指的是三个颜色通道，6×6还是图片的高度和宽度，RGB表示红绿蓝三色。前面已经介绍过6×6×1图像的卷积方法，而6×6×3的图像不过是三个6×6×1图像的堆叠而已。为了检测图像的边缘或者其他的特征，不再是把它跟原来3×3的过滤器做卷积，而是跟一个维度是3×3×3的三维过滤器进行卷积，该过滤器也有三层，对应红、绿、蓝三个通道。

输入图像有一个高度、宽度与通道数，同样过滤器也有一个高，宽和通道数，并且图像的通道数必须和过滤器的通道数匹配，也就是说这两个数（紫色方框标记的两个数）必须相等。

这个3×3×3的过滤器有27个数，依次取这27个数，然后乘以相应的红绿蓝通道中的数字。先取红色通道的前9个数字，然后是绿色通道，然后再是蓝色通道，乘以上图左边三个通道对应的27个数，然后把这些数都加起来，就得到了输出的第一个数字；如果要计算下一个输出，把这个立方体滑动一个单位，再与这27个数相乘，把它们都加起来即可，以此类推便能够实现三维卷积计算（其实就是做了三次单通道卷积操作得到了三个结果，再把这三个结果加起来就得到一个卷积位置的结果）。

那么，三维卷积计算能够做什么呢？举例说明就是：这个过滤器是3×3×3的，如果想检测图像红色通道的边缘，那么可以将第一个过滤器设为：

$\left[\begin{array}{rrr} 1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1 \end{array}\right]$

然后将其他两个通道的过滤器全部设置为0。如果把这三个堆叠在一起形成一个3×3×3的过滤器，那么这就是一个检测垂直边界的过滤器，但只对红色通道有用。如果不关心垂直边界究竟在哪个通道，那么可以将三个通道的过滤器均设置为：

$\left[\begin{array}{rrr} 1 & 0 & -1 \\ 1 & 0 & -1 \\ 1 & 0 & -1 \end{array}\right]$

现在还有一个问题就是：如果不仅仅想要检测垂直边缘怎么办？如果需要同时检测垂直边缘和水平边缘，还有45°倾斜的边缘，还有70°倾斜的边缘怎么做？换句话说，如果想同时用多个过滤器怎么办？很简单，可以再重新设置一个新的过滤器，重新进行三维卷积运算即可。把这两个过滤器的输出堆叠在一起，就得到了一个3×3×2的输出，这里的2是因为用了两个不同的过滤器。这个输出的来源是：使用5×5×3的图像，并设置卷积padding为1，步长为2；然后使用两个不同的3×3×3过滤器卷积此图像；最后将得到的两个图像堆叠在一起输出。下图给出了本例三维卷积的具体操作：

下面来总结一下输出维度：如果有1个 $n\times n\times {{n}_{c}}$ 的图像，其中 ${n}_{c}$ 为通道数目，设置padding为p，步长为s，然后卷积 $n_{c}^{1}$ 个 $f\times f\times {{n}_{c}}$ 的过滤器（这两个 ${n}_{c}$ 的值必须要相同）。根据所给条件，可以得到计算输出：

$[\frac{n+2 p-f}{s}+1] \times [\frac{n+2 p-f}{s}+1] \times n_{c}^{1}$ (*)

上式中的[]表示向下取整数；这里的 $n_{c}^{1}$ 除了表示本层过滤器数目外，还表示下一层图像的通道数，或者说本层卷积结果的通道数。

根据本例，n=5， ${n}_{c}$ =3，f=3；并设置p为1，s为2，过滤器数目 $n_{c}^{1}$ 为2。将上述数据代入公式可以得到输出结果的结构为：3×3×2，这与上图的结果相符。

7 单层卷积网络（One layer of a convolutional network）

假设使用第一个过滤器进行卷积，得到第一个4×4矩阵。使用第二个过滤器进行卷积得到另外一个4×4矩阵。

将这两个矩阵分别通过Python的广播机制给这4×4=16个元素都加上同一偏差，然后应用非线性函数（ReLU、Tanh以及Sigmoid函数等等）激活，最终输出两个4×4矩阵，然后把这两个矩阵堆叠起来，最终得到一个4×4×2的矩阵。从输入一个6×6×3的矩阵到输出一个4×4×2矩阵结束的整个计算过程，被称为一个卷积神经网络层。

下面以一个例子来讲解参数计算：假设一层有10个过滤器，且每一个过滤器的结构都是3×3×3。每个过滤器有3×3×3=27个参数，也就是27个数；然后加上一个偏差b，现在的参数增加到28个；由于有10个过滤器，加在一起是28×10，也就是280个参数。不论输入图片有多大，参数始终都是280个。用这10个过滤器来提取特征，如垂直边缘，水平边缘和其它特征。即使这些图片很大，参数的数量也是不变的，这就是卷积神经网络的一个特征，叫作“避免过拟合”。

最后总结一下用于描述卷积神经网络中的一层（以第层为例）：

下面对上图做些必要的解释：

用 ${{f}^{[l]}}$ 表示过滤器大小，前文已叙述过滤器大小为 $f\times f$ ，上标[ ]表示l层中过滤器大小为 $f\times f$ 。通常情况下，上标[ ]用来表示第几层。用 $p^{[l]}$ 来表示padding的数量，padding的方式可以指定为一个valid卷积，即无padding，或是same卷积，即选定padding。若选定padding，输出和输入图片的高度和宽度就相同了；用 $s^{[l]}$ 标记步幅； $n_{c}^{[l]}$ 表示输出的特征数或者本层过滤器数目。

图片的高度和宽度也有可能不同，因此用 $n_{H}^{[l-1]} \times n_{W}^{[l-1]} \times n_{c}^{[l-1]}$ 表示输入数据，其中的 $n_{c}^{[l-1]}$ 表示通道数，[ ]表示上一卷积层输出的数据，也为本层输入的数据。这一层中输出大小为 $n_{H}^{[l]} \times n_{W}^{[l]} \times n_{c}^{[l]}$ 。其中的 $n_{H}^{[l]}$ 与 $n_{W}^{[l]}$ 可以按照上一节的公式计算(*)； $n_{c}^{l}$ 表示输出图像中的通道数量，其值就是神经网络中这一层所使用的过滤器的数量。还有一个问题就是如何确定过滤器的大小。显然，过滤器中通道的数量必须与输入中通道的数量一致。因此过滤器维度等于 $f^{[l]} \times f^{[l]} \times n_{c}^{[l-1]}$ ，其中 $f^{[l]}$ 的值可以根据公式(*)按照same 卷积还是valid卷积以及步幅反推。

通过过滤器后得到一个 $n_{H}^{[l]} \times n_{W}^{[l]} \times n_{c}^{[l]}$ 大小的输出，再将此 $n_{c}^{[l]}$ 个 $n_{H}^{[l]} \times n_{W}^{[l]}$ 维度的输出均加上不同的偏差b后再次输出，此输出的维度还是 $n_{H}^{[l]} \times n_{W}^{[l]} \times n_{c}^{[l]}$ ；然后将此输出通过一个非线性函数激活（图片中Activation的含义是激活后的维度），输出维度依然是 $n_{H}^{[l]} \times n_{W}^{[l]} \times n_{c}^{[l]}$ 。当执行批量梯度下降或其他方法时，如果有个m例子，也就是有m个激活值（或者叫输出）的集合，那么输出 $A^{[l]}=m \times n_{H}^{[3]} \times n_{W}^{[l]} \times n_{c}^{[l]}$ ，m表示索引，之后三项是图片的高度、宽度和通道数。

下面讨论如何确定权重参数（也就是过滤器的元素值）：

过滤器的维度已知，为 $f^{[l]} \times f^{[l]} \times n_{c}^{[l-1]}$ ，但这只是一个过滤器的维度，一共有 $n_{c}^{[l]}$ 个过滤器，权重也就是所有过滤器的集合再乘以过滤器的总数量，即 $f^{[l]} \times f^{[l]} \times n_{c}^{[l-1]}\times n_{c}^{[l]}$ ，损失数量就是层中过滤器的个数。

最后来看看偏差参数，每个过滤器都有一个偏差参数，它是一个实数。为了方便，偏差在代码中表示为一个1×1×1× $n_{c}^{[l]}$ 的四维向量或四维张量。

8 简单卷积网络示例（A simple convolution network example）

假设有一张输入大小是39×39×3的图片，现需要辨别图片中有没有小猫，结果用0或1表示。这是一个分类问题，下面来构建适用于这项任务的卷积神经网络。

假设第一层用一个3×3的过滤器来提取特征，那么 $f^{[1]}$ =3；另外设置 $s^{[1]}$ =1， $p^{[1]}$ =0；如果有10个过滤器，卷积神经网络下一层的激活值为37×37×10，下一层的激活值为10是因为用了10个过滤器，37是公式 $[\frac{n+2 p-f}{s}+1]$ 的计算结果，也就是 $[\frac{39+2\times 0-3}{1}+1]$ =37。第一层标记为 $n_{H}^{[1]}= n_{W}^{[1]} =37$ ， $n_c^{[1]}=10$ ， $n_c^{[1]}$ 等于第一层中过滤器的个数，这（37×37×10）是第一层激活值的维度 $\alpha ^{[1]}$ 。

假设还有第二个卷积层，这次采用的过滤器是5×5的矩阵，即 $f^{[2]}=5$ ；步幅为2，即 $s^{[2]}=2$ ；padding为0，即 $p^{[2]}=0$ ；且有20个过滤器。所以其输出结果会是17×17×20，因为步幅是2，维度缩小得很快，大小从37×37减小到17×17，减小了一半还多，过滤器是20个，所以通道数也是20，17×17×20即激活值 $\alpha^{[2]}$ 的维度。因此， $n_{H}^{[2]}= n_{W}^{[2]} =20$ ， $n_c^{[2]}=20$ 。

再来构建最后一个卷积层，假设过滤器还是5×5，步幅为2，即 $f^{[3]}=5$ ， $s^{[3]}=2$ ，假设使用了40个过滤器，padding为0，则最后输出为7×7×40。

到此，这张39×39×3的输入图像就处理完毕了，为图片提取了7×7×40=1960个特征。然后对该卷积进行处理，可以将其展开成1960个单元。平滑处理后可以输出一个向量，其填充内容是logistic回归单元还是softmax回归单元，完全取决于我们是想识图片上有没有小猫，还是想识别他是几种不同对象中的一种。用 $\widehat{y}$ 表示最终神经网络的预测输出。明确一点，最后这一步是处理所有1960个数字，处理方法是把它们展开成一个很长的向量。为了预测最终的输出结果，需要把这个长向量填充到softmax回归函数中。

对本节的总结：

（1）随着神经网络计算深度不断加深，通常开始时的图像要更大一些，高度和宽度会在一段时间内保持一致，然后随着网络深度的加深而逐渐减小。比如初始值为39×39，会逐渐从39到37，再到17，最后到7。而通道数量在增加，从3到10，再到20，最后到40。

（2）一个典型的卷积神经网络通常有三层，一个是卷积层，常常用Conv来标注；一个是池化层，称之为POOL；最后一个是全连接层，用FC表示。仅用卷积层也有可能构建出很好的神经网络，但大部分神经网络都会添加池化层和全连接层。

（3）设计卷积神经网络时，确定过滤器的大小、步幅、padding以及使用多少个过滤器这些参数是难点。

9 池化层（Pooling layers）

除了卷积层，卷积网络也经常使用池化层来缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性。常见的池化方法有最大池化和平均池化。

池化的主要参数是池化过滤器大小和步幅，对池化层而言padding用得较少，一般都是0。常用的参数值为；，其效果相当于高度和宽度缩减一半。如果输入是三维的，那么输出也是三维的——分别对每一个通道执行池化即可。当输入是 $n_{H}^{[l-1]} \times n_{W}^{[l-1]} \times n_{c}^{[l-1]}$ 时，且池化过滤器大小为、步幅为，则输出的结构为 $\left\lfloor\frac{n_{H}^{l-1}-f}{s}+1\right\rfloor \times\left\lfloor\frac{n_{W}^{l-1}-f}{s}+1\right\rfloor \times n_{c}$ 。下面是一个最大池化的例子，其中过滤器的f取2，步长s也为2：

对最大池化功能的直观理解：可以把这个4×4输入看作是某些特征的集合，也就是神经网络中某一层的非激活值集合。数字大意味着可能探测到了某些特定的特征，左上象限具有的特征可能是一个垂直边缘，一只眼睛，或是CAP特征。显然左上象限中存在这个特征，而右上象限并不存在这个特征。最大池化操作的功能就是只要在任何一个象限内提取到某个特征，它都会保留在最大化的池化输出里。所以最大池化运算的实际作用就是：如果在过滤器中提取到某个特征，那么保留其最大值。如果没有提取到这个特征，那么其中的最大值也还是很小。

需要注意的一点是，池化过程中只有一组超参数（这些超参数可能是手动设置的，也可能是通过交叉验证设置的），但并没有需要学习的参数——只要确定了与，池化就是一个固定的运算而已，不需要改变什么参数值。

另外还有一种不太常用的池化，叫做平均池化。虽说是不太常用，但其也有一些应用场景。对于深度很深的神经网络，可以用平均池化来分解规模较大的表示层，比如7×7×1000的表示层，若在整个空间内求平均值，可以得到1×1×1000的维度。平均池化与最大池化的操作步骤基本一致，只是过滤器操作不再是取 $f\times f$ 中的最大值，而是求其平均值。下面是一个f取2，步长s也为2的过滤器实现平均池化的例子：

10 卷积神经网络示例（Convolutional neural network example）

有一张大小为32×32×3的RGB模式输入图片，现想做手写体数字识别。字体识别也就是说，现在这32×32×3的RGB图片中含有某个数字，比如7，想使用卷积神经网络来识别它是从0-9这10个数字中的哪一个。下面开始构建卷积神经网络：

输入是32×32×3的矩阵，第一层使用过滤器大小为5×5，步幅是1，padding是0，过滤器个数为6，那么输出为28×28×6。将这层标记为CONV1，它用了6个过滤器，还增加了偏差b，也应用了非线性函数（比如ReLU非线性函数），最后输出CONV1的结果。

然后构建一个池化层，这里选择用最大池化，参数，，padding为0，最大池化使用的过滤器为2×2，步幅为2，表示层的高度和宽度会减少一半，28×28变成了14×14。通道数量保持不变，所以最终输出为14×14×6，将该输出标记为POOL1。

此外，在计算神经网络有多少层时，通常只统计具有权重和参数的层。由于池化层没有权重和参数，只有一些超参数，因此可以把CONV1和POOL1共同作为一个卷积层，并标记为Layer1，不过也有人将卷积层和池化层分开为两层，这无关紧要，只是两种不同的标记术语。

再为它构建一个卷积层，过滤器大小为5×5，步幅为1，这次用16个过滤器，最后输出一个10×10×16的矩阵，标记为CONV2。

然后做最大池化，超参数，，高度和宽度会减半，最后输出为5×5×16，标记为POOL2，POOL2与CONV2加在一起就是神经网络的第二个卷积层，即Layer2。

5×5×16矩阵包含400个元素，现在将POOL2平整化为一个大小为400的一维向量。可以把平整化结果想象成这样的一个400个神经元的集合，然后利用其构建下一层。下一层含有120个单元，这就是第一个全连接层，标记为FC3。这很像一个标准的单层神经网络，其权重矩阵的维度为120×400。所谓的“全连接”，是因为这400个单元与这120个单元的每一项连接，再加上一个偏差参数b后输出120个值（120维）。

然后对这120个单元再添加一个全连接层，这层更小，假设它含有84个单元，标记为FC4。

最后，用这84个单元填充一个softmax单元。因为本例是想通过手写数字识别来识别手写0-9这10个数字，这需要softmax函数有10个输出（每个数字的可能依概率输出）。

本例给出了一种卷积神经网络的形式：每一个卷积层都包含卷积部分和池化部分，卷积层过后是全连接层，最后是softmax模式。

另一种常见模式是一个或多个卷积后面跟随一个池化层，然后一个或多个卷积层后面再跟一个池化层，然后是几个全连接层，最后是一个softmax。

再次指出，随着神经网络深度的加深，图像高度和宽度通常都会减少而通道数量会增加。本例从32×32到28×28，到14×14，到10×10，再到5×5，本例的通道数量从3到6到16不断增加，然后得到一个全连接层。

接下来讲讲神经网络的激活值形状，激活值大小和参数数量。输入为32×32×3，这些数做乘法，结果为3072，所以激活值 $\alpha^{[0]}$ 有3072维，激活值矩阵为32×32×3。

有几点要注意，第一，平均池化层和最大池化层没有参数；第二，卷积层的参数相对较少，许多参数都存在于神经网络的全连接层。观察上图可发现，随着神经网络的加深，激活值尺寸会逐渐变小，如果激活值尺寸下降太快，也会影响神经网络性能。示例中，激活值尺寸在第一层为6000，然后减少到1600，慢慢减少到84，最后输出softmax结果。

11 为什么使用卷积？（Why convolutions?）

同只用全连接层相比，卷积层的主要优势在于可以使用较少的参数数量达到与普通神经网络算法相通的效果。

同样是上一节的例子，有一张32×32×3=3072维度的图片，假设用了6个大小为5×5的过滤器，输出维度为28×28×6=4704。现构建一个全连接神经网络，一层含有3072个单元，下一层含有4074个单元，两层中的每个神经元彼此相连，然后计算权重矩阵——4074×3072≈1400万，这个数字过于离谱，但是以现在的技术还是能够实现。但如果这是一张1000×1000的图片，权重矩阵就会变得非常大，换句话说全连接神经网络的权重矩阵是与图片尺寸有关的。但对于卷积神经网络来说，卷积层的参数数量是由过滤器尺寸、输入通道数以及过滤器数目决定的。同样是一个32×32×3=3072维度的输入，如果每个过滤器都是5×5×3=75个参数，再加上偏差参数，那么每个过滤器就有76个参数，一共有6个过滤器，所以参数共计76×6=456个，虽然是以32×32×3为例，事实上参数数量不受输入的尺寸影响，即使是1000×1000×3的输入也是456个参数。相对于1400万，456个参数那可以说是相当少了。

卷积网络映射这么少的参数主要有两个原因：

一是参数共享。观察发现，特征检测，如垂直边缘检测，如果适用于图片的某个区域，那么它也可能适用于图片的其他区域。也就是说，如果用一个3×3的过滤器检测垂直边缘，那么图片的左上角区域，以及旁边的各个区域（下图左边矩阵中蓝色方框标记的部分）都可以使用这个3×3的过滤器。每个特征检测器以及输出都可以在输入图片的不同区域中使用同样的参数，以便提取垂直边缘或其它特征。它不仅适用于边缘特征这样的低阶特征，同样适用于高阶特征，例如提取脸上的眼睛，猫或者其他特征对象。即使减少参数个数，这9个参数同样能计算出16个输出。直观感觉是，一个特征检测器，如垂直边缘检测器用于检测图片左上角区域的特征，这个特征很可能也适用于图片的右下角区域。因此在计算图片左上角和右下角区域时，不再需要添加其它特征检测器。假如有一个这样的数据集，其左上角和右下角可能有不同分布，也有可能稍有不同，但很相似，整张图片共享特征检测器，提取效果也很好。

第二个原因是使用稀疏连接，下图这个绿色的0是通过3×3的卷积计算得到的，它只依赖于左边绿色阴影的这个3×3输入的单元格，这是因为这个输出单元（绿色元素0）仅与36个输入特征中9个相连接；再举一个例子，这个输出（右边矩阵中红色标记的元素 30）仅仅依赖于这9个特征（左边矩阵红色方框标记的区域），因为只有这9个输入特征与输出相连接，其它像素对输出没有任何影响，这就是稀疏连接的概念。

卷积神经网络可以通过这两种机制减少参数，以便使用更小的训练集来训练它，从而预防过度拟合或者数据不足。卷积神经网络还善于捕捉平移不变，因为神经网络的卷积结构使得即使移动几个像素，这张图片依然具有非常相似的特征。

最后的最后再来看看如何训练这些网络。比如要构建一个猫咪检测器，有m个标记训练集，x表示一张图片， $\widehat{y}$ 是二进制标记或某个重要标记。选定一个卷积神经网络，输入图片，增加卷积层和池化层，然后添加全连接层，最后输出一个softmax，即 $\widehat{y}$ 。卷积层和全连接层有不同的参数和偏差，最后还需要一个可以用任何参数集合来定义代价函数。可以使用随机初始化产生的参数和偏差，代价函数等于神经网络对整个训练集的预测的损失总和再除以图片数量：

$\text { Cost } J=\frac{1}{m} \sum_{i=1}^{m} L\left(\hat{y}^{(i)}, y^{(i)}\right)$

所以训练神经网络要做的就是使用梯度下降法、Momentum梯度下降法等算法来优化神经网络中的所有参数，以减少代价函数的值。通过上述操作后便可以构建一个高效的猫咪检测器或其它检测器，最后还需要使用测试集来验证模型其准确性。

12 后记

本文是对吴恩达的深度学习教程（链接：【中英字幕】吴恩达深度学习课程第四课 — 卷积神经网络_哔哩哔哩_bilibili）的文字总结，其文字以及图片主要来自于视频以及‘深度学习笔记 (ai-start.com)’。在学习了视频教程内容后，基于‘深度学习笔记 (ai-start.com)’的内容以及自己对卷积神经网络的理解，最终成此文。相比于'深度学习笔记 (ai-start.com)'原文档，本文在保留了其通俗易懂的特点外，用词更加学术化，行文更富有逻辑性。

此外，文中某些图片来自于‘CNN笔记：通俗理解卷积神经网络_结构之法算法之道-CSDN博客_卷积神经网络通俗理解’；如果需要吴恩达卷积神经网络教程的PDF课件，可以参见‘ 02-吴恩达深度学习系列课程/04卷积神经网络/PDFs · 大大鹏/Bilibili资料 - 码云 - 开源中国(gitee.com)’。

你可能感兴趣的:(深度学习与机器学习,深度学习,卷积神经网络,机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =