syphomn

吴恩达深度学习课程笔记之卷积神经网络（2nd week）

0 参考资料

[1] 大大鹏/Bilibili资料 - Gitee.com

[2] 【中英字幕】吴恩达深度学习课程第四课 — 卷积神经网络_哔哩哔哩_bilibili

[3] 深度学习笔记-目录 (ai-start.com)

1 为什么要进行实例探究？（Why look at case studies?）

就像很多人通过看别人的代码来学习编程一样，学习深度学习最直观的方式之一就是去看一些案例。过去几年计算机视觉研究中的大量研究都集中在如何把一些基本构件组合起来，形成有效的卷积神经网络。通过研究别人的架构来构建自己有效组件的办法比较高效，实际上在计算机视觉任务中表现良好的神经网络框架往往也适用于其它任务。也就是说，如果有人已经训练或者计算出擅长识别猫、狗、人的神经网络或者神经网络框架，现在需要构建一个自动驾驶汽车的框架，那么完全可以借鉴别人的神经网络框架来解决自己的问题。

本文将围绕经典网络中的LeNet-5、AlexNet、VGG-16，ResNet以及Inception神经网络进行实例分析，然后还会介绍如何使用开源资源实现神经网络搭建、迁移学习以及数据增强的方法，最后总结了一下计算机视觉的现状。

2 经典网络（Classic networks）

2.1 LeNet-5

假设有一张32×32×1的图片，LeNet-5可以识别图中的手写数字，比如像这样手写数字7。LeNet-5是针对灰度图片训练的，所以图片的大小只有32×32×1。实际上LeNet-5的结构使用了6个5×5的过滤器，步幅为1。由于使用了6个过滤器，步幅为1，padding为0，则输出结果为28×28×6，图像尺寸从32×32缩小到28×28；然后进行平均池化操作，过滤器的宽度为2，步幅为2，图像的尺寸，高度和宽度都缩小了2倍，输出结果是一个14×14×6的图像。

接下来又是卷积层，现使用一组16个5×5的过滤器，步长为1，padding为0，故新的输出结果为10×10×16；再次进行平均池化操作，过滤器的宽度为2，步幅为2，图像的尺寸，高度和宽度又缩小了2倍，输出结果是一个5×5×16的图像。由于LeNet-5是较早的CNN技术，它总是使用valid卷积，每进行一次卷积，图像的高度和宽度都会缩小，所以这个图像从14到14缩小到了10×10；然后又是池化层，高度和宽度再缩小一半，输出一个5×5×16的图像。将所有数字相乘，乘积是400。

下一层是全连接层，在全连接层中，有400个节点，每个节点有120个神经元，也就是说这个全连接层会输出120个结果，在使用这120个结构构建另一个全连接层，此全连接层有120个节点，每个节点有84个神经元，在这两个全连接层的作用下输出84个结果。

最后一步就是利用这84个特征得到最后的输出，最后需要再加一个节点用来预测 $\widehat{y}$ 的值，由于 $\widehat{y}$ 有10个可能的值，对应识别0-9这10个数字，因此最后的输出应该是10个数字。现在通常使用softmax函数输出十种分类结果，但是以前的LeNet-5并不是采用的softmax函数。

随着LeNet-5网络越来越深，图像的高度和宽度在缩小，从最初的32×32缩小到28×28，再到14×14、10×10，最后只有5×5。与此同时，随着网络层次的加深，通道数量一直在增加，从1增加到6个，再到16个。

以现在的眼光来看，LeNet-5并不是十分高明，但是这个神经网络中还有一种模式至今仍然经常用到，那就是一个或多个卷积层后面跟着一个池化层，然后又是若干个卷积层再接一个池化层，然后是全连接层，最后是输出，这种排列方式很常用。

2.2 AlexNet

AlexNet的步骤：首先用一张227×227×3的图片作为输入第一层，使用96个11×11的过滤器，步幅为4；由于步幅是4，尺寸缩小到55×55，缩小了4倍左右；然后用一个3×3的过滤器构建最大池化层，步幅s为2，卷积层尺寸缩小为27×27×96；接着再执行一个5×5×256的same卷积，输出是27×27×276；然后再次进行最大池化，尺寸缩小到13×13×256；使用384个过滤器再执行一次same卷积，得到的结果是13×13×384；再做一次同样的操作，得到13×13×384；再使用256个过滤器做一次same卷积，得到13×13×256；最后再进行一次3×3的最大池化，步长为2，尺寸缩小到6×6×256。6×6×256等于9216，将其展开为9216个单元，然后是三个维度分别为9216,4096,4096的全连接层；最后使用softmax函数输出1000个识别的可能性，来判断究竟是1000个可能的对象中的哪一个。

实际上，AlexNet与LeNet-5有很多相似之处，不过AlexNet要大得多。LeNet-5大约有6万个参数，而AlexNet包含约6000万个参数。当用于训练图像和数据集时，AlexNet能够处理非常相似的基本构造模块，这些模块往往包含着大量的隐藏单元或数据。

经典的AlexNet结构还有另一种类型的层，叫作“局部响应归一化层”（Local Response Normalization），即LRN层，很多研究者发现LRN起不到太大作用，故这类层应用得并不多。

2.3 VGG-16

与AlexNet相比，VGG-16网络没有那么多超参数，这是一种只需要专注于构建卷积层的简单网络。首先用3×3，步幅为1的过滤器构建卷积层，padding参数为same卷积中的参数；然后用一个2×2，步幅为2的过滤器构建最大池化层。因此VGG网络的一大优点是它确实简化了神经网络结构，下面具体讲讲这种网络结构。

假设上面这个224×224×3的小图是输入图像，进行第一个卷积之后得到224×224×64的特征图，接着还有一层224×224×64，得到这样2个厚度为64的卷积层，这实际上意味着用64个过滤器进行了两次卷积。这里采用的都是大小为3×3，步幅为1的过滤器，并且都是采用same卷积，故不再把所有的层都画出来，只用一串数字代表这些网络。

接下来创建一个池化层，池化层将输入图像进行压缩，从224×224×64缩小到112×112×64。然后又是若干个卷积层，使用128个过滤器，以及一些same卷积，输出112×112×128；然后进行池化，可以推导出池化后的结果是这56×56×128；接着再用256个相同的过滤器进行三次卷积操作，然后再池化，然后再卷积三次，再池化。如此进行几轮操作后，将最后得到的7×7×512的特征图进行两次全连接操作，得到4096个单元，然后进行softmax激活，输出从1000个识别的可能。

顺便说一下，VGG-16的这个数字16，就是指在这个网络中包含16个卷积层和全连接层（池化和卷积算一层，softmax不算）。这确实是个很大的网络，总共包含约1.38亿个参数，即便以现在的标准来看都算是非常大的网络。但VGG-16的结构并不复杂，这点非常吸引人，而且这种网络结构很规整，都是几个卷积层后面跟着可以压缩图像大小的池化层，池化层缩小图像的高度和宽度。同时，卷积层的过滤器数量变化存在一定的规律，由64翻倍变成128，再到256和512。作者可能认为512已经足够大了，所以后面的层就不再翻倍了。无论如何，每一步都进行翻倍，或者说在每一组卷积层进行过滤器翻倍操作，正是设计此种网络结构的另一个简单原则。这种相对一致的网络结构对研究者很有吸引力，而它的主要缺点是需要训练的特征数量非常巨大。

随着VGG-16网络的加深，图像的高度和宽度都在以一定的规律不断缩小，每次池化后刚好缩小一半，而通道数量在不断增加，而且刚好也是在每组卷积操作后增加一倍。也就是说，图像缩小的比例和通道数增加的比例是有规律的。

3 残差网络（Residual Networks ）

非常非常深的神经网络是很难训练的，因为存在梯度消失和梯度爆炸问题。跳跃连接（Skip connection）可以从某一层网络层获取激活，然后迅速反馈给另外一层，甚至是神经网络的更深层。利用跳跃连接构建能够训练深度网络的ResNets，有时深度能够超过100层。

ResNets是由残差块（Residual block）构建的，首先解释一下什么是残差块。

这是一个两层神经网络，在层进行激活，得到 $a^{[l+1]}$ ，再次进行激活，两层之后得到 $a^{[l+2]}$ 。计算过程是从 $a^{[l]}$ 开始，首先进行线性激活，根据这个公式： $z^{[l+1]}=W^{[l+1]} a^{[l]}+b^{[l+1]}$ ，通过 $a^{[l]}$ 算出 $z^{[l+1]}$ ，即 $a^{[l]}$ 乘以权重矩阵，再加上偏差因子。然后通过ReLU非线性激活函数得到 $a^{[l+1]}=g(z^{[l+1]})$ 。接着再次进行线性激活，依据等式 $z^{[l+2]}=W^{[l+2]} a^{[l+1]}+b^{[l+2]}$ ，最后根据 $a^{[l+2]}=g(z^{[l+2]})$ 再次进行ReLu非线性激活，这里的ReLU是指一个非线性函数，最后得到的结果就是 $a^{[l+2]}$ 。换句话说，信息流需要经过以上所有步骤。

在残差网络中有一点变化，现在将 $a^{[l]}$ 直接向前，拷贝到神经网络的深层，在ReLU非线性激活函数前加上 $a^{[l]}$ ，这是一条捷径。 $a^{[l]}$ 的信息直接到达神经网络的深层，不再沿着主路径传递，这就意味着最后这个等式( $a^{[l+2]}=g(z^{[l+2]})$ )去掉了，取而代之的是另一个ReLU非线性函数，仍然对 $z^{[l+2]}$ 进行g函数处理，但这次要加上 $a^{[l]}$ ，即： $a^{[l+2]}=g(z^{[l+2]}+a{[l]})$ ，也就是加上的这个 $a^{[l]}$ 产生了一个残差块。

在上面这个图中，也可以画一条捷径直达第二层。实际上这条捷径是在进行ReLU非线性激活函数之前加上的，而这里的每一个节点都已经执行了线性函数、还未执行ReLU激活函数，所以插入的时机是在线性激活之后，ReLU激活之前。除了捷径，可能还会听到另一个术语“跳跃连接”，就是指跳过一层或者好几层，从而将信息传递到神经网络的更深层，他们指的其实是同一个操作。

ResNet的发明者是何凯明（Kaiming He）、张翔宇（Xiangyu Zhang）、任少卿（Shaoqing Ren）和孙剑西（Jiangxi Sun），他们发现使用残差块能够训练更深的神经网络。所以构建一个ResNet网络就是通过将很多这样的残差块堆积在一起，形成一个很深神经网络。

上图并不是一个残差网络，而是一个普通网络（Plain network），这个术语来自ResNet论文。把它变成ResNet的方法是加上所有跳跃连接，每两层增加一个捷径，构成一个残差块。如下图所示，5个残差块连接在一起构成一个残差网络

如果使用标准优化算法训练一个普通网络，比如说梯度下降法，或者其它热门的优化算法。如果没有残差，没有这些捷径或者跳跃连接，会发现随着网络深度的加深，训练错误会先减少，然后增多。而理论上，随着网络深度的加深，应该训练得越来越好才对。也就是说，理论上网络深度越深越好。但实际上，如果没有残差网络，对于一个普通网络来说，深度越深意味着用优化算法越难训练。实际上，随着网络深度的加深，训练错误会越来越多。

但有了ResNets就不一样了，即使网络再深，训练的表现却不错，比如说训练误差减少，就算是训练深达100层的网络也不例外。这种方式确实有助于解决梯度消失和梯度爆炸问题，在训练更深网络的同时，又能保证良好的性能。也许从另外一个角度来看，随着网络越来深，网络连接会变得臃肿，但是ResNet确实在训练深度网络方面非常有效。

4 残差网络为什么有用？（Why ResNets work?）

一个网络深度越深，它在训练集上训练的效率就会有所减弱，这也是有时候不希望加深网络的原因。而事实并非如此，至少在训练ResNets网络时，并非完全如此，举个例子。

假设有一个大型神经网络，其输入为，输出激活值 $a^{[l]}$ 。假如想增加这个神经网络的深度，用Big NN表示，输出为 $a^{[l]}$ 。再给这个网络额外添加两层，依次添加两层，最后输出为 $a^{[l+2]}$ ，可以把这两层看作一个ResNets块，即具有捷径连接的残差块。为了方便说明，假设在整个网络中使用ReLU激活函数，所以激活值都大于等于0，包括输入的非零异常值。因为ReLU激活函数输出的数字要么是0，要么是正数。

看一下 $a^{[l+2]}$ 的值，也就是表达式 $a^{[l+2]}=g(z^{[l+2]}+a{[l]})$ ，添加项 $a^{[l]}$ 是刚添加的跳跃连接的输入。展开这个表达式 $a^{[l+2]}=g\left(W^{[l+2]} a^{[l+1]}+b^{[l+2]}+a^{[l]}\right)$ ，其中 $z^{[l+2]}=W^{[l+2]} a^{[l+1]}+b^{[l+2]}$ 。注意一点，如果使用L2正则化（控制模型复杂度，减小过拟合的一种技术）或权重衰减，它会压缩 $W^{[l+2]}$ 的值。如果对b应用权重衰减也可达到同样的效果。这里的W是关键项，如果 $W^{[l+2]}=0$ ，为方便起见，再假设 $b^{[l+2]}=0$ ，这几项就没有了，因为它们（ $W^{[l+2]} a^{[l+1]}+b^{[l+2]}$ ）的值为0。最后 $a^{[l+2]}=g\left(a^{[l]}\right)=a^{[l]}$ （因为我们假定使用ReLU激活函数，并且所有激活值都是非负的，而且 $g(a^{[l]})$ 是应用于非负数的ReLU函数，所以 $a^{[l+2]}=a^{[l]}$ ）。

结果表明，残差块学习这个恒等式函数并不难，跳跃连接使得 $a^{[l+2]}=a^{[l]}$ 很容易得出。这意味着，即使给神经网络增加了这两层，它的效率也并不逊色于更简单的神经网络，因为学习恒等函数对它来说很简单。尽管它多了两层，也只把 $a^{[l]}$ 的值赋值给 $a^{[l+2]}$ 。所以给大型神经网络增加两层，不论是把残差块添加到神经网络的中间还是末端位置，都不会影响网络的表现。

当然，不仅仅是保持网络的效率，还要提升它的效率。想象一下，如果这些隐藏层单元学到一些有用信息，那么它可能比学习恒等函数表现得更好。而这些不含有残差块或跳跃连接的深度普通网络情况就不一样了，当网络不断加深时，就算是选用学习恒等函数的参数都很困难，所以很多层最后的表现不但没有更好，反而更糟。

残差网络起作用的主要原因就是这些残差块学习恒等函数非常容易，网络性能不会受到影响，很多时候甚至可以提高效率，或者说至少不会降低网络的效率，因此创建类似残差网络可以提升网络性能。

除此之外，关于残差网络，另一个值得探讨的细节是，假设 $z^{[l+2]}$ 与 $a^{[l]}$ 具有相同维度，所以ResNets使用了许多same卷积，所以这个 $a^{[l]}$ 的维度等于这个输出层的维度。之所以能实现跳跃连接是因为same卷积保留了维度，所以很容易得出这个捷径连接，并输出这两个相同维度的向量。

如果输入和输出有不同维度，比如输入的维度是128， $a^{[l+2]}$ 的维度是256，再增加一个矩阵，这里标记为，是一个256×128维度的矩阵，所以 $W_sa^{[l]}$ 的维度是256，这个新增项是256维度的向量。不需要对做任何操作，它是网络通过学习得到的矩阵或参数，它是一个固定矩阵，padding值为0，用0填充 $a^{[l]}$ ，其维度为256。

最后，来看看ResNets的图片识别。下图是一个普通网络，给它输入一张图片，它有多个卷积层，最后是一个池化层，之后再连接一个全连接层，最后通过Softmax函数输出了1000个可能性。

如何把它转化为ResNets呢？只需要添加跳跃连接。这里只讨论几个细节，这个网络有很多层3×3卷积，而且它们大多都是same卷积，这就是添加等维特征向量的原因。因为它们都是same卷积，维度得以保留，这也解释了添加项 $z^{[l+2]}+a^{[l]}$ （维度相同所以能够相加）。

ResNets类似于其它很多网络，也会有很多卷积层，其中偶尔会有池化层或类池化层的层。不论这些层是什么类型，都需要调整矩阵的维度（维度相同才能相加)。普通网络和ResNets网络常用的结构是：卷积层-卷积层-卷积层-池化层-卷积层-卷积层-卷积层-池化层……依此重复。直到最后，有一个通过softmax进行预测的全连接层。

5 网络中的网络或 1×1 卷积（Network in Network or 1×1 convolutions）

在架构内容设计方面，其中一个比较有帮助的想法是使用1×1卷积。下面使用一个实例来解释1×1的卷积作用。

过滤器为1×1（这里是数字2），输入一张6×6×1的图片，然后对它做卷积，过滤器大小为1×1×1，结果相当于把这个图片乘以数字2，所以前三个单元格分别是2、4、6等等。用1×1的过滤器进行卷积，似乎用处不大，只是对输入矩阵乘以某个数字。但这仅仅是对于6×6×1的一个通道图片来说，1×1卷积效果不佳。

如果是一张6×6×32的图片，那么使用1×1过滤器进行卷积效果更好。具体来说，1×1卷积所实现的功能是遍历这36个单元格，计算左图中32个数字和过滤器中32个数字的元素积之和，然后应用ReLU非线性函数。

以其中一个单元为例，它是这个输入层上的某个切片，用这36个数字乘以这个输入层上1×1切片，得到一个实数。这个1×1×32过滤器中的32个数字可以这样理解，一个神经元的输入是32个数字（输入图片中左下角位置32个通道中的数字），即相同高度和宽度上某一切片上的32个数字，这32个数字具有不同通道，乘以32个权重（将过滤器中的32个数理解为权重），然后应用ReLU非线性函数，在这里输出相应的结果。

一般来说，如果过滤器不止一个，而是多个，就好像有多个输入单元，其输入内容为一个切片上所有数字，输出结果是6×6过滤器数量。

所以1×1卷积可以从根本上理解为对这32个不同的位置都应用一个全连接层，全连接层的作用是输入32个数字（过滤器数量标记为 $n^{[l+1]}_C$ ，在这36个单元上重复此过程），输出结果是6×6× $n^{[l+1]}_C$ ，以便在输入层上实施一个非平凡（non-trivial）计算。

这种方法通常称为1×1卷积，有时也被称为Network in Network。下面举个1×1卷积的应用例子。

假设这是一个28×28×192的输入层，可以使用池化层压缩它的高度和宽度，但如果通道数量很大，该如何把它压缩为28×28×32维度的层呢？可以用32个大小为1×1×192的过滤器，此过滤器的输出层为28×28×32，这就是压缩通道数（）的方法，对于池化层只是压缩了这些层的高度和宽度。当然如果想保持通道数不变甚至更多，这也是可行的，使用其他数量的过滤器即可。另外，1×1卷积只是添加了非线性函数，当然也可以让网络学习更复杂的函数。总之，可以使用池化层压缩图片的高度和宽度，而要压缩图片的通道数，需要使用1×1卷积。

6 Inception 模块简介（Inception module profile）

构建卷积层时，需要决定过滤器的大小究竟是1×1，3×3还是5×5，或者要不要添加池化层。而Inception网络的作用就是决定如何选择过滤器大小，虽然网络架构因此变得更加复杂，但网络表现却非常好，下面来了解一下其中的原理。

例如，这是一个28×28×192维度的输入层，Inception网络或Inception层的作用就是代替人工来确定卷积层中的过滤器类型，或者确定是否需要创建卷积层或池化层，下面来演示一下。

如果使用1×1×64卷积，输出为28×28×64，并且这里只有一个层。如果使用3×3×128的过滤器，且进行same卷积，那么输出是28×28×128；然后把第二个值堆积到第一个值上。

再使用用5×5过滤器，且为same卷积，输出变成28×28×32；然后把第三个值堆积到第二个值上。

除了卷积操作以外，还可以使用池化操作，这里的池化输出是28×28×32。为了匹配所有维度，需要对最大池化使用padding，且步幅为1，然后将输出结果再次堆叠起来。

对于这样的Inception模块，若输入为28×28×192，则输出为28×28×256（因为叠加了4层，输入一个数据，就会有32+32+128+64=256个输出）。Inception网络不需要人为决定使用哪个过滤器或者是否需要池化，而是由网络自行确定这些参数，可以给网络添加这些参数的所有可能值，然后把这些输出连接起来，让网络自己学习它需要什么样的参数，采用哪些过滤器组合。

不难发现，Inception层有一个问题，就是计算成本可能会很高，下面以一个5×5过滤器在该模块中的计算成本为例。

这是一个28×28×192的输入块，执行一个5×5卷积，它有32个过滤器，输出为28×28×32。现在计算这个28×28×32输出的计算成本。它有32个过滤器，每个过滤器大小为5×5×192，输出大小为28×28×32，所以要计算28×28×32个数字。对于输出中的每个数字来说，都需要执行5×5×192次乘法运算，所以乘法运算的总次数为每个输出值所需要执行的乘法运算次数（5×5×192）乘以输出值个数（28×28×32），把这些数相乘结果等于1.2亿(120422400)。即使在现在，用计算机执行1.2亿次乘法运算，成本也是相当高的。

这里还有另外一种架构，其输入为28×28×192，输出为28×28×32。其结构是这样的，对于输入层，使用1×1卷积把输入值从192个通道减少到16个通道。然后对这个较小层运行5×5卷积，得到最终输出。注意，输入和输出的维度依然相同，输入是28×28×192，输出是28×28×32，它只有32个通道，而不是192个。本架构做的就是把左边这个大的输入层压缩成右边这个较小的的中间层。

上图这一层有时候这被称为瓶颈层，所谓的瓶颈通常是某个对象最小的部分，假如有这样一个玻璃瓶，这是瓶塞位置，瓶颈就是这个瓶子最小的部分；同理，瓶颈层也是网络中最小的部分，先缩小网络然后再扩大它。

接下来看看带瓶颈结构网络的计算成本。应用1×1卷积，过滤器个数为16，每个过滤器大小为1×1×192，这两个维度相匹配（输入通道数与过滤器通道数），28×28×16这个层的计算成本是，输出28×28×192中每个元素都做1×1×192次乘法，相乘结果约等于240万。

240万只是第一个卷积层的计算成本，对于第二个卷积层，输出为28×28×32，对每个输出值应用一个5×5×16维度的过滤器，计算结果为1000万。

所以所需要乘法运算的总次数是这两层的计算成本之和，也就是1204万，计算成本从1.2亿下降到了原来的十分之一，即1204万（所需要的加法运算与乘法运算的次数近似相等，故只统计了乘法运算的次数）。

总结一下，如果在构建神经网络层的时候，不想决定池化层是使用1×1，3×3还是5×5的过滤器，那么Inception模块就是最好的选择。Inception模块可以应用各种类型的过滤器，只需要把输出连接起来。还可以通过使用1×1卷积来构建瓶颈层，来大大降低计算成本。另外，只要合理构建瓶颈层，既可以显著缩小表示层规模，又不会降低网络性能，从而节省了计算。

7 Inception 网络（Inception network）

在上节介绍了Inception网络基础模块。本节将这些模块组合起来，构筑成为Inception网络。

Inception模块会将之前层的激活或者输出作为它的输入，以一个28×28×192的输入为例，先通过一个1×1的卷积层，再通过一个5×5的卷积层，其中，1×1的卷积层有16个通道，而5×5的卷积层输出为28×28×32，共32个通道。

为了在这个3×3的卷积层中节省运算量，也可以做相同的操作，不过1×1的卷积层有96个通道，而3×3的卷积层有128个通道，这样的话3×3的层将会输出28×28×128。

还可以直接通过一个1×1×64的卷积层，这时就不必在后面再跟一个1×1的层了，这样的话过程就只有一步，这个层的输出是28×28×64。

最后是池化层。

为了能在最后将这些输出都连接起来，会使用same类型的padding来池化，使得输出的高和宽依然是28×28，这样才能将它与其他输出连接起来。但注意，对于最大池化，即便用了same padding，3×3的过滤器，stride为1，其输出将会是28×28×192，其通道数或者说深度与这里的输入（通道数）相同；所以看起来它会有很多通道，需要再加上一个1×1的卷积层，将通道的数量缩小到28×28×32，也就是使用32个维度为1×1×192的过滤器，所以输出的维度其通道数缩小为32。这样就避免了最后输出时，池化层占据所有的通道。

最后，将这些方块全都连接起来。在这个过程中，把得到的各个层的通道都加起来，最后得到一个28×28×256的输出（64+128+32+32=256）。通道连接实际就是把所有方块连接在一起。上图所示的就是一个Inception模块，而Inception网络所做的就是将这些模块都组合到一起。

上图是一张关于Inception网络的图片，整张图看上去很复杂，但其实本质来说就是不同的Inception模块拼接在一起。

事实上在Inception网络还存在一些分支。在网络的最后几层，通常称为全连接层，在它之后是一个softmax层（编号1）来做出预测，编号为2的分支所做的就是通过隐藏层（编号3）来做出预测，所以这其实也是一个softmax输出（编号2）。编号4也包含了一个隐藏层，再通过一些全连接层，然后有一个softmax来预测，输出结果的标签。应该把这些合分支看做Inception网络的一个细节，它确保了隐藏单元和中间层（编号5）也参与了特征计算，它们也能预测图片的分类，在Inception网络中，起到一种调整的效果，并且能防止网络发生过拟合。

此外，还有一个由Google公司研发的Inception网络，它被叫做GoogleLeNet，这个名字是为了向LeNet网络致敬。

最后总结一下，理解了Inception模块之后，再来理解Inception网络就比较简单，它无非是很多个Inception模块一环接一环，最后组成了网络。自从Inception模块诞生以来，经过研究者们的不断发展，衍生了许多新的版本，比如Inception V2、V3以及V4，还有一个版本引入了跳跃连接的方法，有时也会有特别好的效果，但所有的这些变体都建立在同一种基础的思想上。

8 使用开源的实现方案（Using open-source implementations）

事实证明很多神经网络复杂细致，因而难以复制，因为一些参数调整的细节问题，例如学习率衰减等等，会影响性能。甚至在顶尖大学学习AI或者深度学习的博士生也很难通过阅读别人的研究论文来复制他人的成果。幸运的是有很多深度学习的研究者都习惯把自己的成果作为开发资源，放在像GitHub之类的网站上。

下面以残差网络为例讲解如何开源实现它的框架。首先搜索GitHub上的ResNets，然后就可以看到很多不同的ResNet的实现。打开第一个网址即可（ResNets实现的GitHub地址https://github.com/KaimingHe/deep-residual-networks），这是一个ResNets实现的GitHub资源库；在资源库网页由上往下翻，会看到一些描述这个实现的文字说明；点击页面的下载链接后就能够以压缩包的形式下载源代码。

在开发一个计算机视觉应用时，一个常见的工作流程是先选择一个喜欢的架构，接着在GitHub寻找一个开源实现，然后从GitHub上下载下来，以此基础开始构建。这样做的优点在于，这些网络通常都需要很长的时间来训练，而或许有人已经使用多个GPU，通过庞大的数据集预先训练了这些网络，这样一来就可以使用这些网络进行迁移学习。

9 迁移学习（Transfer Learning）

如果要做一个计算机视觉的应用，相比于从头训练权重，或者说从随机初始化权重开始，如果能够下载别人已经训练好的网络结构的权重，用别人训练好的参数作为预训练，然后转换到自己的任务上，那将会节约很多时间。计算机视觉的研究社区非常喜欢把许多数据集上传到网上，比如ImageNet，或者MS COCO，或者Pascal类型的数据集，这些都是不同数据集的名字，它们都是由大家上传到网络的，并且有大量的计算机视觉研究者已经用这些数据集训练过他们的算法了。有时候这些训练过程需要花费好几周，并且需要很多的GPU。其它人已经做过了，并且经历了非常痛苦的寻最优过程，这就意味着可以下载花费了别人好几周甚至几个月而做出来的开源的权重参数，把它当作一个很好的初始化用在自己的神经网络上。下面具体说明如何用迁移学习把公共的数据集的知识迁移到自己的问题上。

举个例子，假如说要建立一个猫咪检测器，用来检测自己的宠物猫。比如网络上的Tigger，是一个常见的猫的名字，Misty也是比较常见的猫名字。假如有两只猫叫Tigger和Misty，还有一种情况是，两者都不是。所以现在有一个三分类问题，图片里是Tigger还是Misty，或者都不是（忽略两只猫同时出现在一张图片里的情况）。现在可能没有大量Tigger或者Misty的图片，所以训练集会很小。

现可以从网上下载一些神经网络开源的实现，不仅把代码下载下来，也把权重下载下来。举个例子，ImageNet数据集，它有1000个不同的类别，因此这个网络会有一个Softmax单元，它可以输出1000个可能类别之一。

可以去掉这个Softmax层，创建自己的Softmax单元，用来输出Tigger、Misty和neither三个类别。就网络而言，建议把所有的层看作是冻结的，冻结网络中所有层的参数，只需要训练和自己的Softmax层有关的参数。这个Softmax层有三种可能的输出，Tigger、Misty或者都不是。

通过使用其他人预训练的权重，即使只有一个小的数据集，也很可能得到很好的性能。幸运的是，大多数深度学习框架都支持这种操作，事实上，取决于用的框架，它也许会有trainableParameter=0这样的参数，对于这些前面的层，可能会设置这个参数。为了不训练这些权重，有时也会有freeze=1这样的参数。不同的深度学习编程框架有不同的方式，允许指定是否训练特定层的权重。在这个例子中，只需要训练softmax层的权重，把前面这些层的权重都冻结。

另一个技巧，也许对一些情况有用，由于前面的层都冻结了，相当于一个固定的函数，不需要改变。因为不需要改变它，也不训练它，取输入图像，然后把它映射到这层（softmax的前一层）的激活函数。所以这个能加速训练的技巧就是，如果先计算这一层（紫色箭头标记），计算特征或者激活值，然后把它们存到硬盘里。现在需要做的就是用这个固定的函数，在这个神经网络的前半部分（softmax层之前的所有层视为一个固定映射），取任意输入图像，然后计算它的某个特征向量，这样所训练的就是一个很浅的softmax模型，用这个特征向量来做预测。对现在计算有用的一步就是对训练集中所有样本的这一层的激活值进行预计算，然后存储到硬盘里，然后在此之上训练softmax分类器。所以，存储到硬盘或者说预计算方法的优点就是不需要每次遍历训练集再重新计算这个激活值了。

因此如果任务只有一个很小的数据集，可以冻结softmax层之前的所有层。如果现在有一个较大的训练集，就应该冻结更少的层，比如只把下图最右边的两层冻结，然后训练后面的层。如果输出层与模板的类别不同，那么需要构建自己的输出单元。比如可以取后面几层的权重，用作初始化，然后开始梯度下降。

或者可以直接去掉后面这几层，换成自己的隐藏单元和softmax输出层，这些方法值得一试。但是有一个规律，如果有越来越多的数据，需要冻结的层数越少，能够训练的层数就越多。这个理念就是，如果有一个更大的数据集，那么不要单单训练一个softmax单元，而是考虑训练中等大小的网络，包含最终要用的网络的后面几层。

最后，如果有大量数据，应该做的就是用开源的网络和它的权重，把这所有的权重当作初始化，然后训练整个网络。极端情况下，可以用下载的权重只作为初始化，用它们来代替随机初始化，接着可以用梯度下降训练，更新网络所有层的所有权重。

以上就是卷积网络训练中的迁移学习。事实上，网上的公开数据集非常庞大，对于很多计算机视觉的应用，如果下载其他人的开源的权重，并用作自己问题的初始化，效果会更好。除非有一个极其大的数据集和非常大的计算量预算来从头训练网络，否则迁移学习是非常值得考虑的。

10 数据增强（Data augmentation）

大部分的计算机视觉任务需要使用很多的数据，所以数据扩充是经常使用的一种技巧。计算机视觉是一个相当复杂的工作——需要输入图像的像素值，然后弄清楚图片中有什么，似乎需要学习一个复杂方程来做这件事。在实践中，更多的数据对大多数计算机视觉任务都有所帮助，不像其他领域，有时候得到充足的数据，但是效果并不怎么样。但是，当下在计算机视觉方面，计算机视觉的主要问题是没有办法得到充足的数据。对大多数机器学习应用，这不是问题，但是对计算机视觉，数据就远远不够。所以这就意味着当训练计算机视觉模型的时候，数据扩充会有所帮助，这是可行的，无论是使用迁移学习从别人的预训练模型开始，或者从源代码开始训练模型。下面介绍一些计算机视觉中常见的数据扩充的方法。

最简单的数据扩充方法或许是垂直镜像对称。假如，训练集中有一张上图所示的图片，然后将其翻转得到右边的图像。对大多数计算机视觉任务，左边的图片镜像对称后仍然是猫，如果镜像操作能够保留了图像中想识别的物体，那他将是个很实用的数据扩充技巧。

另一个经常使用的技巧是随机裁剪，给定一个数据集，然后开始随机裁剪，可以得到不同的图片。随机裁剪并不是一个完美的数据扩充的方法，如果随机裁剪的那一部分（红色方框标记部分，编号4），这部分看起来不像猫。但在实践中，这个方法还是很实用的，随机裁剪构成了很大一部分的真实图片。

镜像对称和随机裁剪是经常被使用的两种方法。当然，理论上，也可以使用旋转，剪切（shearing：此处并非裁剪的含义，图像仅水平或垂直坐标发生变化）图像，可以对图像进行扭曲变形，引入局部弯曲等等。在实践中，这些方法因为太复杂了所以使用的很少。

第三种经常使用的方法是彩色转换，对一张图片的R、G和B三个通道上加上不同的失真值。

上图编号1中的图片是给红色、蓝色通道加值，给绿色通道减值。红色和蓝色会产生紫色，使整张图片看起来偏紫；在第二个例子中（编号2），少用了一点红色，用了更多的绿色和蓝色色调，这就使得图片偏黄一点；在第三个例子中（编号3）使用了更多的蓝色，仅仅多了点红色。这样训练集中就有了失真的图片。

这里对图片的颜色进行改变比较夸张，而在实践中，R、G和B的值是根据某种概率分布来决定的，其改变可能会很小。

改变色彩除了能够扩充数据集外这个原因外，还有一个原因就是图像的颜色会受到阳光、灯光照明等外部条件的影响，这些因素对图片内容的识别结果会产生干扰，因此采用颜色失真的方法，会使得学习算法对照片的颜色更改更具鲁棒性。

正如前文所说，对R、G和B有不同的采样方式，其中一种影响颜色失真的算法是PCA颜色增强，即主成分分析。PCA颜色增强的大概含义是如果图片呈现紫色，即主要含有红色和蓝色，绿色很少，然后PCA颜色增强算法就会对红色和蓝色增减很多，绿色变化相对少一点，所以使总体的颜色保持一致。如果不懂PCA技术，好在能够方便地找到PCA颜色增强的开源实现方法，然后直接使用它。

存储好的训练数据通常存在硬盘上，使用圆桶来表示硬盘。计算机通过CPU线程不停的从硬盘中读取图片数据，因此通常可以使用CPU线程来实现上述的失真变形——可以是随机裁剪、颜色变化，或者是镜像。对每张图片得到对应的某一种变形失真形式，对其进行镜像变换可以得到编号1的图片，对其使用颜色失真，这张图最后会发生颜色变化（编号2）。

与此同时，CPU线程持续加载数据，然后实现任意失真变形，从而构成批数据或者最小批数据，这些数据持续的传输给其他线程或者其他的进程，然后开始训练，可以在CPU或者GPU上实现训一个大型网络的训练。

常用的实现数据扩充的方法是使用一个线程或者是多线程，这些可以用来加载数据，实现变形失真，然后传给其他的线程或者其他进程，来训练不同的图片。

11 计算机视觉现状（The state of computer vision）

深度学习已经成功地应用于计算机视觉、自然语言处理、语音识别、在线广告、物流还有其他许多问题。在计算机视觉的现状下，计算机视觉领域的深度学习应用有一些独特之处。

大部分机器学习问题是介于少量数据和大量数据范围之间的。举个例子，相对于图像识别这个问题的复杂性而言，可以认为语音识别领域有相当数量的识别数据；虽然现在图像识别或图像分类方面也有大量数据集，但是图像识别是一个复杂的问题，即使在线数据集非常大，如超过一百万张图片，大家仍然希望能有更多的数据。还有一些问题，比如物体检测，拥有的数据更少。提醒一下，图像识别其实是判断图片里是否存在某一物体，比如判断图片里是不是有一只猫；对象检测则是看一幅图，然后判断这幅图片里面物体是什么，比如汽车等等。因为获取边框的成本比标记对象的成本更高，所以进行对象检测的数据往往比图像识别数据要少。

所以，当有很多数据时，人们倾向于使用更简单的算法和更少的手工工程，因为不需要为这个问题精心设计特征。当有大量的数据时，只要有一个大型的神经网络，甚至一个更简单的架构，可以是一个神经网络，就可以去学习它想学习的东西。

相反当没有那么多的数据时，人们从事更多的是手工工程，低调点说就是有很多小技巧可用（在机器学习或者深度学习中，一般更崇尚更少的人工处理，而手工工程更多依赖人工处理）。

学习算法有两种知识来源，一个来源是被标记的数据；第二个知识来源是手工工程。有很多方法去建立一个手工工程系统，它可以是源于精心设计的特征，手工精心设计的网络体系结构或者是系统的其他组件。当没有太多标签数据时，只需要更多地考虑手工工程。

所以计算机视觉是在试图学习一个非常复杂的功能，经常感觉没有足够的数据，即使获得了更多数据，还是经常觉得还是没有足够的数据来满足需求。这就是为什么计算机视觉，从过去甚至到现在都更多地依赖于手工工程——这也是计算机视觉领域发展相当复杂网络架构的原因，在缺乏更多数据的情况下，获得良好表现的方式还是花更多时间进行架构设计，或者说在网络架构设计上花费（更多时间。

幸运的是，当只有少量的数据时，还有迁移学习。迁移学习会有很大帮助，有相对较少的数据时就可以产生很多相似的数据。

下面是一些有助于在基准测试中表现出色的小技巧。（整理者注：Benchmark 基准测试，Benchmark是一个评价方式，在计算机领域应用最成功的就是性能测试，主要测试负载的执行时间、传输速度、吞吐量、资源占用率等。）

其中一个是集成。在确定了自己的神经网络之后，可以独立训练几个神经网络，并平均它们的输出。比如说随机初始化三个、五个或者七个神经网络，然后训练所有这些网络，然后平均它们的输出。另外对他们的输出进行平均计算是很重要的，不要平均他们的权重，这是行不通的。对7个神经网络，它们有7个不同的预测，然后平均他们，这可能会使得预测在基准上提高1%，2%或者更好。7个神经网络意味着一张图片需要被运算7次，这可能会让运行时间变慢。

对基准测试有帮助的另一个技巧就是Multi-crop at test time，它是一种将数据扩充应用到测试图像中的一种形式。

举个例子，然后把一张猫的图片复制四遍，再将它的镜像版本也复制四遍，最终得到10张图片。再使用一种叫作10-crop的技术（crop理解为裁剪的意思）：取图片的中心区域进行裁剪裁剪，然后通过分类器去运行它；然后取左上角区域，运行分类器；右上角用绿色表示；左下方用黄色表示；右下方用橙色表示，统统通过分类器来运行它；然后对镜像图像做同样的事情。

编号1和编号3就是中心crop，编号2和编号4是四个角落的crop。如果把这些加起来，就会有10种不同的图像的crop，因此将这种multi-crop技术命名为10-crop。所以要做的就是，通过分类器来运行这十张图片，然后对结果进行平均。如果有足够的计算预算，当然可以这么做，甚至可以使用更多crop，这可能会获得更好的性能。

集成的一个大问题是需要保持所有这些不同的神经网络，这就占用了更多的计算机内存。对于multi-crop，只保留一个网络，所以它不会占用太多的内存，但它仍然会让运行时间变慢。

这些小技巧在基准测试和竞赛上做得很好，研究论文也可以参考这些，但在构建生产系统时并不推荐使用这些方法。

由于计算机视觉问题建立在小数据集之上，其他人已经完成了大量的网络架构的手工工程。一个神经网络在某个计算机视觉问题上很有效，它通常也会解决其他计算机视觉问题。所以，要想建立一个实用的系统，最好先从其他人的神经网络架构入手。如果可能的话，可以使用开源的一些应用，因为开放的源码实现可能已经找到了所有繁琐的细节，比如学习率衰减方式或者超参数。最后，其他人可能已经在几个GPU上花了几个星期的时间来训练一个模型，训练了超过一百万张图片，所以通过使用其他人预先训练得到的模型，然后在数据集上进行微调，就可以在应用程序上运行得更快。

12 后记

本文是对吴恩达的深度学习教程的文字总结，其文字以及图片主要来自于视频以及笔记。在学习了视频教程内容后，基于课程笔记的内容以及自己对卷积神经网络的理解，最终成此文。相比于笔记原文档，本文基本没有改变原文档的内容与布局，只对文中极少部分内容进行了微调。

此外，如果需要吴恩达卷积神经网络教程的PDF课件，可以参见参考文献的连接。

你可能感兴趣的:(深度学习与机器学习,机器学习,深度学习,人工智能,卷积神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe