老光头_ME2CS

深度学习机器视觉经典卷积神经网络 Tensorflow2.0 keras.applications

前言：
最近在学习深度学习时发现各类经典网络成为高频词，比如AlexNet、VGG、GoogLeNet、Inception、Xception、ResNet、MobileNet、SENet、CBAM、DenseNet、NASNet等等。快速整理了如下内容，为大家快速了解经典网络的结构特点提供一个参考。
由于博主能力有限，内容大多引自网络博客，并未严格考证如有错误之处望予以指出，后续也会逐步修正和补充一些实现后的代码。

经典卷积神经网络

背景
Keras.applications
- VGG16
- - 背景 (2014)
  - 网络结构
  - 结果
  - 讨论
  - 参考
- VGG19
- - 网络结构
  - TF2.0代码复现
  - 参考
- ResNet
- - 背景(2015)
  - 网络结构
  - 结果
  - 讨论
  - TF2.0代码复现
  - 参考
- InceptionV3
- - 背景 (2015)
  - 网络结构
  - 结果
  - 讨论
  - 参考
- InceptionResNetV2
- - 背景（2016）
  - 网络结构
  - 结果
  - 讨论
  - TF2.0代码复现
  - 参考
- Xception
- - 背景 (2017)
  - 网络结构
  - 结果
  - 讨论
  - 参考
- MobileNet
- - 背景(2017)
  - 网络结构
  - 结果
  - 讨论
  - [TF2.* 代码实现](https://blog.csdn.net/Forrest97/article/details/106216395)
  - 参考
- DenseNet
- - 背景(2018)
  - 网络结构
  - 结果
  - 讨论
  - TF2.0代码复现
  - 参考
- NASNet
- - 背景(2018)
  - 网络结构
  - 结果
  - 讨论
  - 参考
- MobileNetV2
- - 背景(2019)
  - 网络结构
  - 结果
  - 讨论
  - [TF2.* 代码实现](https://blog.csdn.net/Forrest97/article/details/106223297)
  - 参考
- SENet & CBAM
总结
迁移学习
- 使用keras.application代码实现
- 使用keras team GitHub
- 使用Tensorflow slim

背景

自2012至今近十年的深度学习发展中，机器视觉领域涌现了一大批性能突出的深度卷积神经网络结构。这些经典网络就好比我们在烹饪深度学习这道美食的不可获取的重要食材，了解并掌握不同结构的特点和基本原理，为我们活学活用卷积神经网络，快速应用于实践中，能够起到事半功倍的效果。
但由于大型神经网络规模巨大，个人电脑难以实现大规模数据集合的模型训练。Tensorflow.Keras.applications中便提供了不少基于ImageNet完成训练的经典网络模型和权值。基于大规模图像数据集训练的卷积神经网络被认为具有突出的图像特征提取的功能，被广泛应用于图像分类、语义分割、人脸识别和目标检测等实际场景中。
希望借此文，方便大家一窥经典深度卷积网络，并站在经典网络的肩膀上迅速开展自己的研究。

Keras.applications

如下，Keras官网提供了近二十组经典网络模型和权重参数。借此内容按照时间顺序展开进行介绍。

官网链接

VGG16

背景 (2014)

VGG是Oxford的Visual Geometry Group的组提出的（大家应该能看出VGG名字的由来了）在2014年提出来的模型。当这个模型被提出时，由于它的简洁性和实用性，马上成为了当时最流行的卷积神经网络模型。它在图像分类和目标检测任务中都表现出非常好的结果。
VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）

网络结构

VGG16包含了16个隐藏层（13个卷积层和3个全连接层）
VGG网络的结构非常一致，从头到尾全部使用的是3x3的卷积和2x2的max pooling

结果

讨论

VGG优点

VGGNet的结构非常简洁，整个网络都使用了同样大小的卷积核尺寸（3x3）和最大池化尺寸（2x2）。
几个小滤波器（3x3）卷积层的组合比一个大滤波器（5x5或7x7）卷积层好
验证了通过不断加深网络结构可以提升性能。

VGG缺点

VGG耗费更多计算资源，并且使用了更多的参数（这里不是3x3卷积的锅），导致更多的内存占用（140M）。其中绝大多数的参数都是来自于第一个全连接层。VGG可是有3个全连接层啊！

参考

论文：Very Deep Convolutional Networks for Large-Scale Image Recognition.
代码的github链接：https://github.com/liuzhuang13/DenseNet
参考博文: https://github.com/machrisaa/tensorflow-vgg

VGG19

网络结构

VGG19包含了19个隐藏层（16个卷积层和3个全连接层）

TF2.0代码复现

https://blog.csdn.net/Forrest97/article/details/106135431

参考

论文：Very Deep Convolutional Networks for Large-Scale Image Recognition.
参考博文: https://github.com/machrisaa/tensorflow-vgg

ResNet

背景(2015)

深度卷积网络在图像分类任务上取得了一系列突破。深度网络通过多层端到端的方式，集成了低中高三个层次的特征和分类器，并且这些特征的数量还可以通过堆叠层数来增加。在ImageNet数据集上获胜的网络揭示了网络深度的重要性。
随着网络层数的增加，训练的问题随之凸显。比较显著的问题有梯度消失/爆炸，这会在一开始就影响收敛。收敛的问题可以通过正则化来得到部分的解决。
在深层网络能够收敛的前提下，随着网络深度的增加，正确率开始饱和甚至下降，称之为网络的退化(degradation)问题。示例可见Figure 1. 显然，56层的网络相对于20层的网络，不管是训练误差还是测试误差都显著增大。

很明显，这些退化并不是过拟合造成的。在给定的网络上增加层数会增大训练误差。网络的退化说明不是所有的系统都很容易优化。考虑一个浅层的网络架构和在它基础上构建的深层网络，在极端条件下，如果增加的所有层都是前一层的直接复制（即y=x），这种情况下深层网络的训练误差应该和浅层网络相等。因此，网络退化的根本原因还是优化问题。为了解决优化的难题，提出了残差网络。

网络结构

ResNet 通过在卷积层的输入和输出之间添加Skip Connection 实现层数回退机制，如下
图所示，输入通过两个卷积层，得到特征变换后的输出ℱ()，与输入进行对应元
素的相加运算，得到最终输出
ℋ() = + ℱ()
ℋ()叫做残差模块(Residual Block，ResBlock)。由于被Skip Connection 包围的卷积神经网络需要学习映射ℱ() = ℋ() − ，故称为残差网络。

为了能够满足输入与卷积层的输出ℱ()能够相加运算，需要输入的shape 与ℱ()的shape 完全一致。当出现shape 不一致时，一般通过在Skip Connection 上添加额外的卷积运算环节将输入变换到与ℱ()相同的shape，如图 10.63 中identity()函数所示，其中identity()以1x1 的卷积运算居多，主要用于调整输入的通道数。
下图对比了34 层的深度残差网络、34 层的普通深度网络以及19 层的VGG 网络结构。可以看到，深度残差网络通过堆叠残差模块，达到了较深的网络层数，从而获得
了训练稳定、性能优越的深层网络。

结果

分别使用18层的plain nets和34层的plain nets，结果显示34层的网络有更高的验证误差。下图比较了整个过程的训练和测试误差：

注：细实线代表训练误差，粗实线代表验证误差。左侧为plain nets，右侧为ResNet。这种优化上的困难不是由于梯度消失造成的，因为在网络中已经使用了BN，保证了前向传播的信号有非零的方差。猜想深层的神经网络的收敛几率随着网络层数的加深，以指数的形式下降，导致训练误差很难降低
测试18层和34层的ResNet。注意到34层的训练和测试误差都要比18层的小。这说明网络退化的问题得到了部分解决，通过加深网络深度，可以提高正确率。注意到18层的plain net和18层的ResNet可以达到相近的正确率，但是ResNet收敛更快。这说明网络不够深的时候，SGD还是能够找到很好的解。

Identity vs. Projection Shortcuts
比较了三种选择：
（A）zero-padding shortcuts用来增加维度（Residual block的维度小于输出维度时，使用0来进行填充），所有的shortcut无参数。
（B）projection shortcuts用来增加维度（维度不一致时使用），其他的shortcut都是恒等映射（identity）类型。
（C）所有的shortcut都是使用projection shortcuts。

结果表明，这三种选择都有助于提高正确率。其中，B比A效果好，原因可能是A中zero-padded的维度没有使用残差学习。C比B效果好，原因可能是projection shortcuts中引入的参数。但是ABC中的结果表明，projection shortcuts对于解决网络的退化问题是没有作用的，对于正确率的提升作用也十分有限。所以，从减少模型参数，降低复杂度的角度考虑，使用Identity shortcuts就已经足够了。

Deeper Bottleneck Architectures.
在探究更深层网络性能的时候，处于训练时间的考虑，我们使用bottleneck design的方式来设计building block。对于每一个残差函数FF，使用一个三层的stack代替以前的两层。这三层分别使用1×1, 3×3, 和 1×1的卷积。其中，1×1卷积用来降维然后升维，即利用1×1卷积解决维度不同的问题。3×3对应一个瓶颈（更少的输入、输出维度）。Fig.5 展示了这种设计。

50、101和152层的ResNet相对于32层网络有更高的准确率。Table3和4中给出了测试结果。

讨论

ResNet和Highway Network的思路比较类似，都是将部分原始输入的信息不经过矩阵乘法和非线性变换，直接传输到下一层。这就如同在深层网络中建立了许多条信息高速公路。ResNet通过改变学习目标，即不再学习完整的输出F(x)，而是学习残差H(x)−x，解决了传统卷积层或全连接层在进行信息传递时存在的丢失、损耗等问题。通过直接将信息从输入绕道传输到输出，一定程度上保护了信息的完整性。同时，由于学习的目标是残差，简化了学习的难度。根据Schmidhuber教授的观点，ResNet类似于一个没有gates的LSTM网络，即旁路输入x一直向之后的层传递，而不需要学习。有论文表示，ResNet的效果类似于对不同层数网络进行集成方法。

TF2.0代码复现

https://blog.csdn.net/Forrest97/article/details/106136435

参考

论文：Deep Residual Learning for Image Recognition.
参考博文: https://blog.csdn.net/csdnldp/article/details/78313087
何恺明主页：http://kaiminghe.com/

InceptionV3

背景 (2015)

GoogLeNet
在Going deeper with convolutions论文中，作者提出一种深度卷积神经网络 Inception，它在 ILSVRC14 中达到了当时最好的分类和检测性能。该架构的主要特点是更好地利用网络内部的计算资源，这通过一个精心制作的设计来实现，该设计允许增加网络的深度和宽度，同时保持计算预算不变。为了优化质量，架构决策基于赫布原则和多尺度处理。作者向 ILSVRC14 提交使用该架构的模型即 GoogLeNet，这是一个 22 层的深度网络，它的质量是在分类和检测领域进行了评估。
为什么不在同一层级上运行具备多个尺寸的滤波器呢？网络本质上会变得稍微「宽一些」，而不是「更深」。作者因此设计了 Inception 模块。
下图是「原始」Inception 模块。它使用 3 个不同大小的滤波器（1x1、3x3、5x5）对输入执行卷积操作，此外它还会执行最大池化。所有子层的输出最后会被级联起来，并传送至下一个 Inception 模块。

如前所述，深度神经网络需要耗费大量计算资源。为了降低算力成本，作者在 3x3 和 5x5 卷积层之前添加额外的 1x1 卷积层，来限制输入信道的数量。尽管添加额外的卷积操作似乎是反直觉的，但是 1x1 卷积比 5x5 卷积要廉价很多，而且输入信道数量减少也有利于降低算力成本。不过一定要注意，1x1 卷积是在最大池化层之后，而不是之前。

GoogLeNet 有 9 个线性堆叠的 Inception 模块。它有 22 层（包括池化层的话是 27 层）。该模型在最后一个 inception 模块处使用全局平均池化。和所有深层网络一样，它也会遇到梯度消失问题。为了阻止该网络中间部分梯度的「消失」过程，作者引入了两个辅助分类器（上图紫色框）。它们对其中两个 Inception 模块的输出执行 softmax 操作，然后在同样的标签上计算辅助损失。总损失即辅助损失和真实损失的加权和。该论文中对每个辅助损失使用的权重值是 0.3。

The total loss used by the inception net during training.total_loss = real_loss + 0.3 * aux_loss_1 + 0.3 * aux_loss_2

辅助损失只是用于训练，在推断过程中并不使用。

Inception v2 和 Inception v3 来自同一篇2015年论文《Rethinking the Inception Architecture for Computer Vision》，作者提出了一系列能增加准确度和减少计算复杂度的修正方法。

问题：

减少特征的表征性瓶颈。直观上来说，当卷积不会大幅度改变输入维度时，神经网络可能会执行地更好。过多地减少维度可能会造成信息的损失，这也称为「表征性瓶颈」。
使用更优秀的因子分解方法，卷积才能在计算复杂度上更加高效。

网络结构

将 5×5 的卷积分解为两个 3×3 的卷积运算以提升计算速度。尽管这有点违反直觉，但一个 5×5 的卷积在计算成本上是一个 3×3 卷积的 2.78 倍。所以叠加两个 3×3 卷积实际上在性能上会有所提升，如下图所示：

最左侧前一版 Inception 模块中的 5×5 卷积变成了两个 3×3 卷积的堆叠。

此外，作者将 n*n 的卷积核尺寸分解为 1×n 和 n×1 两个卷积。例如，一个 3×3 的卷积等价于首先执行一个 1×3 的卷积再执行一个 3×1 的卷积。他们还发现这种方法在成本上要比单个 3×3 的卷积降低 33%，这一结构如下图所示：

此处如果 n=3，则与上一张图像一致。最左侧的 5x5 卷积可被表示为两个 3x3 卷积，它们又可以被表示为 1x3 和 3x1 卷积。

模块中的滤波器组被扩展（即变得更宽而不是更深），以解决表征性瓶颈。如果该模块没有被拓展宽度，而是变得更深，那么维度会过多减少，造成信息损失。如下图所示：

使 Inception 模块变得更宽。这种类型等同于前面展示的模块

前面三个原则用来构建三种不同类型的 Inception 模块（这里我们按引入顺序称之为模块 A、B、C，这里使用「A、B、C」作为名称只是为了清晰期间，并不是它们的正式名称）。架构如下所示：

这里「figure 5」是模块 A，「figure 6」是模块 B，「figure 7」是模块 C

结果

讨论

Inception v2问题：

作者注意到辅助分类器直到训练过程快结束时才有较多贡献，那时准确率接近饱和。作者认为辅助分类器的功能是正则化，尤其是它们具备 BatchNorm 或 Dropout 操作时。
是否能够改进 Inception v2 而无需大幅更改模块仍需要调查。

Inception v3解决方案：
Inception v3 整合了前面 Inception v2 中提到的所有升级，还使用了：

RMSProp 优化器；
Factorized 7x7 卷积；
辅助分类器使用了 BatchNorm；
标签平滑（添加到损失公式的一种正则化项，旨在阻止网络对某一类别过分自信，即阻止过拟合）。

参考

论文：Rethinking the Inception Architecture for Computer Vision.
代码的github链接：
参考博文: https://towardsdatascience.com/a-simple-guide-to-the-versions-of-the-inception-network-7fc52b863202
https://baijiahao.baidu.com/s?id=1601882944953788623&wfr=spider&for=pc

InceptionResNetV2

背景（2016）

Inception 架构可以用很低的计算成本达到很高的性能。而在传统的网络架构中引入残差连接曾在 2015ILSVRC 挑战赛中获得当前最佳结果，其结果和 Inception-v3 网络当时的最新版本相近。这使得人们好奇，如果将 Inception 架构和残差连接结合起来会是什么效果。在这篇论文中，研究者通过实验明确地证实了，结合残差连接可以显著加速 Inception 的训练。也有一些证据表明残差 Inception 网络在相近的成本下略微超过没有残差连接的 Inception 网络。研究者还展示了多种新型残差和非残差 Inception 网络的简化架构。这些变体显著提高了在 ILSVRC2012 分类任务挑战赛上的单帧识别性能。作者进一步展示了适当的激活值缩放如何稳定非常宽的残差 Inception 网络的训练过程。通过三个残差和一个 Inception v4 的模型集成，作者在 ImageNet 分类挑战赛的测试集上取得了 3.08% 的 top-5 误差率。

网络结构

引入残差连接，它将 inception 模块的卷积运算输出添加到输入上。
为了使残差加运算可行，卷积之后的输入和输出必须有相同的维度。因此，我们在初始卷积之后使用 1x1 卷积来匹配深度（深度在卷积之后会增加）。

（左起）Inception ResNet 中的 Inception 模块 A、B、C。注意池化层被残差连接所替代，并在残差加运算之前有额外的 1x1 卷积

结果

讨论

受 ResNet 的优越性能启发，研究者提出了一种混合 inception 模块。Inception ResNet 有两个子版本：v1 和 v2。在我们分析其显著特征之前，先看看这两个子版本之间的微小差异。
Inception-ResNet v1 的计算成本和 Inception v3 的接近。
Inception-ResNetv2 的计算成本和 Inception v4 的接近。
它们有不同的 stem，正如 Inception v4 部分所展示的。
两个子版本都有相同的模块 A、B、C 和缩减块结构。唯一的不同在于超参数设置。在这一部分，我们将聚焦于结构，并参考论文中的相同超参数设置（图像是关于 Inception-ResNet v1 的）。

TF2.0代码复现

https://blog.csdn.net/Forrest97/article/details/106150730

参考

论文：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning.
参考博文: https://medium.com/@mannasiladittya/building-inception-resnet-v2-in-keras-from-scratch-a3546c4d93f0

Xception

背景 (2017)

2017年，Xception是google继Inception后提出的对Inception v3的另一种改进，主要是采用depthwise separable convolution来替换原来Inception v3中的卷积操作。
当时提出Inception的初衷可以认为是：特征的提取和传递可以通过11卷积，33卷积，5*5卷积，pooling等，到底哪种才是最好的提取特征方式呢？Inception结构将这个疑问留给网络自己训练，也就是将一个输入同时输给这几种提取特征方式，然后做concat。
在 Inception 中，特征可以通过 1×1 卷积，3×3 卷积，5×5 卷积，pooling 等进行提取，Inception 结构将特征类型的选择留给网络自己训练，也就是将一个输入同时输给几种提取特征方式，然后做 concat 。Inception-v3的结构图如下:

对 Inception-v3 进行简化，去除 Inception-v3 中的 avg pool 后，输入的下一步操作就都是 1×1 卷积

提取 1×1 卷积的公共部分

网络结构

关键点

Xception（An “extreme” version of Inception module，极致的 Inception）：先进行普通卷积操作，再对 1×1 卷积后的每个channel分别进行 3×3 卷积操作，最后将结果 concat：
Depthwise Separable Convolution，深度可分离卷积
Depthwise Separable Convolution 与极致的 Inception 区别：

极致的 Inception：

第一步：普通 1×1 卷积。

第二步：对 1×1 卷积结果的每个 channel，分别进行 3×3 卷积操作，并将结果 concat。

Depthwise Separable Convolution：

第一步：Depthwise 卷积，对输入的每个channel，分别进行 3×3 卷积操作，并将结果 concat。

第二步：Pointwise 卷积，对 Depthwise 卷积中的 concat 结果，进行 1×1 卷积操作。

两种操作的循序不一致：Inception 先进行 1×1 卷积，再进行 3×3 卷积；Depthwise Separable Convolution 先进行 3×3 卷积，再进行 1×1 卷积。（作者认为这个差异并没有大的影响）

Xception 的结构基于 ResNet，但是将其中的卷积层换成了Separable Convolution（极致的 Inception模块）。如下图所示。整个网络被分为了三个部分：Entry，Middle和Exit。

结果

Xception 在 ImageNet 上，比 Inception-v3 的准确率稍高，同时参数量有所下降，在 Xception 中加入的类似 ResNet 的残差连接机制也显著加快了Xception的收敛过程并获得了显著更高的准确率。

讨论

Xception作为Inception v3的改进，主要是在Inception v3的基础上引入了depthwise separable convolution，在基本不增加网络复杂度的前提下提高了模型的效果。depthwise separable convolution没有大大降低网络的复杂度，因为depthwise separable convolution在mobileNet中主要就是为了降低网络的复杂度而设计的。原因是作者加宽了网络，使得参数数量和Inception v3差不多，然后在这前提下比较性能。因此Xception目的不在于模型压缩，而是提高性能。
潜在的问题：虽然 Depthwise Separable Convolution 可以带来准确率的提升或是理论计算量的大幅下降，但由于其计算过程较为零散，现有的卷积神经网络实现中它的效率都不够高，例如本文中 Xception 的理论计算量是远小于Inception-v3的，但其训练时的迭代速度反而更慢一些。

参考

论文：Xception: Deep Learning with Depthwise Separable Convolutions.
代码的github链接：https://github.com/liuzhuang13/DenseNet
参考博文: https://blog.csdn.net/lk3030/article/details/84847879
https://blog.csdn.net/u014380165/article/details/75142710

MobileNet

背景(2017)

深度卷积神经网络将多个计算机视觉任务性能提升到了一个新高度，总体的趋势是为了达到更高的准确性构建了更深更复杂的网络，但是这些网络在尺度和速度上不一定满足移动设备要求。MobileNet描述了一个高效的网络架构，允许通过两个超参数直接构建非常小、低延迟、易满足嵌入式设备要求的模型。

建立小型高效的神经网络的方法：
压缩预训练模型获得小型网络的一个办法是减小、分解或压缩预训练网络，例如量化压缩(product quantization)、哈希(hashing )、剪枝(pruning)、矢量编码( vector quantization)和霍夫曼编码(Huffman coding)等；此外还有各种分解因子(various factorizations )用来加速预训练网络；还有一种训练小型网络的方法叫蒸馏(distillation )，使用大型网络指导小型网络，这是对论文的方法做了一个补充，后续有介绍补充。

直接训练小型模型 例如Flattened networks利用完全的因式分解的卷积网络构建模型，显示出完全分解网络的潜力；Factorized Networks引入了类似的分解卷积以及拓扑连接的使用；Xception network显示了如何扩展深度可分离卷积到Inception V3 networks；Squeezenet 使用一个bottleneck用于构建小型网络。

本文提出的MobileNet网络架构，允许模型开发人员专门选择与其资源限制(延迟、大小)匹配的小型模型，MobileNets主要注重于优化延迟同时考虑小型网络，从深度可分离卷积的角度重新构建模型。
MobileNets是为移动和嵌入式设备提出的高效模型。MobileNets基于流线型架构(streamlined)，使用深度可分离卷积(depthwise separable convolutions)来构建轻量级深度神经网络。

网络结构

传统卷积的实现过程：

Depthwise Separable Convolution 的实现过程：

depthwise separable convolution就是先用M个33卷积核一对一卷积输入的M个feature map，不求和，生成M个结果；然后用N个11的卷积核正常卷积前面生成的M个结果，求和，最后生成N个结果

例子：输入图片的大小为(6,6,3)，卷积操作(4,4,3,5).
标准卷积和MobileNet中使用的深度分离卷积结构对比如下：

MobileNet的具体结构如下(dw表示深度分离卷积)：
两个控制模型大小的超参数：
宽度因子α\alphaα(Width multiplier )：用于控制输入和输出的通道数，即输入通道从M变为αM,输出通道从N变为αN。

分辨率因子ρ\rhoρ(resolution multiplier )：.用于控制输入和内部层表示。即用分辨率因子控制输入的分辨率

结果

ImageNet
表6显示宽度因子对模型参数量、计算量精度的影响，表7显示分辨率因子对模型参数量、计算量精度的影响

表8将完整的MobileNet与原始的GoogleNet和VGG16对比，MobileNet与VGG16有相似的精度，参数量和计算量减少了2个数量级。

Face Attributes
MobileNet的框架技术可用于压缩大型模型，在Face Attributes任务中，我们验证了MobileNet的蒸馏(distillation )技术的关系，蒸馏的核心是让小模型去模拟大模型，而不是直接逼近Ground Label：

将蒸馏技术的可扩展性和MobileNet技术的精简性结合到一起，最终系统不仅不需要正则技术(例如权重衰减和退火等)，而且表现出更强的性能。
Object Detection
基于MobileNet改进的检测模型对比如下：

讨论

一种基于深度可分离卷积的新模型MobileNet，同时提出了两个超参数用于快速调节模型适配到特定环境。实验部分将MobileNet与许多先进模型做对比，展现出MobileNet的在尺寸、计算量、速度上的优越性。

TF2.* 代码实现

https://blog.csdn.net/Forrest97/article/details/106216395

参考

论文：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications.
代码的github链接：https://github.com/tensorflow/models/tree/master/research/slim/nets
参考博文: https://blog.csdn.net/u011974639/article/details/79199306

DenseNet

背景(2018)

这篇文章是CVPR2017的oral，非常厉害。文章提出的DenseNet（Dense Convolutional Network）主要还是和ResNet及Inception网络做对比，思想上有借鉴，但却是全新的结构，网络结构并不复杂，却非常有效！最近一两年卷积神经网络提高效果的方向，要么深（比如ResNet，解决了网络深时候的梯度消失问题）要么宽（比如GoogleNet的Inception），而作者则是从feature入手，通过对feature的极致利用达到更好的效果和更少的参数。

网络结构

如果你有L层，那么就会有L个连接，但是在DenseNet中，会有L(L+1)/2个连接。简单讲，就是每一层的输入来自前面所有层的输出

文章中只有两个公式，是用来阐述DenseNet和ResNet的关系，对于从原理上理解这两个网络还是非常重要的。

第一个公式是ResNet的。这里的l表示层，xl表示l层的输出，Hl表示一个非线性变换。所以对于ResNet而言，l层的输出是l-1层的输出加上对l-1层输出的非线性变换

第二个公式是DenseNet的。[x0,x1,…,xl-1]表示将0到l-1层的输出feature map做concatenation。concatenation是做通道的合并，就像Inception那样。而前面resnet是做值的相加，通道数是不变的。Hl包括BN，ReLU和3*3的卷积。

结果

DenseNet-BC的网络参数和相同深度的DenseNet相比确实减少了很多！参数减少除了可以节省内存，还能减少过拟合。这里对于SVHN数据集，DenseNet-BC的结果并没有DenseNet(k=24)的效果好，作者认为原因主要是SVHN这个数据集相对简单，更深的模型容易过拟合。在表格的倒数第二个区域的三个不同深度L和k的DenseNet的对比可以看出随着L和k的增加，模型的效果是更好的。

Figure3是DenseNet-BC和ResNet在Imagenet数据集上的对比，左边那个图是参数复杂度和错误率的对比，你可以在相同错误率下看参数复杂度，也可以在相同参数复杂度下看错误率，提升还是很明显的！右边是flops（可以理解为计算复杂度）和错误率的对比，同样有效果。

Figure4也很重要。左边的图表示不同类型DenseNet的参数和error对比。中间的图表示DenseNet-BC和ResNet在参数和error的对比，相同error下，DenseNet-BC的参数复杂度要小很多。右边的图也是表达DenseNet-BC-100只需要很少的参数就能达到和ResNet-1001相同的结果

讨论

该文章提出的DenseNet核心思想在于建立了不同层之间的连接关系，充分利用了feature，进一步减轻了梯度消失问题，加深网络不是问题，而且训练效果非常好。另外，利用bottleneck layer，Translation layer以及较小的growth rate使得网络变窄，参数减少，有效抑制了过拟合，同时计算量也减少了。DenseNet优点很多，而且在和ResNet的对比中优势还是非常明显的。

DenseNet的几个优点：
1、减轻了vanishing-gradient（梯度消失）
2、加强了feature的传递
3、更有效地利用了feature
4、一定程度上较少了参数数量

TF2.0代码复现

https://blog.csdn.net/Forrest97/article/details/106159896

参考

论文：Densely Connected Convolutional Networks.
代码的github链接：https://github.com/liuzhuang13/DenseNet
参考博文: https://blog.csdn.net/u014380165/article/details/75142664

NASNet

背景(2018)

此论文是一开始发表于ICLR2017，后来转投与CVPR2017，又是Google Brain的一篇著作。这个模型并非是人为设计出来的，而是通过谷歌很早之前推出的AutoML自动训练出来的。该项目目的是实现“自动化的机器学习”，即训练机器学习的软件来打造机器学习的软件，自行开发新系统的代码层，它也是一种神经架构搜索技术(Neural Architecture Search technology)。机器在小数据集（CIFAR-10数据集）上自动设计出CNN网络，并利用迁移学习技术使得设计的网络能够被很好的迁移到大数据集（ImageNet数据集），同时也可以迁移到其他的计算机视觉任务上（如目标检测）。

网络结构

基于AutoML首先在CIFAR-10这种数据集上进行神经网络架构搜索，以便 AutoML 找到最佳层并灵活进行多次堆叠来创建最终网络，并将学到的最好架构转移到 ImageNet 图像分类和 COCO 对象检测中。其中NasNet的组成由两种网络单元组合而成

针对不同的分类数据集，将Normal Cell 和 Reduction Cell进行堆叠

结果

在 ImageNet 图像分类上，NASNet 在验证集上的预测准确率达到了 82.7%，超过了之前构建的所有 Inception 模型。此外，NASNet 的准确率比之前公布的所有结果提升了 1.2%。NASNet 还可以调整规模，生成一系列可以实现较高准确率的模型，同时将计算开销控制在非常低的水平。例如，小版本的 NASNet 可以实现 74% 的准确率，比面向移动平台的同等规模最先进模型提升了 3.1%。大型 NASNet 则可实现最高的准确率，同时将 arxiv.org 上最佳报告结果（即 SENet）的计算开销减半。

讨论

论文贡献：

(1)设计了新的搜索空间，即NASNet search space，并在实验中搜索得到最优的网络结构NASNet

(2)提出新的正则化技术，ScheduledDropPath，是DropPath方法的改进版，可以大大提高了模型的泛化能力。

DropPath方法在训练过程中以随机概率p进行drop，该概率训练中保持不变。而ScheduledDropPath方法在训练过程线性的提高随机概率p。

文章类似resnet和inception一样，进行基本block的堆叠生成最终网络。因此搜索最优网络的时候，只搜索最优block。这样的好处，

(1)可以极大的加快搜索速度

(2)基础block对其他分类，检测问题都具有很好的泛化能力

参考

论文：Learning Transferable Architectures for Scalable Image Recognition
代码的github链接：https://github.com/tensorflow/models/tree/master/research/slim/nets/nasnet
参考博文:
https://blog.csdn.net/qq_14845119/article/details/83050862
学习过程解读
https://blog.csdn.net/xjz18298268521/article/details/79079008

MobileNetV2

背景(2019)

1、结构问题：

MobileNet V1 的结构其实非常简单，论文里是一个非常复古的直筒结构，类似于VGG一样。这种结构的性价比其实不高，后续一系列的 ResNet, DenseNet 等结构已经证明通过复用图像特征，使用 Concat/Eltwise+ 等操作进行融合，能极大提升网络的性价比。

2、Depthwise Convolution的潜在问题：

Depthwise Conv确实是大大降低了计算量，而且N×N Depthwise +1×1PointWise的结构在性能上也能接近N×N Conv。在实际使用的时候，我们发现Depthwise部分的kernel比较容易训废掉：训练完之后发现Depthwise训出来的kernel有不少是空的。当时我们认为，Depthwise每个kernel dim相对于普通Conv要小得多，过小的kernel_dim, 加上ReLU的激活影响下，使得神经元输出很容易变为0，所以就学废了。ReLU对于0的输出的梯度为0，所以一旦陷入0输出，就没法恢复了。我们还发现，这个问题在定点化低精度训练的时候会进一步放大。
1、Inverted Residual Block

MobileNet V1没有很好的利用Residual Connection，而Residual Connection通常情况下总是好的，所以MobileNet V2加上。先看看原始的ResNet Block长什么样，下图左边：

先用1x1降通道过ReLU，再3x3空间卷积过ReLU，再用1x1卷积过ReLU恢复通道，并和输入相加。之所以要1x1卷积降通道，是为了减少计算量，不然中间的3x3空间卷积计算量太大。所以Residual block是沙漏形，两边宽中间窄。
但是，现在我们中间的3x3卷积变为了Depthwise的了，计算量很少了，所以通道可以多一点，效果更好，所以通过1x1卷积先提升通道数，再Depthwise的3x3空间卷积，再用1x1卷积降低维度。两端的通道数都很小，所以1x1卷积升通道或降通道计算量都并不大，而中间通道数虽然多，但是Depthwise 的卷积计算量也不大。作者称之为Inverted Residual Block，两边窄中间宽，像柳叶，较小的计算量得到较好的性能。

2、ReLU6

首先说明一下 ReLU6，卷积之后通常会接一个 ReLU 非线性激活，在 MobileNet V1 里面使用 ReLU6，ReLU6 就是普通的ReLU但是限制最大输出值为 6，这是为了在移动端设备 float16/int8 的低精度的时候，也能有很好的数值分辨率，如果对 ReLU 的激活范围不加限制，输出范围为0到正无穷，如果激活值非常大，分布在一个很大的范围内，则低精度的float16/int8无法很好地精确描述如此大范围的数值，带来精度损失。
本文提出，最后输出的 ReLU6 去掉，直接线性输出，理由是：ReLU 变换后保留非0区域对应于一个线性变换，仅当输入低维时ReLU 能保留所有完整信息。
在看 MobileNet V1的时候，我就疑问为什么没有把后面的 ReLU去掉，因为Xception已经实验证明了 Depthwise 卷积后再加ReLU 效果会变差，作者猜想可能是 Depthwise 输出太浅了, 应用 ReLU会带来信息丢失，而 MobileNet V1还引用了 Xception 的论文，但是在 Depthwise 卷积后面还是加了ReLU。在 MobileNet V2 这个 ReLU终于去掉了，并用了大量的篇幅来说明为什么要去掉。
总之，去掉最后那个 ReLU，效果更好。

网络结构

不同点：Linear Bottleneck
V2 在 DW 卷积之前新加了一个 PW 卷积。这么做的原因，是因为 DW 卷积由于本身的计算特性决定它自己没有改变通道数的能力，上一层给它多少通道，它就只能输出多少通道。所以如果上一层给的通道数本身很少的话，DW 也只能很委屈的在低维空间提特征，因此效果不够好。现在 V2 为了改善这个问题，给每个 DW 之前都配备了一个 PW，专门用来升维，定义升维系数，这样不管输入通道数 [公式] 是多是少，经过第一个 PW 升维之后，DW 都是在相对的更高维进行着辛勤工作的。
V2 去掉了第二个 PW 的激活函数。论文作者称其为 Linear Bottleneck。这么做的原因，是因为作者认为激活函数在高维空间能够有效的增加非线性，而在低维空间时则会破坏特征，不如线性的效果好。由于第二个 PW 的主要功能就是降维，因此按照上面的理论，降维之后就不宜再使用 ReLU6 了。

ResNet 使用标准卷积提特征，MobileNet 始终使用 DW卷积提特征。
ResNet 先降维 (0.25倍)、卷积、再升维，而 MobileNet V2 则是先升维 (6倍)、卷积、再降维。直观的形象上来看，ResNet 的微结构是沙漏形，而 MobileNet V2 则是纺锤形，刚好相反。因此论文作者将 MobileNet V2 的结构称为 Inverted Residual Block。这么做也是因为使用DW卷积而作的适配，希望特征提取能够在高维进行。

结果

通过 Inverted residual block这个新的结构，可以用较少的运算量得到较高的精度，适用于移动端的需求，在 ImageNet 上的准确率如下所示：

可以说是又小又快又好。另外，应用在目标检测任务上，也能得到很好的效果。

应用在目标检测任务上，基于 MobileNet V2的SSDLite 在 COCO 数据集上超过了 YOLO v2，并且大小小10倍速度快20倍：

讨论

1、CNN 在 CV 领域不断突破，但是深度模型前端化还远远不够。目前 MobileNet、ShuffleNet参数个位数(单位 M )，在ImageNet 数据集上，依 top-1 而论，比 ResNet-34，VGG19 精度高，比 ResNet-50 精度低。实时性和精度得到较好的平衡。

2、本文最难理解的其实是 Linear Bottlenecks，论文中用了很多公式来描述这个思想，但是实现上非常简单，就是在 MobileNet V2 微结构中第二个PW后去掉 ReLU6。对于低维空间而言，进行线性映射会保存特征，而非线性映射会破坏特征。

TF2.* 代码实现

https://blog.csdn.net/Forrest97/article/details/106223297

参考

论文：MobileNetV2: Inverted Residuals and Linear Bottlenecks.
代码的github链接：https://github.com/shicai/MobileNet-Caffe
参考博文: https://blog.csdn.net/kangdi7547/article/details/81431572
https://zhuanlan.zhihu.com/p/33075914

SENet & CBAM

模型介绍
SENet TF2.*代码实现
CBAM TF2.*代码实现

总结

打个比方，经典卷积神经网络好比一条从输入”图像“（原材料）到输出”特征“（产品）的加工流水线，目标就是提炼出高纯度的加工产品。总结以下不同生成线的关键特征：

网络名称	发布年份	重要突破	类比
VGG	2014	相同大小卷积核尺寸（3x3）和最大池化尺寸（2x2）；加深网络结构可以提升性能但很快达到上限	最优的标准化工艺反复提炼
ResNet	2015	卷积层的输入和输出之间添加Skip Connection 实现层数回退机制（深）	因材施施工、区间快车道
Inception系列	2015	多组不同Size Filter 并行处理（宽），引入 BatchNorm	分流操作，增加加工工艺
InceptionResNet	2016	Inception 架构和残差连接结合	双管齐下
Xception	2017	“extreme” version of Inception module:卷积操作， 1×1 卷积后的每个channel分别 3×3 卷积 concat	发挥极致
MobileNet	2017	深度可分离卷积(depthwise separable convolutions)	精简流程，追求效率
DenseNet	2018	第 l层特征由0到l-1层的输出feature map做concatenation	融会贯通，洲际高速
NASNet	2018	神经架构搜索技术(Neural Architecture Search technology)	自动化优化流程
MobileNetV2	2019	Inverted Residuals and Linear Bottlenecks	引入残差，模块优化

迁移学习

使用keras.application代码实现

环境tensorflow 2.*

import  tensorflow as tf
from    tensorflow import keras

# 加载DenseNet网络模型，并去掉最后一层全连接层，最后一个池化层设置为max pooling
base_model = keras.applications.DenseNet121(weights='imagenet', include_top=False, pooling='max')
# 设计为不参与优化
base_model.trainable = False
newnet = keras.Sequential([
    base_model, # 去掉最后一层的DenseNet121
    layers.Dense(1024, activation='relu'), # 追加全连接层
    layers.BatchNormalization(), # 追加BN层
    layers.Dropout(rate=0.5), # 追加Dropout层，防止过拟合
    layers.Dense(10) # 根据任务设置最后一层输出节点数
])
newnet.build(input_shape=(4,224,224,3))
newnet.summary()

使用keras team GitHub

https://github.com/fchollet/deep-learning-models/releases/
https://github.com/keras-team/keras-applications/releases

import tensorflow as tf

WEIGHTS_PATH = 'https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5'
weights_path = tf.keras.utils.get_file('vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5',
                                    WEIGHTS_PATH,
                                    cache_subdir='models') #.keras/models

也可直接点击下载需要的版本，响应修改一下路径即可

 model.load_weights(weights_path)

使用Tensorflow slim

https://github.com/tensorflow/models/tree/master/research/slim#pre-trained-models

你可能感兴趣的:(卷积神经网络,计算机视觉,Tensorflow,学习笔记,python,神经网络,算法,卷积,tensorflow)

如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
[Python] -项目实战8- 构建一个简单的 Todo List Web 应用（Flask）踏雪无痕老爷子 Python python 开发语言
一、为什么选Flask？轻量上手快：仅需几行代码就能跑一个可用的Web应用。灵活扩展：可接入数据库、身份认证、前端框架等。教育性强：涵盖前后端交互基础，适合入门全栈开发。二、项目结构建议flask_todo/├──app.py├──templates/│└──index.html├──static/│└──style.css├──todo.db└──requirements.txtapp.py：后
Python连接AutoCAD第三方库pyautocad基础介绍（一） Smile丶Life丶 AutoCAD插件开发 python 开发语言 AutoCAD pyautocad
一、前言在开始探索Python连接CAD实现自动化绘图之前，让我们先明确一下读懂本教程所需的技术及知识基础。首先需要你熟练使用Python编程语言，其次，对于CAD软件，本教程将以常见的AutoCAD平台为例，但您至少需要对CAD的基本操作和绘图原理有初步的认识。了解如何创建、编辑图形对象，设置图层、颜色、线型等属性，以及保存和导出CAD图纸的基本流程。以下是本文所使用的开发环境：Python解释
0315_算法22级1班实验2（递归分治策略）
目录ProblemA众数问题题目描述输入输出样例输入样例输出思路分析代码实现思路优化ProblemB半数集问题题目描述输入输出样例输入样例输出思路分析代码实现ProblemC查找数组拐点题目描述输入输出样例输入样例输出思路分析代码实现思路优化ProblemA众数问题题目描述所谓众数，就是对于给定的含有N个元素的多重集合，每个元素在S中出现次数最多的成为该元素的重数，多重集合S重的重数最大的元素成为
0301_算法22级1班实验1
目录ProblemA统计数字问题1.题目描述2.思路分析3.代码实现ProblemB字典序问题1.题目描述2.思路分析3.代码实现ProblemC最多约数问题1.题目描述2.思路分析3.代码实现ProblemA统计数字问题1.题目描述题目描述问题描述：一本书的页码从自然数1开始顺序编码直到自然数n。书的页码按照通常的习惯编排，每个页码都不含多余的前导数字0。例如，第6页用数字6表示，而不是06或0
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
nextjs学习笔记 ainuo5213 web前端框架学习 next react react服务端渲染 next入门
由于本人最近在学习jocky老师的React16.8+Next.js+Koa2开发Github全栈项目关于react的服务端重构项目，然后跟着老师的视频做笔记，记录下自己的所学知识。目录结构pages(必需)：pages目录是nextjs中最终要的一个目录，这个目录的每一个文件都会对应到每一个页面，可以根据地址栏的路由进行跳转。若pages下的js文件在一个目录下，那么nextjs默认会将这个
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
Supervisor 入门指南一篇就够 —— 安装、项目配置与常见报错速查逻极 python 开发工具笔记 python 运维工具开发 supervisor
Supervisor入门指南一篇就够——安装、项目配置与常见报错速查一、Supervisor是什么在服务器进程管理中，Supervisor是一款用Python编写的进程守护与管理工具。它的核心功能是将普通的命令行进程转变为后台daemon进程，并且在进程因意外情况退出时，能够自动将其重启，保证进程的持续运行。在实际应用中，它常出现在多层架构里。比如在Nginx→Gunicorn/Django→Su
Python基础（字符串的切片与断言）日暮凡尘 python 开发语言 pycharm
'''1.输入一个字符串，判断是否只包含英文字母（大写或小写）。输出True或False。2.输入一个字符串，统计里面数字字符（0-9）的数量。3.输入两个字符串，第一个是主串，第二个是要查找的字符，判断字符是否在主串中。4.输入一个字符串，将所有数字字符转换成整数后求和。5.统计字符串中空格的数量6.输入字符串和数字n，判断字符串是否只包含数字且长度等于n。7.验证用户输入的手机号格式（中国手机
python 变量进阶（理解）程序员同行者
变量进阶（理解）目标变量的引用可变和不可变类型局部变量和全局变量01.变量的引用变量和数据都是保存在内存中的在Python中函数的参数传递以及返回值都是靠引用传递的1.1引用的概念在Python中变量和数据是分开存储的数据保存在内存中的一个位置变量中保存着数据在内存中的地址变量中记录数据的地址，就叫做引用使用id()函数可以查看变量中保存数据所在的内存地址注意：如果变量已经被定义，当给一个变量赋值
python——for_in循环何处望天明CS python
#Nico#时间：2021/4/2021:09#for-in循环'''in表达式从（字符串、序列等）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象''''''for-in的语法结构for自定义变量in可迭代对象:循环体'''#字符串中取值foritemin'python':print(item)#range产生一个整数序列，也是一个可迭代对象foriinrange(10):print
一步一步学Python3(小学生也适用) 第十七篇:循环语句for in循环
一、Pythonforin循环Pythonforin循环，是用来遍历任何数据序列，如一个列表，一个字符串，一个字典，一个元组等。forin循环的一般语法如下：foritemin序列:语句块else:语句块forin字符串：把每个字符循环出来'''字符串：把每个字符循环出来'''str1='老树Python''''把字符串str1元素进行循环，每循环出一个元素，就把该元素赋值给item'''fori
OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
python 循环结构(for-in) 编程小僧 python基础
循环结构(for-in)说明：也是循环结构的一种，经常用于遍历字符串、列表，元组，字典等格式：forxiny:循环体执行流程：x依次表示y中的一个元素，遍历完所有元素循环结束示例1：遍历字符串s='Iloveyoumorethanicansay'foriins:print(i)示例2：遍历列表l=['鹅鹅鹅','曲项向天歌','锄禾日当午','春种一粒粟']foriinl:print(i)#可以
Python学习笔记 cherishSpring python python 学习笔记
目录一、名词解释二、数据类型（变量名无类型，变量值有类型）三、数据类型转换(万物皆可转字符串)四、标识符五、运算符六、字符串扩展七、数据输入八、if语句九、while语句十、for循环语句十一、函数十二、数据容器1、List列表2、tuple元组3、字符串4、序列的常用操作-切片5、set集合6、dict字典7、数据容器相互转换8、通用操作十三、文件编码一、名词解释1、字面量被写在代码中的固定的值
Python for循环 dengdieli5313 python
Pythonfor循环可以遍历任何序列的项目，如一个列表或者一个字符串。for循环的语法结构如下：foriterating_varinsequence:statements(s)最简单的形式如下，循环10次。1foriinrange(10):2print("loop:",i)输出为1loop:02loop:13loop:24loop:35loop:46loop:57loop:68loop:79lo
python的for-in循环小白L. 入门 python numpy 开发语言
‘’‘for-in循环in表达从（字符串序列）中依次取值，又称为遍历for-in遍历的对象必须是可迭代对象for-in的语法结构for自定义的变量in可迭代对象:循环体循环体内不需要访问自定义变量，可以将自定义变量替代为下划线’‘’#第一次取出来的是P，将P赋值item，将item的值输出foritemin'python':print(item)#range（）产生一个整数序列，–》也是一个可迭代
Python-for-in循环難釋懷 python windows 服务器
一、前言在Python编程中，循环结构（LoopStructure）是程序控制流的重要组成部分。其中，for...in循环是Python中最常用、最简洁的迭代工具之一。与传统的C风格语言中的for不同，Python的for...in循环专门用于遍历可迭代对象（Iterable），如列表、元组、字符串、字典、集合，甚至是生成器等。本文将带你深入了解：for...in循环的基本语法；如何高效地遍历各种
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
Python设计模式：适配模式 niuguangshuo python基础 python 设计模式开发语言
1.适配模式（AdapterPattern）详解适配模式（AdapterPattern）是一种结构型设计模式，它允许将一个类的接口转换成客户端所期望的另一种接口。适配模式使得原本由于接口不兼容而无法一起工作的类可以协同工作。换句话说，适配模式充当了一个桥梁，允许不同接口的类之间进行交互。在软件开发中，常常会遇到需要使用现有类的情况，但这些类的接口与我们需要的接口不匹配。适配模式提供了一种解决方案，
智界R7智驾功能和性能评价 TheWanderers 智能驾驶智界
一、智驾行车能力标题硬件配置与系统架构感知硬件：Max/Ultra版搭载1个192线激光雷达、3个毫米波雷达（含1个4D成像雷达）、12个超声波雷达、11个高清摄像头（含前向800万像素双目+鱼眼镜头）。Pro版未配备激光雷达，但保留3个毫米波雷达和10个摄像头。核心算法：HUAWEIADS3.0系统，基于端到端架构，整合感知、决策与控制模块，支持全场景目标识别（如非标准障碍物、夜间行人）。算力支
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
数字图像处理（三：图像如果当作矩阵，那加减乘除处理了矩阵，那图像咋变）：从LED冬奥会、奥运会及春晚等等大屏，到手机小屏，快来挖一挖里面都有什么
数字图像处理（三）一、（准备工作：咋玩，用什么玩具）图像以矩阵形式存储，那矩阵一变、图像立刻跟着变？1.Python+JupyterNotebook/Lab+库(NumPy,OpenCV,Matplotlib,scikit-image)2.MATLAB+ImageProcessingToolbox3.JavaScript+HTML5Canvas+浏览器4.专业的图像处理软件(带脚本/插件功能)二、
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

深度学习 机器视觉 经典卷积神经网络 Tensorflow2.0 keras.applications

经典卷积神经网络

背景

Keras.applications

VGG16

背景 (2014)

网络结构

结果

讨论

参考

VGG19

网络结构

TF2.0代码复现

参考

ResNet

背景(2015)

网络结构

结果

讨论

TF2.0代码复现

参考

InceptionV3

背景 (2015)

网络结构

结果

讨论

参考

InceptionResNetV2

背景 （2016）

网络结构

结果

讨论

TF2.0代码复现

参考

Xception

背景 (2017)

网络结构

结果

讨论

参考

MobileNet

背景(2017)

网络结构

结果

讨论

TF2.* 代码实现

参考

DenseNet

背景(2018)

网络结构

结果

讨论

TF2.0代码复现

参考

NASNet

背景(2018)

网络结构

结果

讨论

参考

MobileNetV2

背景(2019)

网络结构

结果

讨论

TF2.* 代码实现

参考

SENet & CBAM

总结

迁移学习

使用keras.application代码实现

使用keras team GitHub

使用Tensorflow slim

你可能感兴趣的:(卷积神经网络,计算机视觉,Tensorflow,学习笔记,python,神经网络,算法,卷积,tensorflow)

深度学习机器视觉经典卷积神经网络 Tensorflow2.0 keras.applications

背景（2016）