Code_Mart

[总结] 卷积神经网络发展历程

一直都想梳理一下 CNN 网络结构的发展过程，却感觉无从下手，直到最近看到这篇文章：CNN网络结构的发展：从LeNet到EfficientNet。
于是我便下决心依照这篇文章所述顺序，对卷积神经网络的发展历程做一次粗略的梳理，也算对之前的知识框架做一次梳理。
写这篇博文肯定有所疏漏或者理解错误的地方，有些定义我也不能清楚的进行表达，请各位谅解。

1. LeNet

论文链接：Gradient-based learning applied to document recognition, 发表时间：1998 年

以现在的眼光来看，LeNet 绝对是一个小网络，也没什么特点。但是，LeNet 是 CNN 网络结构的开山鼻祖，第一次定义了 CNN 网络结构。
LeNet 的特点如下所示：

定义了卷积神经网络（Convolutional Neural Network, CNN）的基本框架：卷积层 + 池化层（Pooling Layer） + 全连接层
定义了卷积层（Convolution Layer），与全连接层相比，卷积层的不同之处有两点：局部连接（引进“感受野”这一概念）、权值共享（减少参数数量）
利用池化层进行下采样（Downsampooling），从而减少计算量
用 Tanh 作为非线性激活函数（现在看到的都是改进过的 LeNet 了，用 ReLU 代替 Tanh。相较于 Sigmoid，Tanh 以原点对称（zero-centered），收敛速度会快。关于其解释，请看：谈谈激活函数以零为中心的问题）

PS: 关于全连接层，作者 Yann LeCun 曾在推特上指出：直接将特征图（Featuremap）展开输入到全连接层，会导致 CNN 仅适用于指定尺度的图像上。LeCun 认为 CNN 应该尽可能适用与各种尺度的图像上，这一点也得到许多人的认同。对于分类（Classification）问题，利用全局平均池化（Global Average Pooling, GAP）操作代替特征图的拉伸，这样 CNN 便可以处理各种尺度的图像了。而对于语义分割（Semantic Segmentation）问题，Fully Convolutional Networks for Semantic Segmentation 已经提出了一个完全没有全连接层的全卷积网络了，可以在这个问题上处理任意大小的图像。

PPS: 一般来说，卷积和池化的核的宽与高相等。
卷积计算公式： $Size_{out} = (Size_{in} - Kernel_{Pooling}+2*Padding)/Stride + 1$ 。
池化计算公式： $Size_{out} = (Size_{in} - Kernel_{Pooling})/Stride + 1$ 。

2. AlexNet

论文链接：ImageNet Classification with Deep Convolutional Neural Networks, 发表时间：2012 年

2012 年，Krizhevsky 与 Hinton 推出了 AlexNet，并在当年的 ILSVRC（ImageNet Large-Scale Visual Recognition Challenge）中以超过第二名10.9个百分点的绝对优势一举夺冠，引起了许多学者对深度学习的研究，可以算是深度学习的热潮的起始标志吧。

当时的算力不如现在这样强劲，AlexNet 用的 GTX 580 也只有 3GB 的显存（这也导致其设计出双 GPU 框架，现在的许多深度学习框架都有这样的能力，不过当时只能通过手动编写底层代码，工作量可想而知），却完成了在 ImageNet 上的巨大突破，这在当时是非常轰动的，变相证明了深度学习的能力。

由于算力的不断进步，AlexNet 在许多任务显得太"小"了，很少见到它的身影。所以我认为相较于 AlexNet 的框架，作者所做的一些其他改进更有值得研究的地方。

AlexNet 的特点如下所示：

采用双 GPU 网络结构，从而可以设计出更“大”、更“深”的网络（相较于当时的算力来说）
采用 ReLU 代替 Tanh，稍微解决梯度消失问题（Gradient Vanishing Problem），加快网络收敛速度。（关于常见激活函数的比较，可以看这篇：常用激活函数的比较 - 徐小贱民的文章 - 知乎）
提出局部相应归一化（LRN, Local Response Normalization），据作者所言，该操作能减少指标 Top-1/Top-5 Error Rate 1.4%/1.2%。（我个人不喜欢 LRN，因为我觉得它的超参数太多了，不具备很好的泛化能力。关于 Normalization 的发展历程可以看这篇：[笔记] 神经网络中 Normalization 的发展历程）
令 Pooling 操作中的 stride 小于池化核的大小，从而使相邻的池化区域存在重叠部分，这一操作称为 Overlapping Pooling。据作者所言，这一操作能减少指标 Top-1/Top-5 Error Rate 0.4%/0.3%，并且减少过拟合现象。
对训练数据进行随机裁剪（Random Crop），将训练图像由 256 × 256 裁剪为 224 × 224，并做随机的镜像翻转（Horizontal Reflection）。并在测试时，从图像的四个角以及中心进行裁剪，并进行镜像翻转，这样可以得到 10 个 Patch，将这些 Patch 的结果进行平均，从而得到最终预测结果。（之前在一个人脸识别比赛中，我师兄用这样的操作直接提高了４~5个点，算是一种简单的集成操作吧）
对训练图像做 PCA（主成分分析），利用服从 (0,0.1) 的高斯分布的随机变量对主成分进行扰动。作者指出，这一操作能减少指标 Top-1 Error Rate 1%。
利用 Dropout 避免网络过拟合。（我觉得这也算是集成操作的一种，因为随着模型的复杂度的提高，弱分类器也会越来越大，纯粹由弱分类器进行 Ensemble 应该不实际。最近谷歌对 Dropout 的专利貌似申请下来了，据说相关文档详细到可以作为 Dropout 的使用指南。）

PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 AlexNet 模型，将其加载到显存中占了 1191 MiB（训练与测试所占显存大小依赖于实验设置，故不做讨论）。

3. VGG

论文链接：Very Deep Convolutional Networks for Large-Scale Image Recognition, 发表时间：2014.09

2014 年，Simonyan 和 Zisserman 提出了 VGG 系列模型（包括VGG-11/VGG-13/VGG-16/VGG-19），并在当年的 ImageNet Challenge 上作为分类任务第二名、定位（Localization）任务第一名的基础网络出现。对于当时而言，VGG 属于很”深“的网络，已经达到 19 层的深度（虽然同年的 GooLeNet 有22层），这是一个不小的突破，因为理论上神经网络模型的拟合能力应该是随着模型”大小“不断增加的。

虽然 VGG 的出现时间比较早，而且隔年又出现了 ResNet 这样现象级的网络模型，但是至今仍经常出现在论文中（虽然往往作为比较对象出现）。此外，VGG 的一些设置至今都在使用，所以，有必要了解一下 VGG 的网络结构。

网络结构：

VGG 其实跟 AlexNet 有一定的相似之处，都是由五个卷积层与激活函数叠加的部分和三个全连接层组成，但是不同的是，VGG加“深”了前面由五个卷积层与激活函数叠加的部分，使得每部分并不是一个卷积层加一个激活函数组成，而是多个这样的组合组成一部分（有人习惯称这个为 Conv Layer Group），每个部分之间进行池化操作。

此外，VGG 与当时其他卷积神经网络不同，不采用感受野大的卷积核（如：7 × 7，5 × 5），反而采用感受野小的卷积核（3 × 3）。关于这样做的好处，作者指出有如下两点：减少网络参数量；由于参数量被大幅减小，于是可以用多个感受野小的卷积层替换掉之前一个感受野大的卷积层，从而增加网络的非线性表达能力。

从 VGG-16 开始，VGG 引进卷积核大小为 1 × 1 的卷积层（最早应该在 Network In Network 提到），使得在不影响特征图大小的情况下，增加网络的非线性表达能力。

由上图可以看出，VGG 每个“大”部分计算得到的特征图大小应该是固定的，以输入大小为 (224,244,3) 的图像举例，所计算得到的特征图大小分别为 (112,112,64)，(56,56,128)，(28,28,256)，(14,14,512)，(7,7,512)。（VGG 的最后三层全连接层太大了，尤其是第一层，大小达到了 (25088,4096) ）

其他细节：

作者提到曾使用 LRN，但是并没有任何效果提升，反而还使得内存使用和计算时间增加。
在训练过程中，作者为避免随机初始化对训练带来负面影响，于是利用小的网络参数初始化大的网络参数（比如用以训练好的 VGG-11 去初始化部分 VGG-13 的网络参数）。
对训练图像进行预处理时，先做宽高等比缩放（原文用的词是 isotropically rescaled，即同质化缩放），使其最短边长度达到 S，接着再做随机裁剪。其中，关于 S 的设置，作者提出了两种训练方案：Single-Scale Training，Multi-Scale Training。

PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 VGG-11/VGG-13/VGG-16/VGG-19 模型，以及对应使用 Batch Normalization 的版本，分别将其加载到显存中占了 1467/1477/1501/1527 MiB（训练与测试所占显存大小依赖于实验设置，故不做讨论）。

4. Inception Net

Inception Net V1 (GoogLeNet)

论文链接：Going Deeper with Convolutions, 发表时间：2014.09

2014 年，Google 提出了 Inception 网络结构，并以此构建了 GoogLeNet（之所以这样命名，是为了向LeNet致敬；此外，GoogLeNet 也经常被称为 Inception Net V1，而该论文经常被称为 Inception V1），从而在同年的 ImageNet Challenge 的分类与检测（Detection）任务上夺得第一名。

与 VGG 不同，Inception 结构虽然也倾向于加“深”网络结构，从而提高模型的表达能力，但是作者充分考虑到现实中计算资源的限制，所以对模型中局部结构进行了精心设计，并且抛弃全连接层（虽然 GoogLeNet 最后加了一层全连接层，但这是作者为了其他人能更方便的利用模型进行微调（Finetune））。

作者在文中指出，提高模型表达能力的最直接的办法就是增加模型的“大小”，而这又会导致两个问题的产生：模型越大，其网络参数也就越大，就越容易产生过拟合现象，所以就需要更大的数据集，然而大型数据集的构建成本是很高昂的；模型越大，对于计算资源的需求就越大，这在现实任务中是难以接受的。而作者认为解决这两个问题的基本方法是将全连接层，甚至是卷积层改为稀疏的网络结构。（作者还在文中指出，GoogLeNet 的参数仅有 AlexNet 的 1/12，而 AlexNet 的全连接层的参数量甚至占到了自身参数量的 90% 以上）

受到 Network In Network 以及 HeHebbian Principle 的启发，作者通过增加网络的宽度，从而提高网络的表达能力，并尝试找到卷积神经网络中的最优局部稀疏结构，即 Inception Module（如上图所示）。

作者所设计的 Inception Module 与常见的网络结构不同，打破了常规的卷积层串联的设计思路，选择将卷积核大小为 1 × 1，3 × 3，5 × 5 的卷积层和池化核大小为 3 × 3 的池化层进行并联，并将各自所得到的特征图进行 Concatenate 操作合并在一起，作为后续的输入。

之所以 Inception Module 由上图左侧发展被改进为上图右侧，是因为：作者希望希望模型中深层的 Inception Module 可以捕捉到 Higher Abstraction，所以作者认为深层的 Inception Module中的卷积层的空间集中度应该逐渐降低，以此捕捉更大面积的特征。故，作者令越深层的 Inception Module 中，卷积核大小为 3 × 3 和 5 × 5 这两个卷积层的输出通道数占比越多。但这又将导致计算量增加，所以为了解决这个问题，作者在原有 Inception Module 的基础上，利用卷积核大小为 1 × 1 的卷积层进行降维操作，从而减小计算量（这建立在一个假设之上：即使是低维的映射也可能包含关于相关图像区域的大量信息）。

由于 Inception Module 保持了输入输出的尺寸一致，故 GoogLeNet 可以由 Inception Module 进行模块化搭建。仔细观察 GoogLeNet 的结构，你会发现作者在 Inception Module (4a) 和 (4d) 设置了额外的辅助 Loss，用以增加向后传导的梯度，缓解梯度消失问题，同时增加额外的正则化操作。在文章中，作者指出这样操作的目的主要是使得模型中低层的特征也具备很好的区分能力。（文章中，这两个额外的 Loss 会乘上衰减系数 0.3，与最后的 Loss 相加，作为整个模型的 Loss）

Inception Net V2

论文链接：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, 发表时间：2015.02

2015 年，谷歌提出了 Batch Normalization 操作，将其添加在之前的 GoogLeNet，并修改了一定的结构与实验设置，得到了 Inception Net V2，在 ImageNet 上达到分类任务超过 GoogLeNet。（关于 BN 的详细笔记，可以参考这篇博文：[笔记] 神经网络中 Normalization 的发展历程）

网络结构：

将 Inception Module 中卷积核大小为 5 × 5 的卷积层用两个相连的卷积核大小为 3 × 3 的卷积层进行替换。作者指出，这一操作是的模型参数增加了 25%，计算成本提高了 30%。
将输出大小为 28 × 28 的 Inception Module 的个数由两个提升到三个，即增加 Inception Module (3c)。
在 Inception Module 中进行池化操作（有时为平均池化（Average Pooling），有时为最大池化（Max Pooling））
两个 Inception Module 之间不再进行池化操作，仅在 Inception Module (3c) 和 (4e) 前添加 stride-2 conv/pooling layer。
将网络第一层的卷积层替换为深度乘子为 8 的可分离卷积（Separable Convolution，关于这个概念，可以参考：卷积神经网络中的Separable Convolution 和 CNN中千奇百怪的卷积方式大汇总）。

其他细节：

作者在文中指出，他们并不是直接简单的将 BN 添加到网络中的，还做了如下的改动：增大学习率，移除 Dropout，减小 L2 正则化项，加速学习率衰减，移除 LRN，更彻底的打乱训练数据，减少光学畸变（ Photometric Distortion，关于这个概念，可以参考这篇文章：SSD中的数据增强细节）。下图为作者关于学习率的对比实验：

Inception Net V3

论文链接：Rethinking the Inception Architecture for Computer Vision, 发表时间：2015.12

时隔将近一年，谷歌又发了篇论文对之前提出的 Inception Module 进行了思考。在这篇论文中，作者首先四条设计神经网络的原则，接着提出如何分解大卷积核的卷积层，接着反思辅助分类器（Auxiliary Classifier）的作用，接着按照自己所提的第一条原则对常见的 Size Reduction 做了改进，最后将以上改进添加进之前的网络结构中。

关于四条设计神经网络的原则：（没能完全理解，直接放原文吧）

Avoid representational bottlenecks, especially early in the network.
Higher dimensional representations are easier to process locally within a network.
Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power.
Balance the width and depth of the network.

关于如何分解大卷积核的卷积层：

作者提出两种解决办法：利用连续的两层小卷积核的卷积层代替大卷积核的卷积层（下图左侧所示）；利用连续的两层非对称的卷积层（卷积核大小为 n × 1 和 1 × n）代替原有卷积层（卷积核大小为 n × n）（下图右侧所示）。

这样做的好处自然是减少参数量以及计算量。此外，作者对于这两种操作都做了相应的实验并发现：使用第一种操作时，添加在卷积层后的激活函数都为 ReLU 比 Linear+ReLU 好；使用第二种操作，最好在模型的中间层使用（适用的FeatureMap大小范围为 12~20）。

关于辅助分类器的作用：

GoogLeNet 曾在 Inception Module (4a) 和 (4d) 设置了额外的辅助 Loss，即设置了辅助分类器，当时作者对其的理解是：使梯度更好的回传到低层，避免梯度消失问题，提高模型的收敛速度与最终表现。但是作者通过实验发现：在训练初期，有无辅助分类器并无区别；在训练后期，有辅助分类器将提高模型的最终表现；此外，作者去掉 GoogLeNet 中较低的辅助分类器的分支，发现此举并不会导致模型性能有明显的降低。最后，作者认为：辅助分类器起到的作用更像是正则化。

关于如何有效减少特征图尺寸：

在分类任务中，许多模型都会随着深度的整长不断通过池化操作缩小特征图尺寸，以此减小模型的“体积”。由于池化操作会导致特征图中的许多信息丢失，许多模型都习惯在特征图的宽与高缩小一半的同时，利用卷积核为 1 × 1 的卷积层使得特征图的通道数量翻倍（即 C × W × H -> 2C × W/2 × H/2），以此减少池化操作所带来的信息丢失。

这样操作有两种选择：先进行升维操作，再进行池化操作；先进行池化操作，再进行升维操作。作者指出，根据原则一，我们应先进行升维操作，再进行池化操作。（我觉得挺好理解的，本来升维就是为了避免池化操作带来的信息丢失，但是在已经池化后的特征图上做升维的效果肯定不如在未池化的特征图上做升维的效果好）

当然，这样做会导致计算量增加，于是作者提出了另一种做法，如下图所示：

Inception Net V4

论文链接：Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning, 发表时间：2016.02

在 Inception-v4 中，作者将 Inception 和 ResNet 结合在一起，推出了 Inception-ResNet-v1，Inception-ResNet-v2，Inception-v4。其中，Inception-v4 的总体结构如上图所示，各个模块细节如下图所示。

可以看得出来，Inception-v4 的结构设计非常复杂，需要大量的实验验证以及工程经验，一般只有大厂才有能力做这样的工作，这也是为什么最近 NAS 这么火的原因吧。

Xception

论文链接：Xception: Deep Learning with Depthwise Separable Convolutions , 发表时间：2016.10

在这篇论文中，Google 利用 Depthwise Separable Convolution 对 Inception V3 进行了改进，并结合 Residual Connection 设计了新的网络：Xception（含有 Extreme Inception 的意味）。

作者在文章开头便指出 Inception Module 背后的思路是通过一系列操作使得模型的学习更加简单有效（分别单独学习通道之间的关系和空间关系），这意味着 Inception Module 假设通道之间的关系和空间关系是可以被分离开的（这个假设的一个变体就是 width-wise correlation and height-wise correlation，即 Inception V3 里的卷积核大小为 7×1 和 1×7 的卷积层）。接着，作者由 Inception V3 中的 Inception Module 进行演变，得到极端版本的 Inception Module，与 Depthwise Separable Convulotion 思路一致，如下图所示：

作者指出 “extreme” version of Inception Module 与 Depthwise Separable Convolution 主要存在两点不同：

Depthwise Convolution 和 Pointwise Convolution 的顺序不同。不过，作者认为这一点并不重要。
在 Inception Module 中，Depthwise Convolution 和 Pointwise Convolution 后都会接着 ReLU；而 Depthwise Separable Convolution 一般仅在 Pointwise Convolution 后接着 ReLU。作者认为这一点差异比较重要，并在后续的实验中进行了讨论（后面发现在 Pointwise Convolution 后接 ReLU/ELU，都不如中间不添加激活函数的表现效果）。

最后，作者提出了新的网络：Xception（结合了 Inception Module, Residual Connection, Depthwise Seperable Convolution），网络结构如下所示：

5. ResNet

Residual Network

论文链接：Deep Residual Learning for Image Recognition，发表时间：2015.12

2015 年，Kaiming He 提出了 ResNet（拿到了 2016 年 CVPR Best Paper Award），不仅解决了神经网络中的退化问题（Degrade Problem，即相较于浅层神经网络，深层神经网络的深度到达一定深度后，拟合能力反而更差，训练/测试误差更高），还在同年的 ILSVRC 和 COCO 竞赛横扫竞争对手，分别拿下分类、定位、检测、分割任务的第一名。（个人觉得，ResNet真的属于现象级论文，所提出的残差结构大幅提高了神经网络的拟合能力）

网络结构：

简单来说，Kaiming 在文中提出了残差结构（Residual Block，如上图左侧所示），使得原本所要拟合的函数 $H (x)$ ，改为 $F (x)$ ，其中， $H (x) = F (x) + x$ 。虽然在“多个非线性层可以拟合任意函数”这一假设下二者并无区别，但是 Kaiming 假设模型学习后者，将更容易进行优化与收敛。（在残差结构中，模型利用 Shorcut 进行 Identity Mapping，这样也解决了梯度消失现象）

由于 Residual Block 并不需要额外的参数以及计算量，Kaiming 在文中以此做了多组对照实验，证明该网络结构的有效性（所用的两个 ResNet 为 ResNet-18 和 ResNet-34）。但是，若要将模型的深度继续不断增加，需要对其进行改进：将原先的 Residual Block（上图右侧所示，也被称作 Basic Block）改进为 Bottleneck Block，减少模型的参数与计算量。

其他细节：

对训练数据进行数据增强：从 [256,480] 随机采样，作为图像最短边长度，进行宽高等比缩放；随机裁剪 224 * 224，并进行随机镜像翻转；并对所有训练图像的每个像素值进行统计，并减去该平均值。
对测试数据使用 10-crop 测试方法。
ResNet 在非线性层后，激活函数前使用 Batch Normalization。

PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 ResNet-18/ResNet-34/ResNet-50/ResNet-101/ResNet-152 模型，以及对应使用 Batch Normalization 的版本，分别将其加载到显存中占了 1007/1113/1179/1227/1443 MiB（训练与测试所占显存大小依赖于实验设置，故不做讨论）。

关于 Residual Network 中 Identity Mapping 的讨论

论文链接：Identity Mappings in Deep Residual Networks，发表时间：2016.03

Kaiming 在这篇论文中对 ResNet 中的 Identity Mapping 进行了详细的讨论（前向传导、后向传导的分析），并且设计并尝试了多种不同的 Shortcut Connection 设计（如上图所示），并在最后对激活函数做了讨论，从而提出了新的 Residual Block（为与原版结构区分，Kaiming 称其为 full pre-activateion Residual Block）。

我个人是比较喜欢这篇论文的，不仅对照实验设置的很详细，也对各类实验现象进行了分析，尤其是最后关于激活函数的讨论（到现在为止，这应该都还是开放问题，大家并没有一个统一的观点）。总的来说，Kaiming 在这篇论文中做出了两处改动：移除了 Short Connection 中的 ReLU，并将 Residual Mapping 中的 BN 和 ReLU 提前至对应的神经网络层前。

PS: 阅读 PyTorch 所提供的源码，可以发现 PyTorch 中的 TORCHVISION.MODELS 所提供的 ResNet 模型，都是按照之前文章所述实现的，即 original Residual Block 版本。

6. DenseNet

论文链接：Densely Connected Convolutional Networks，发表时间：2016.08

2016 年,DenseNet 横空出世,在当年也引起过热议。与 ResNet、Inception Net 不同，DenseNet 即没从网络的深度入手，也没从网络的宽度入手，而是对每层的 FeatureMap 进行特征复用，以此缓解梯度消失问题，加强网络中特征的传递，有效对特征进行复用，并在提高网络的表现效果的同时减少了网络的参数量！

在论文中，作者提出了一种网络结构：Dense Block（如下图所示）。在 Dense Block 中，每层卷积层的输入为在该 Block 中之前所有卷积层所输出的 FeatureMap 的 concation 结果（此处与 ResNet 不同，ResNet 中将结果进行 add ）。作者在文中指出，ResNet 成功的关键点在于：‘they create short paths from early layers to later laters’；作者认为自己之所以提出的 Dense Block 这样的结果，就是为了保证层与层之间的信息能最大程度的保存。

网络结构：

DenseNet 与其他 CNN 类似，同样保留着 down-sampling layers 的设计，网络中包含四个 Dense Block 和四个 Transition Layer，分别处理不同 Size 的 FeatureMap / 对 FeatureMap 进行 Pooling 操作。
根据 Identity Mappings in Deep Residual Networks，作者在 Dense Block 中将 BN 和 ReLU 设置在卷积层前面。由于 Dense Block 的特征复用操作，越后面的卷积层，其输入的 Channel 越大。故作者在 DenseNet 中引用了 Bottleneck Layer，即：BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)，以此避免计算量的快速增长。（文中记使用 Bottleneck Layer 的 DesnseNet 为 DenseNet-B）
作者还尝试在 Transition Layer 中对 FeatureMap 的 Channel 数量进行缩减，设输入的 FeatureMap 的 Channel 数为 m， $\theta$ 为压缩因子，则输出的 FeatureMap 的 Channel 数为 $\lfloor \theta m \rfloor$ 。（实验中，作者设置 $\theta$ 为0.5;，并记使用Bottleneck Layer 以及设置 Transition Layer 的 $\theta < 1$ 的 DesnseNet 为 DenseNet-BC）
为保持特征复用的实现（即同意 DenseNet 中的所有 FeatureMap 大小一致），作者令 Dense Block 中的卷积层的卷积核大小为 3 × 3，padding 为 1，且采用zero-padding。

PS: PyTorch 中的 TORCHVISION.MODELS 提供基于 ImageNet 训练好的 DenseNet-121/DenseNet-161/DenseNet-169/DenseNet-201 模型，分别将其加载到显存中占了 1115/1201/1135/1153 MiB（训练与测试所占显存大小依赖于实验设置，故不做讨论）。

7. MobileNet

MobileNet V1

论文链接：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications，发表时间：2017.04

（关于 MobileNet 系列文章，可以参考我之前所写的一篇博文：[论文笔记] MobileNet 系列论文笔记，链接如下，虽然当时也是刚刚开始接触深度学习）

2017年左右，神经网络模型轻量化已经逐渐引起人们的关注，常见的手段分为两种：设计轻量化网络模型以及对已经训练好的复杂网络进行压缩（比如：降低精度、剪枝等等）。此时，Google 提出了一个轻量化模型：MobileNet，成为后续人们常使用的 Baseline Model。

在 MobileNet 中，作者利用 Depthwise Separable Convolution 设计了一个轻量化网络，并通过设置 Width Multiplier 和 Resolution Multiplier 这两个超参数方便用户根据需求任意更改网络宽度与输入分辨率大小，从而使得人们可以根据任务需要与实际场景对模型进行 latency 和 accuracy 的权衡。

关于 Depthwise Separable Convolution：

Depthwise Separable Convolution 其实是将 Standard Convolution 拆分成两个部分：Depthwise Convolution 和 Pointwise Convolution。

其实这个概念不难理解，只需要看作者所提供的图就好了：

原先的 Standard Convolution 中每个 Filter 的 shape 为 $D_k,D_k,M)$ ，其中 $M$ 为所输入 Feature Map 的 channel 数。每个 Filter 在所输入的 Feature Map 上进行卷积，输出的 shape 为 $D_{out},D_{out},1)$ ，如果有 $N$ 个 Fliter，则输出的 shape 为 $D_{out},D_{out},N)$ 。

反观 Depthwise Separasble Convolution：在 Depthwise Convolution 阶段，每个 Depthwise Convolution Fliter 的 shape 为 $D_k,D_k,1)$ ，共有 $M$ 个 Filer，则输出结果的 shape 为 $D_{out},D{out},M)$ ；接着在 Pointwise Convolution 阶段，每个 Pointwise Convolution Filter 的 shape 为 $(1, 1, M)$ ，共有 $N$ 个 Filter，则输出结果的 shape 为 $D_{out},D_{out},N)$ 。

可以明显看出，Standard Convolution 所需参数为 $D_k*D_k*M*N$ ，而 Depthwise Separable Convolution 所需参数为 $D_k*D_k*M + M*N = M*(D_k*D_k+N)$ ，与 Standard Convolution 相比，所减少的参数数量为 $N-1)*D_k*D_k-N$ 。

作者在论文中，也分别对 Standard Convolution 和 Depthwise Separable Convolution 的计算代价做了对比：

关于 Width Multiplier：

作者在论文中提出，可以利用超参数 $\alpha$ 控制 MobileNet 的通道数，使得输入 Feature Map 的 channel 数变为 $\alpha M$ ，输出 Feature Map 的 channel 数变为 $\alpha N$ 。
其中， $\alpha=1$ 为 baseline MobileNet， $\alpha<1$ 为 reduced MobileNet。

关于 Resolution Multiplier：

作者在论文中提出，可以利用超参数 $\rho$ 控制 MobileNet 的 resolution。
其中， $\rho=1$ 为 baseline MobileNet， $\rho<1$ 为 reduced MobileNet。

MobileNet V2

论文链接：MobileNetV2: Inverted Residuals and Linear Bottlenecks，发表时间：2018.01

2018年，Google 在 MobileNet 基础上提出了新的模型 MobileNet V2。其中，提出了新的结构 Inverted Residuals and Linear Bottlenecks，并利用MobileNet V2 实现分类/目标检测/语义分割多目标任务。

关于 Inverted Residuals and Linear Bottlenecks：

首先，先讲清楚什么是 Inverted Residuals and Linear Bottlenecks 结构：

下图是 Residual Block 与 Invereted Residual Block 的区别，可以看到原先的 Residual block 是先降 Channel 再升 Channel 的，不过现在 Inverted Residual Block 却是先升 Channel 再降 Channel 的。

其次是 Linear 的部分，作者在文中指出 ReLU 的使用将会使得 low-dimension channel tensor 产生崩塌，造成信息损失，故将最后的 ReLU6 去掉，直接进行线性输出。（关于 ReLU6：卷积之后通常会接一个ReLU非线性激活，在Mobile v1里面使用ReLU6，ReLU6就是普通的ReLU但是限制最大输出值为6（对输出值做clip），这是为了在移动端设备float16的低精度的时候，也能有很好的数值分辨率，如果对ReLU的激活范围不加限制，输出范围为0到正无穷，如果激活值非常大，分布在一个很大的范围内，则低精度的float16无法很好地精确描述如此大范围的数值，带来精度损失。）

作者对于这部分做了详细的实验与推导，在此我尽量进行描述：

作者首先提到 It has been long assumed that manifolds of interest in neural networks could be embedded in low-dimensional subspaces ，其次利用实验探究 ReLU 所带来的信息损失：

他人见解：

这意味着，在较低维度的张量表示（兴趣流形）上进行ReLU等线性变换会有很大的信息损耗。因而本文提出使用线性变换替代Bottleneck的激活层，而在需要激活的卷积层中，使用较大的M使张量在进行激活前先扩张，整个单元的输入输出是低维张量，而中间的层则用较高维的张量。

用线性变换层替换channel数较少的层中的ReLU，这样做的理由是ReLU会对channel数低的张量造成较大的信息损耗。我个人的理解是ReLU会使负值置零，channel数较低时会有相对高的概率使某一维度的张量值全为0，即张量的维度减小了，而且这一过程无法恢复。张量维度的减小即意味着特征描述容量的下降。

关于这部分我的理解比较肤浅，建议大家阅读论文，并查阅他人的见解：

To summarize, we have highlighted two properties that are indicative of the requirement that the manifold of interest should lie in a low-dimensional subspace of the higher-dimensional activation space:

If the manifold of interest remains non-zero volume after ReLU transformation, it corresponds to a linear transformation.

ReLU is capable of preserving complete information about the input manifold, but only if the input manifold lies in a low-dimensional subspace of the input space.

MobileNet V3

论文链接：Searching for MobileNetV3，发表时间：2019.05

（还没看，之后有空再写）

8. ShffuleNet

ShuffleNet V1

论文链接：ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices，发表时间：2017.07

2017年，Face++ 的张翔宇（跟 Kaiming 一起推出 ResNet）推出了 ShffuleNet（一种极高效的移动端卷积神经网络模型），其 Insight 是：许多 Basic Architecture (比如：Xception, ResNet) 在计算资源受限时，其性能将大幅下降，而这是由于其中包含大量的 $1 * 1$ Convolution 所导致的。

因此，在ShffuleNet中，作者利用 Group Convolution, Depthwise Separable Convolution 结合，提出 Pointwise Group Convolution 以避免大量 $1 * 1$ Convoltuion，并利用 Channel Shuffle 缓解由 Group Convolution 带来的副作用，并在 Residual Block 的基础上进行网络结构设计，使得网络的计算量减少的同时，仍能保持较高的性能。

网络结构：

Group Convolution and Channel Shffule

关于 Group Convolution 的概念，最早应该是在 AlexNet 中所提出来的，用于解决当时 GPU 显存不够用的尴尬境地。不过，本篇论文中作者利用 Group Convolution 减少模型的计算量与参数量（关于 Group Convolution 的参数量与其他细节可以阅读：Group Convolution分组卷积，以及Depthwise Convolution和Global Depthwise Convolution）。为避免由于 Group Convolution 导致所学习特征较为局限（多个 Group Convolution 叠加，将导致某个输出channel仅仅来自输入channel的一小部分），作者引进 Channel Shuffle 操作（作者将 Channel Dimension 由 $g * n$ reshape 为 $(g, n)$ ，进行转置为 $(n, g)$ ，并进行 flattening，以此完成 Channel Shuffle，使得该操作是可微分的）。

Depthwise Separable Convolution and Residual Connection

作者利用 Depthwise Separable Convolution 对 Residual Block 进行改进，从而设计出 ShffuleNet Unit。其中，Pointwise Convolution 由于 Group Convolution 的缘故，需改为 Pointwise Group Convolution。作者还指出：之所以不在 Depthwise Convolution 后接 ReLU，是根据 Xception所述；使用 BN 与 ReLU 的方式，是模仿 ResNet 以及 Inception V2。（作者还提到，之所以只利用 Depthwise Convolution 处理 Bottleneck Feature Map，是因为 Depthwise Convolution 很难在移动端上有高效的实现，尽管理论上其参数量与计算量都较小）

ShuffleNet Architecture

ShuffleNet V2

论文链接：ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design，发表时间：2018.07

近几年来，人们对如何设计高效的神经网络模型的讨论较为热烈，许多针对移动端设备使用的模型结构相继推出，如：MobileNet 系列模型, ShffuleNet 系列模型等等。人们都称这样的网络是“小”网络，衡量标准便是其参数量与运算量，但是这样的衡量标准是否精确呢？

2018年，Face++ 对衡量模型复杂度的指标（如：FLOPs）进行讨论，提出应该使用更为直接的指标（如：运行速度），并应直接在目标平台上进行测试。此外，Face++ 还提出了四条关于高效网络设计的实用准则，并依据此提出了 ShffuleNet V2。

在论文中，作者对 Xception, ShffuleNet V1/V2, MobileNet V2进行了详细测试：

作者认为，之所以出现“运算量差不多的两个模型的速度却会差很多”这一现象，是因为许多影响运行速度的因素并不能通过运算量进行体现，如： Memory Access Cost (MAC) 和模型的并行化程度往往没被纳入考虑范围中，而且模型在不同的平台上的运行速度往往也不一样。

关于高效网络设计的实用准则：

Equal channel width minimizes memory access cost (MAC).（卷积层输入、输出的通道数量一致可以减少 MAC）
Excessive group convolution increases MAC.（组卷积的分组数量的增加将导致 MAC 增加）
Network fragmentation reduces degree of parallelism.（网络过多的分支将影响其并行性能）
Element-wise operations are non-negligible.（元素级别的操作不应被忽略）

ShffuleNet V2 网络结构：

参考资料：

CNN网络结构的发展：从LeNet到EfficientNet
【卷积神经网络发展历程】从LeNet、AlexNet到ResNet、SENet
CNN网络架构演进：从LeNet到DenseNet
VGG 论文阅读记录
深度学习经典卷积神经网络之GoogLeNet（Google Inception Net）
Xception算法详解
[笔记] 神经网络中 Normalization 的发展历程
卷积神经网络中的Separable Convolution
CNN中千奇百怪的卷积方式大汇总
SSD中的数据增强细节
残差网络ResNet笔记
DenseNet算法详解
ShuffleNet算法详解
轻量级网络–ShuffleNet论文解读
ShuffleNet v2算法笔记

如果你看到了这篇文章的最后，并且觉得有帮助的话，麻烦你花几秒钟时间点个赞，或者受累在评论中指出我的错误。谢谢！

作者信息：
知乎：没头脑
LeetCode：Tao Pu
CSDN：Code_Mart
Github：Bojack-want-drink

你可能感兴趣的:(CV,Deep,Learning,CV,杂谈)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
鲁西南方言杂谈-麻胡一两茶叶
《汉语词典》给“麻胡”的解释是“拼音máhú，传说中人名。说法不一，以残暴著称。民间习用以恐吓小儿。谓貌丑而多须者。”的意思；《国语辞典》也给出其“传说中的坏人，用来吓唬啼哭中的小孩。也称为‘麻虎子’、‘马虎子’。唐代李匡义《资暇集．卷下．非麻胡》俗怖婴儿曰：‘麻胡来！’不知其源者，以为多髯之神而验刺者，非也。隋将军麻祜，性酷虐，炀帝令开汴河，威棱既盛，至稚童望风而畏，互相恐吓曰：‘麻祜来！’稚童
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
C# 禁止程序重复启动 wiseyao1219 c#
修改：Program.cs[STAThread]staticvoidMain(){Mutexmutex=newMutex(true,"NewGuid123456",outboolisCreatedNew);if(!isCreatedNew){MessageBox.Show(Application.ProductName+"isrunning...");return;}Application.Ena
2018-08-16【Swift 4.1】关于Swift4.0以后调用MJExtension无法模型转换问题码农happy
1、本人使用swift4.1，弄了一晚上才弄好，结果还是一个小问题真是尴尬，要在model中每个属性前面加上@objcimportUIKitclassUserModel:NSObject{@objcvardix=String()}letdic=["dix":"ffffff"]asNSDictionaryletmodel=UserModel.mj_object(withKeyValues:dic)!
python图像匹配_opencvpython中的图像匹配 weixin_39585675 python图像匹配
我一直在做一个项目，用opencvpython识别相机中显示的标志。我已经尝试过使用surf、颜色直方图匹配和模板匹配。但在这3个问题中，它并不总是返回正确的答案。我现在想要的是，解决我这个问题的最好办法是什么。模板图像示例：以下是摄像头中显示的标志示例。如果这是我想要识别的图像，该怎么用？在更新matchTemplate中的代码flags=["Cambodia.jpg","Laos.jpg","
利用Python+OpenCV实现截图匹配图像，支持自适应缩放、灰度匹配、区域匹配、匹配多个结果 xu-jssy Python自动化脚本 python opencv 开发语言图像处理自动化
可以直接通过pip获取，无需手动安装其他依赖pipinstallxug示例：importxugxug.find_image_on_screen(,,,)=========================================================================一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获
day12 控制流程 if switch while do...while 猜数字游戏卓越小Y JAVA学习日志游戏 java 开发语言
控制流程顺序结构所有的程序都是按顺序执行if语句选择结构单选择语句if(a>0){System.out.println(“hello”);}packagecom.ckw.blog.select;importjava.util.Scanner;publicclassdemo01{publicstaticvoidmain(String[]args){intscore=0;Scannerscanner=
Vector和Stack的用法蟹道人 JavaSe java
/***作者：*日期：*功能：vector的用法*/packagecom.cg;importjava.util.*;publicclassDemo5{publicstaticvoidmain(String[]args){//Vector的使用Vectorvec=newVector();Empemp=newEmp("2011",25,"zhang");vec.add(emp);for(inti=0;
C#文件被占用的解决方案花北城 C#项目文件占用
问题打更新包时，提示文件被占用。System.IO.IOException:文件“D:\RS\RS_CCVI20111210.exe”正由另一进程使用，因此该进程无法访问该文件。在System.IO.__Error.WinIOError(Int32errorCode,StringmaybeFullPath)在System.IO.FileStream.Init(Stringpath,FileMode
数组拷贝Arraycopy xing2516 Arraycopy java
packageqing;//数组拷贝publicclassArraycopy{publicstaticvoidmain(String[]args){//一维数组拷贝Stringa[]={"小米","华为","阿里","腾讯","百度"};String[]aBak=newString[6];//从a数组第0个copy到数组aBak0个开始，长度是a数组长度System.arraycopy(a,0,a
discuz discuz_admincp.php 讲解,Discuz! 1.5-2.5 命令执行漏洞分析(CVE-2018-14729) weixin_39740419 discuz 讲解
0x00漏洞简述漏洞信息8月27号有人在GitHub上公布了有关Discuz1.5-2.5版本中后台数据库备份功能存在的命令执行漏洞的细节。漏洞影响版本Discuz!1.5-2.50x01漏洞复现官方论坛下载相应版本就好。0x02漏洞分析需要注意的是这个漏洞其实是需要登录后台的，并且能有数据库备份权限，所以比较鸡肋。我这边是用Discuz!2.5完成漏洞复现的，并用此进行漏洞分析的。漏洞点在：so
mysql 隐秘后门_【技术分享】CVE-2016-5483：利用mysqldump备份可生成后门 Toby Dai mysql 隐秘后门
预估稿费：100RMB投稿方式：发送邮件至linwei#360.cn，或登陆网页版在线投稿前言mysqldump是用来创建MySQL数据库逻辑备份的一个常用工具。它在默认配置下可以生成一个.sql文件，其中包含创建/删除表和插入数据等。在导入转储文件的时候，攻击者可以通过制造恶意表名来实现任意SQL语句查询和shell命令执行的目的。另一个与之相关的漏洞利用场景可以参考。攻击场景攻击者已经能够访问
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

[总结] 卷积神经网络发展历程

目录

1. LeNet

2. AlexNet

3. VGG

4. Inception Net

5. ResNet

6. DenseNet

7. MobileNet

8. ShffuleNet

你可能感兴趣的:(CV,Deep,Learning,CV,杂谈)