travellerss

【卷积神经网络系列】六、GoogLeNet（v1、v2、v3、v4、ResNetv1、ResNetv2）

参考资料：
一、简介
二、Inception
三、GoogLeNet-V1
- 3.1 输入
- 3.2 第一层（卷积层）
- 3.3 第二层（卷积层）
- 3.4 第三层（Inception 3a层）
- 3.5 第三层（Inception 3b层）
- 3.6 其余层
- 3.7 辅助分类器
- 3.8 总结
四、GoogLeNet-V2
- 4.1 General Design Principles
- 4.2 详解批量归一化（Batch Normalization）
- - 1. 前言
  - 2. BN算法
  - 3. BN的作用
  - - （1）加快网络的训练和收敛的速度
    - （2）控制梯度爆炸防止梯度消失
    - （3）防止过拟合（正则化）
  - 4. BN的缺陷
  - 5. LN与BN
- 4.3 卷积分解（Factorizing Convolutions）
- - 1.多个小尺寸卷积核叠加替换大卷积核（两个3x3代替1个5x5）
  - 2.进一步使用小尺寸一维卷积核替代二维卷积核（1xn+nx1代替nxn）
- 4.4 详解可分离卷积（Separable convolution）
- - - 参考资料：
  - 1.空间可分离卷积(Spatially Separable Convolutions)
  - 2.深度可分离卷积(Depthwise Separable Convolutions)
  - - 2.1 常规卷积
    - 2.2 逐深度卷积（Depthwise Convolution）
    - 2.3 逐点卷积（Pointwise Convolution）
    - 2.4 参数对比
- 4.5 整体网络结构
五、GoogLeNet-V3
- 5.1 标签平滑（Label Smoothing Regularization）
- - 1. 标签平滑的作用—防止过拟合
  - 2. 传统的交叉熵损失计算
  - 3. 带有标签平滑的交叉熵损失的计算
  - 4.标签平滑的公式
  - 5. 标签平滑与传统的交叉熵损失的比较与分析
  - 6. 标签平滑的应用场景
六、GoogLeNet-V4
- 6.1 Inception-v4
- 6.2 Inception-ResNet-v1
- 6.3 Inception-ResNet-v2
七、论文复现

参考资料：

论文地址：

[v1] Going Deeper with Convolutions

[v2] Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift

[v3] Rethinking theInception Architecture for Computer Vision

[v4] Inception-v4,Inception-ResNet and the Impact of Residual Connections on Learning

参考博客：

深度学习-GoogLeNet

GoogLeNet

深度学习：详细说明GoogleNet网络结构

一、简介

GoogLeNet是2014年的ILSVRC的冠军模型，GoogLeNet做了更大胆的网络上的尝试，而不是像VGG继承了LeNet以及Alexnet的一切框架。GoogLeNet虽然有22层，但是参数量只有AlexNet的1/12。

GoogLeNet论文指出获得高质量模型最保险的做法就是增加模型的深度，或者是它的宽度，但是一般情况下，更深和更宽的网络会出现以下问题：

参数太多，容易过拟合，如果训练数据有限，则这一问题更加突出；
网络越大计算复杂度越大，难以应用；
网络越深，容易出现梯度消失问题

总之更大的网络容易产生过拟合，并且增加了计算量。

GoogLeNet给出的解决方案：

将全连接层甚至一般的卷积都转化为稀疏连接 -> 提出了名为Inception的结构来实现此目的。

二、Inception

这是一种网中网结构（Network in Network）。就是原来的节点也是一个网络，使用了Inception，这个网络结构的宽度和深度都可以扩大。从而带来性能的提升。

对上图做以下说明：

1 . 采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合；
2 . 之所以卷积核大小采用1、3和5，主要是为了方便对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了；
3 . Inception里面也嵌入了pooling。为了同时保持特征并且降低运算量。
4 . 网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加。

使用5x5的卷积核仍然会带来巨大的计算量。为此，文章借鉴NIN，采用1x1卷积核来进行降维。

（1）作用1：在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征。

上图左侧是是传统的卷积层结构（线性卷积），在一个尺度上只有一次卷积；右图是Network in Network结构（NIN结构），先进行一次普通的卷积（比如3x3），紧跟再进行一次1x1的卷积，对于某个像素点来说1x1卷积等效于该像素点在所有特征上进行一次全连接的计算，所以右侧图的1x1卷积画成了全连接层的形式，需要注意的是NIN结构中无论是第一个3x3卷积还是新增的1x1卷积，后面都紧跟着激活函数（比如ReLu）。

将两个卷积串联，就能组合出更多的非线性特征。举个例子，假设第1个3x3卷积＋激活函数近似于f1(x)=ax2+bx+c，第二个1x1卷积＋激活函数近似于f2(x)=mx2+nx+q，那f1(x)和f2(f1(x))比哪个非线性更强，更能模拟非线性的特征？答案是显而易见的。NIN的结构和传统的神经网络中多层的结构有些类似，后者的多层是跨越了不同尺寸的感受野（通过层与层中间加pool层），从而在更高尺度上提取出特征；NIN结构是在同一个尺度上的多层（中间没有pool层），从而在相同的感受野范围能提取更强的非线性。

（2）作用2：使用1x1卷积进行降维，降低了计算复杂度。

同样是对一个深度为512的特征矩阵使用65个大小为5x5的卷积核进行卷积，不使用1x1卷积核进行降维话一共需要819200个参数，如果使用1x1卷积核进行降维一共需要50688个参数，明显少了很多。

提出两个问题：

1、如果使用1x1进行特征压缩，是否会影响最终结果？

回答：不会，作者的解释是，如果你想要把特征厚度从128变成256，你可以直接用3x3进行特征提取。如果你先用1x1进行压缩到64，然后再用3x3把64channel的特征扩展成256，其实对后续的精度没有影响，而且减少了运算次数。

2、为什么inception是多个尺度上进行卷积再聚合？

回答：直观上，多个尺度上同时卷积可以提取到不同尺度的特征。而这也意味着最后分类判断更加准确。

具体改进后的Inception：

三、GoogLeNet-V1

对上图做如下说明：

1 . 显然GoogLeNet采用了模块化的结构，方便增添和修改；
2 . 网络最后采用了average pooling（这个不是GAP）来代替全连接层，想法来自NIN，事实证明可以将TOP1 accuracy提高0.6%。但是，实际在最后还是加了一个全连接层，主要是为了方便以后大家finetune；
3 . 虽然移除了全连接，但是网络中依然使用了Dropout ;
4 . 为了避免梯度消失，网络额外增加了2个辅助的分类器用于向前传导梯度。文章中说这两个辅助的分类器的loss应该加一个衰减系数，但看caffe中的model也没有加任何衰减。此外，实际测试的时候，这两个额外的分类器会被去掉。

注：上表中的“#3x3 reduce”，“#5x5 reduce”表示在3x3，5x5卷积操作之前使用了1x1卷积的数量。

3.1 输入

原始输入图像为224x224x3，且都进行了零均值化的预处理操作（图像每个像素减去均值）。

3.2 第一层（卷积层）

使用7x7的卷积核（滑动步长2，padding为3），64通道，输出为112x112x64，卷积后进行ReLU操作；

经过3x3的max pooling（步长为2），输出为((112 - 3+1)/2)+1=56，输出为56x56x64，再进行ReLU操作；

然后过一个LRN局部响应归一化；

3.3 第二层（卷积层）

使用3x3的卷积核（滑动步长为1，padding为1），192通道，输出为56x56x192，卷积后进行ReLU操作；

经过3x3的max pooling（步长为2），输出为((56 - 3+1)/2)+1=28，输出为28x28x192，再进行ReLU操作；

然后过一个LRN局部响应归一化；

3.4 第三层（Inception 3a层）

分为四个分支，采用不同尺度的卷积核来进行处理，输入为28x28x192：

（1）64个1x1的卷积核，然后RuLU，输出28x28x64；

（2）96个1x1的卷积核，作为3x3卷积核之前的降维，变成28x28x96，然后进行ReLU计算，再进行128个3x3的卷积（padding为1），输出28x28x128；

（3）16个1x1的卷积核，作为5x5卷积核之前的降维，变成28x28x16，进行ReLU计算后，再进行32个5x5的卷积（padding为2），输出28x28x32；

（4）pool层，使用3x3的核（padding为1），输出28x28x192，然后进行32个1x1的卷积，输出28x28x32；

将四个结果进行连接，对这四部分输出结果的第三维并联，即64+128+32+32=256，最终输出28x28x256。

3.5 第三层（Inception 3b层）

分为四个分支，采用不同尺度的卷积核来进行处理，输入为28x28x256：

（1）128个1x1的卷积核，然后RuLU，输出28x28x128；

（2）128个1x1的卷积核，作为3x3卷积核之前的降维，变成28x28x128，进行ReLU，再进行192个3x3的卷积（padding为1），输出28x28x192；

（3）32个1x1的卷积核，作为5x5卷积核之前的降维，变成28x28x32，进行ReLU计算后，再进行96个5x5的卷积（padding为2），输出28x28x96；

（4）pool层，使用3x3的核（padding为1），输出28x28x256，然后进行64个1x1的卷积，输出28x28x64；

将四个结果进行连接，对这四部分输出结果的第三维并联，即128+192+96+64=480，最终输出输出为28x28x480。

3.6 其余层

第四层（4a,4b,4c,4d,4e）、第五层（5a,5b）……，与3a、3b类似，在此就不再重复。

GoogLeNet的结构就是3+3+3总共9个inception模块组成的，每个Inception有两层，加上开头的3个卷积层和输出前的FC层，总共22层！然后每3层的inception之后都会有一个输出结果，这个网络一共有三个输出结果。

3.7 辅助分类器

GoogLeNet用到了辅助分类器。因为除了最后一层的输出结果，中间节点的分类效果也可能是很好的，所以GoogleNet将中间的某一层作为输出，并以一个较小的权重（0.3）加入到最终分类结果中。其实就是一种变相的模型融合，同时给网络增加了反向传播的梯度信号，也起到了一定的正则化的作用。

结构分析：

辅助分类器的第一层是一个平均池化下采样层，池化核大小为5x5，stride=3
第二层是卷积层，卷积核大小为1x1，stride=1，卷积核个数是128
第三层是全连接层，节点个数是1024
第四层是全连接层，节点个数是1000（对应分类的类别个数）

3.8 总结

Inception-v1将多尺度的卷积层、池化层提取的特征图拼接输入下一层，提升模型多尺度特征提取能力。
Inception-v1参考看NiN的网络设计，利用1*1Conv来降维输入通道，减少模型参数量，并引入更多的非线性，提升模型泛化能力。

四、GoogLeNet-V2

V2版本所做的主要改进：

1.引入batch normalization。

2.借鉴VGG，使用几个小滤波器（3 x 3）卷积层的组合代替一个大滤波器（5 x 5或7 x 7）卷积层。

3.进一步改进，考虑了nx1的卷积核，用1xn与nx1取代3x3卷积（可分离卷积）。

4.1 General Design Principles

下面的准则来源于大量的实验，因此包含一定的推测，但实际证明基本都是有效的。

1.避免表达瓶颈，特别是在网络靠前的地方。信息流前向传播过程中显然不能经过高度压缩的层，即表达瓶颈。从input到output，feature map的宽和高基本都会逐渐变小，但是不能一下子就变得很小。比如你上来就来个kernel = 7, stride = 5 ,这样显然不合适。另外输出的维度channel，一般来说会逐渐增多(每层的num_output)，否则网络会很难训练。（特征维度并不代表信息的多少，只是作为一种估计的手段）
2.高维特征更易处理。高维特征更易区分，会加快训练。
3.可以在低维嵌入上进行空间汇聚而无需担心丢失很多信息。比如在进行3x3卷积之前，可以对输入先进行降维而不会产生严重的后果。假设信息可以被简单压缩，那么训练就会加快。
4.平衡网络的宽度与深度。

上述的这些并不能直接用来提高网络质量，而仅用来在大环境下作指导。

4.2 详解批量归一化（Batch Normalization）

参考：深度学习中的BN,LN,IN,GN总结

1. 前言

（1）问题提出

深度网络参数训练时内部存在协方差偏移（Internal Covariate Shift）现象：深度网络内部数据分布在训练过程中发生变化的现象。

（2）为什么会带来不好影响

训练深度网络时，神经网络隐层参数更新会导致网络输出层输出数据的分布发生变化，而且随着层数的增加，根据链式规则，这种偏移现象会逐渐被放大。这对于网络参数学习来说是个问题：因为神经网络本质学习的就是数据分布（representation learning），如果数据分布变化了，神经网络又不得不学习新的分布。为保证网络参数训练的稳定性和收敛性，往往需要选择比较小的学习速率（learning rate），同时参数初始化的好坏也明显影响训练出的模型精度，特别是在训练具有饱和非线性（死区特性）的网络，比如采用S或双S激活函数网络，比如LSTM，GRU。

（3）解决办法

引入BN，作为深度网络模型的一个层，每次先对input数据进行归一化，再送入神经网络输入层。

（4）BN为什么有效

神经网络的训练过程中，更新了某一层的权重参数，后续每一层网络的输出都可能发生变化，最终引起loss值的变化。所以当没有BN层时，loss的收敛就需要我们精心设计权重的初始化方法和超参数的调节方法以及等待漫长的训练时间；但当我们在各层之间加入了BN层后，某层的输出仅由两个参数γ和β决定，使用梯度下降法优化参数时，优化方法只需要调节两个参数的值来控制各层的输出，而不需要调节各层的全部参数。这样极大地提高了收敛速度，避免了小心翼翼的参数初始化和超参数调节过程。

Batch normalization 也可以被看做一个层面。在一层层的添加神经网络的时候，我们先有数据 X，再添加全连接层，全连接层的计算结果会经过激励函数成为下一层的输入，接着重复之前的操作。 BN就被添加在每一个全连接和激励函数之间。

经过BN之后，大部分输入数据能够分布在激活函数所对应的中间区域，而不是两边(梯度为±1)的区域，这样的数据更加有效。

2. BN算法

我们引入一些 batch normalization 的公式。这三步就是我们在刚刚一直说的 normalization 工序，但是公式的后面还有一个反向操作，将 normalize 后的数据再扩展和平移。原来这是为了让神经网络自己去学着使用和修改这个扩展参数 gamma，和平移参数 β，这样神经网络就能自己慢慢琢磨出前面的 normalization 操作到底有没有起到优化的作用，如果没有起到作用，我就使用 gamma 和 belt 来抵消一些 normalization 的操作。

最后我们来看看一张神经网络训练到最后，代表了每层输出值的结果的分布图。这样我们就能一眼看出Batch normalization 的功效啦。让每一层的值在有效的范围内传递下去。

3. BN的作用

（1）加快网络的训练和收敛的速度

在深度神经网络中中，如果每层的数据分布都不一样的话，将会导致网络非常难收敛和训练，而如果把每层的数据都在转换在均值为0，方差为1的状态下，这样每层数据的分布都是一样的训练会比较容易收敛。

（2）控制梯度爆炸防止梯度消失

（3）防止过拟合（正则化）

在网络的训练中，BN的使用使得一个batch中所有样本都被关联在了一起，因此网络不会从某一个训练样本中生成确定的结果，即同样一个样本的输出不再仅仅取决于样本的本身，也取决于跟这个样本同属一个batch的其他样本，而每次网络都是随机取batch，这样就会使得整个网络不会朝这一个方向使劲学习，一定程度上避免了过拟合。

4. BN的缺陷

1.高度依赖于mini-batch的大小，实际使用中会对mini-Batch大小进行约束，不适合类似在线学习（mini-batch为1）。

2.不适用于RNN网络中normalize操作：BN实际使用时需要计算并且保存某一层神经网络mini-batch的均值和方差等统计信息，对于对一个固定深度的前向神经网络（DNN，CNN）使用BN，很方便；但对于RNN来说，sequence的长度是不一致的，换句话说RNN的深度不是固定的，不同的time-step需要保存不同的statics特征，可能存在一个特殊sequence比其的sequence长很多，这样training时，计算很麻烦。

5. LN与BN

Batch Normalization 的处理对象是对一批样本，是对这批样本的同一维度特征做归一化；

Layer Normalization 的处理对象是单个样本，是对这单个样本的所有维度特征做归一化。

4.3 卷积分解（Factorizing Convolutions）

1.多个小尺寸卷积核叠加替换大卷积核（两个3x3代替1个5x5）

大尺寸的卷积核可以带来更大的感受野，也意味着更多的参数，比如5x5卷积核参数是3x3卷积核的25/9=2.78倍。为此，作者借鉴VGG-Net，用2个连续的3x3卷积层(stride=1)组成的小网络来代替单个的5x5卷积层，这便是Inception-V2结构，保持感受野范围的同时又减少了参数量，如下图：

提出两个问题：

1 . 这种2个连续的3x3卷积层(stride=1)组成的小网络来代替单个的5x5卷积层会造成表达能力的下降吗？

后面有大量实验可以表明不会造成表达缺失；

2 . 3x3卷积之后还要再加激活吗？

作者也做了对比试验，表明添加非线性激活会提高性能。

2.进一步使用小尺寸一维卷积核替代二维卷积核（1xn+nx1代替nxn）

从上面来看，大卷积核完全可以由一系列的3x3卷积核来替代，那能不能分解的更小一点呢。文章考虑了 nx1 卷积核。最重要的改进就是分解Factorization，把7x7分解成两个一维的卷积（1x7和7x1），3x3的也是一样，这样的好处是，既可以加速运算，又可以将一个卷积拆成两个卷积，这样使得网络的深度进一步加深，并且增加了网络的非线性。（每增加一层都要用ReLU），此时网络的输入也从224x224变成299x299。

作者发现在网络的前期使用这种分解效果并不好，还有在中度大小的feature map上使用效果才会更好。（对于mxm大小的feature map,建议m在12到20之间）。这样的非对称卷积不要用在靠近输入的层，会影响精度，要用在较高的层。

(1) 图4是GoogLeNet V1中使用的Inception结构；
(2) 图5是用3x3卷积序列来代替大卷积核；
(3) 图6是用nx1卷积来代替大卷积核，这里设定n=7来应对17x17大小的feature map。该结构被正式用在GoogLeNet V2中。
(4)图7是Inception-v2中结合了对称卷积与非对称卷积，增加了网络宽度，并且将1x3卷积核与3x1卷积核并联，得到两个维度不同的张量，再将输出结果进行拼接（可以理解为一个卷积核关注x方向，一个卷积核关注y方向）。

4.4 详解可分离卷积（Separable convolution）

参考资料：

可分离卷积(Separable convolution)详解

深入浅出可分离卷积

可分离卷积包括：

空间可分离卷积(Spatially Separable Convolutions)
深度可分离卷积(Depthwise Separable Convolutions)

假设feature的size为[channel，height，width]，空间也就是指：[height, width]这两维度组成的，深度也就是指channel这一维度。

1.空间可分离卷积(Spatially Separable Convolutions)

具有如下特点：

乘法次数减少
计算复杂度降低
网络速度更快

空间可分离卷积就是在空间维度将标准卷积运算拆分成多个小卷积核。例如我们可以将卷积核拆分成两个（或多个）向量的外积。可分离卷积的第一个版本主要处理图像和内核的空间尺寸-高度和宽度。它将一个内核分为两个较小的内核，其中最常见的是将一个3x3内核分为一个3x1和1x3内核。因此，代替进行一次具有9个乘法的卷积，而是执行两次分别具有3个乘法两个卷积组合起来共需要6次乘法，以实现相同的效果。

一般的，空间可分离卷积就是将nxn的卷积分成1xn和nx1两步计算，普通的3x3卷积在一个5x5的feature map上的计算方式如下图，每个位置需要9次乘法，一共9个位置，整个操作要81次做乘法：

同样的状况在空间可分离卷积中的计算方式如下图，第一步先使用3x1的filter，所需计算量为：15x3=45；第二步使用1x3的filter，所需计算量为：9x3=27；总共需要72次乘法就可以得到最终结果，要小于普通卷积的81次乘法：

2.深度可分离卷积(Depthwise Separable Convolutions)

它的核心思想是将一个完整的卷积运算分解为两步进行，分别为逐深度卷积（Depthwise Convolution）与逐点卷积（Pointwise Convolution）。

2.1 常规卷积

假设输入层为一个大小为64×64像素、3通道彩色图片。经过一个包含4个Filter的卷积层，最终输出4个Feature Map，且尺寸与输入层相同。整个过程可以用下图来概括：

此时，卷积层共4个Filter，每个Filter包含了3个Kernel，每个Kernel的大小为3×3。因此卷积层的参数数量可以用如下公式来计算：N_std = 4 × 3 × 3 × 3 = 108

2.2 逐深度卷积（Depthwise Convolution）

同样是上述例子，一个大小为64×64像素、三通道彩色图片首先经过第一次卷积运算，不同之处在于此次的卷积完全是在二维平面内进行，且Filter的数量与上一层的Depth相同。所以一个三通道的图像经过运算后生成了3个Feature map，如下图所示。

其中一个Filter只包含一个大小为3×3的Kernel，卷积部分的参数个数计算如下:N_depthwise = 3 × 3 × 3 = 27

Depthwise Convolution完成后的Feature map数量与输入层的depth相同，但是这种运算对输入层的每个channel独立进行卷积运算后就结束了，没有有效的利用不同map在相同空间位置上的信息。因此需要增加另外一步操作来将这些map进行组合生成新的Feature map，即接下来的Pointwise Convolution。

2.3 逐点卷积（Pointwise Convolution）

Pointwise Convolution的运算与常规卷积运算非常相似，不同之处在于卷积核的尺寸为 1×1×M，M为上一层的depth。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合，生成新的Feature map。有几个Filter就有几个Feature map。如下图所示。

由于采用的是1×1卷积的方式，此步中卷积涉及到的参数个数可以计算为：N_pointwise = 1 × 1 × 3 × 4 = 12

2.4 参数对比

参考<<卷积参数量计算（标准卷积，分组卷积，深度可分离开）>>

（1）常规卷积：

输入尺寸为 H ∗ W ∗ C1
卷积核为 k∗k∗C1
输出特征图通道数C2
标准卷积参数量计算为k * k * c1 * c2

（2）深度可分离卷积：

Separable Convolution的参数个数是常规卷积的约1/3。因此，在参数量相同的前提下，采用Separable Convolution的神经网络层数可以做的更深。

4.5 整体网络结构

五、GoogLeNet-V3

Inception v3整体上采用了Inception v2的网络结构，并在优化算法、正则化等方面做了改进，具体如下：

优化算法使用RMSProp替代SGD。
使用Label Smoothing Regularization方法。LSR是一种通过在输出y中加入噪声，对模型进行约束，降低模型过拟合的方法。
将大尺寸卷积核替换成小尺寸卷积核。
对辅助分类器中的全连接层进行BatchNormalization。

5.1 标签平滑（Label Smoothing Regularization）

参考：深度学习中的标签平滑正则化

1. 标签平滑的作用—防止过拟合

在进行多分类时，很多时候采用one-hot标签进行计算交叉熵损失，而单纯的交叉熵损失时，只考虑到了正确标签的位置的损失，而忽略了错误标签位置的损失。这样导致模型可能会在训练集上拟合的非常好，但由于其错误标签位置的损失没有计算，导致预测的时候，预测错误的概率比较大，也就是常说的过拟合。标签平滑可以在一定程度上防止过拟合。

2. 传统的交叉熵损失计算

3. 带有标签平滑的交叉熵损失的计算

4.标签平滑的公式

5. 标签平滑与传统的交叉熵损失的比较与分析

有上面实例可以看出，带有标签平滑的损失要比传统交叉熵损失要更大。换言之，带有标签平滑的损失要想下降到传统交叉熵损失的程度，就要学习的更好，迫使模型往正确分类的方向走。

6. 标签平滑的应用场景

只要用到的是交叉熵损失（cross loss）,都可以采取标签平滑处理。

六、GoogLeNet-V4

Inception V4研究了Inception模块与残差连接的结合。ResNet结构大大地加深了网络深度，还极大地提升了训练速度，同时性能也有提升。

本文详细呈现了三种新的网络结构：

（1）Inception-ResNet-v1：混合Inception版本，它的计算效率与Inception-v3相近；
（2）Inception-ResNet-v2：更加昂贵的混合Inception版本，明显改善了识别性能；
（3）Inception-v4：没有残差连接的纯Inception变种，性能与Inception-ResNet-v2相近；

6.1 Inception-v4

6.2 Inception-ResNet-v1

6.3 Inception-ResNet-v2

七、论文复现

GoogLeNet复现（Pytorch实现）

你可能感兴趣的:(#,卷积神经网络,深度学习,计算机视觉,神经网络)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
【NLP5-RNN模型、LSTM模型和GRU模型】一蓑烟雨紫洛 nlp rnn lstm gru nlp
RNN模型、LSTM模型和GRU模型1、什么是RNN模型RNN（RecurrentNeuralNetwork)中文称为循环神经网络，它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出RNN的循环机制使模型隐层上一时间步产生的结果，能够作为当下时间步输入的一部分（当下时间步的输入除了正常的输入外还包括上一步的隐层输出）对当下时间步的输出产生影响2、R
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

【卷积神经网络系列】六、GoogLeNet（v1、v2、v3、v4、ResNetv1、ResNetv2）

目录

参考资料：

一、简介

二、Inception

三、GoogLeNet-V1

3.1 输入

3.2 第一层（卷积层）

3.3 第二层（卷积层）

3.4 第三层（Inception 3a层）

3.5 第三层（Inception 3b层）

3.6 其余层

3.7 辅助分类器

3.8 总结

四、GoogLeNet-V2

4.1 General Design Principles

4.2 详解批量归一化（Batch Normalization）

1. 前言

2. BN算法

3. BN的作用

（1）加快网络的训练和收敛的速度

（2）控制梯度爆炸防止梯度消失

（3）防止过拟合（正则化）

4. BN的缺陷

5. LN与BN

4.3 卷积分解（Factorizing Convolutions）

1.多个小尺寸卷积核叠加替换大卷积核（两个3x3代替1个5x5）

2.进一步使用小尺寸一维卷积核替代二维卷积核（1xn+nx1代替nxn）

4.4 详解可分离卷积（Separable convolution）

参考资料：

1.空间可分离卷积(Spatially Separable Convolutions)

2.深度可分离卷积(Depthwise Separable Convolutions)

2.1 常规卷积

2.2 逐深度卷积（Depthwise Convolution）

2.3 逐点卷积（Pointwise Convolution）

2.4 参数对比

4.5 整体网络结构

五、GoogLeNet-V3

5.1 标签平滑（Label Smoothing Regularization）

1. 标签平滑的作用—防止过拟合

2. 传统的交叉熵损失计算

3. 带有标签平滑的交叉熵损失的计算

4.标签平滑的公式

5. 标签平滑与传统的交叉熵损失的比较与分析

6. 标签平滑的应用场景

六、GoogLeNet-V4

6.1 Inception-v4

6.2 Inception-ResNet-v1

6.3 Inception-ResNet-v2

七、论文复现

你可能感兴趣的:(#,卷积神经网络,深度学习,计算机视觉,神经网络)