我真的爱发明

论文翻译-ImageNet Classiﬁcation with Deep Convolutional Neural Networks

[toc]

前言

AlexNet是是引领深度学习浪潮的开山之作，即使是我们现在进入了ChatGPT时代，这篇论文依然具有一定的借鉴意义。
AlexNet的作者是多伦多大学的Alex Krizhevsky等人。Alex Krizhevsky是Hinton的学生。网上流行说 Hinton、LeCun和Bengio是神经网络领域三巨头，LeCun就是LeNet5的作者(Yann LeCun)。

资源

论文原文
https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
论文的代码实现
https://github.com/songhan/Deep-Compression-AlexNet

摘要

我们训练了一个很大很深的卷积神经网络，用来将2010年ImageNet 比赛中的120万的高分辨率图像分成1000类。在测试集上，我们的top-1和top-5分别为37.5%和17.0%，这比以前的所有SOTA算法的效果都要好。所提出的这个神经网络包含5个卷积层（卷积层后面可能会放置最大池化层）和3个全连接层，全连接层后面是一个softmax层，将类别分为1000类。整个网络拥有6000万个参数以及65万个神经元。为了使网络训练更快，我们使用了非饱和神经元，以及使用高效的GPU来进行卷积操作。同时，为了降低全连接阶层处过拟合的风险，我们使用了一种近期刚提出来的正则化方法“Dropout”，实验结果表明，这种方法在防止过拟合方面是非常有效的。我们同时也用这个模型的变体参加了2012年的比赛，取得了一个非常好的成绩。在测试集上，top-5的精度为15.3%，要远远高于第二名的26.2%。

1.引言

目前的目标识别任务主要是利用机器学习的方法。为了提高这些模型的性能，我们需要收集大量的数据集学习，学习更强大的模型，以及使用更好的技巧来防止过拟合。直到最近，带标签的数据集依然是相对比较小的-只有几千或者几万张图像（例如，NORB数据集，Caltech-101/256，以及CIFAR-10/100）。如果是简单的识别任务，那么使用这种级别的带标签数据集可以非常好的完成。例如，在minist数据集上的数字识别精度（<0.3%）已经可以接近于人类的表现了。但是，现实环境中的物体以及背景变化非常大，所以想要识别出来他们需要更大的训练数据集。事实上，小型数据集的缺点已经得到了广泛的承认，但直到最近，收集数以万计的图像进行标注才成为可能。包括LabelME在内的大型数据集中，拥有数十万张全分割图像。特别是ImageNet数据集包含了1500张标注好的高分辨率图像，其中类别超过了22000类。
为了从这种百万张图像级别的数据集中学习数以千计的目标特征，我们需要一个学习能力超强的网络模型。但是，这种目标检测任务巨大的复杂性，意味着就算是ImageNet这样的大数据集也不可能包括所有的先验知识。卷积神经网络就是这样的一类模型。它们的特征提取能力可以通过改变深度和宽度进行调整。他们可以在识别图像特性方面变得非常强大和准确（也就是说，统计数据的静态性和像素依赖关系的局部性）。因此，相较于同尺寸的标准前馈神经网络，CNN拥有更少的连接数和参数量，所以他们更容易去训练，尽管他们理论上性能可能稍差。
尽管cnn拥有这样诱人的特性，尽管他们的网络结构相对高效，但要将这些技术大规模地应用到高分辨率图像的分类上，训练成本依然很高。幸运的是，当前的经过高度优化的GPU再进行2D卷积的运行上表现的非常好，这给了我们训练大型CNN网络一个非常大的便利。此外，最近出现的ImageNet这样的大型数据集，包含了足够多的目标数量供我们训练，从而可以有效地避免过拟合。
这篇论文的主要贡献包括如下：我们使用ILSVRC-2010 and ILSVRC-2012的子数据集训练了一个最大的卷积神经网络，取得了比以往算法都好的效果。我们编写了高度优化的二维卷积GPU实施方案以及其他所有训练卷积神经网络的固有操作，这些我们都进行了开源。同时我们的网络也包含了一系列不同于之前的特性，可以提升网络的性能，同时降低训练时间，这些都会被在第三部分详细说明。即使ImageNet有1200万张标注好的训练图像，但因为我们网络的尺寸比较大，所以依然存在过拟合的风险，所以我们在研究中采用了几种有效的技术来避免过拟合，这些方法会在第四部分详细说明。我们最终的网络结构包含五个卷积层和三个全连接层。在实验中，我们发现网络的深度是非常重要的：因为如果将卷积层的任何一层去掉（即使这一层包含的参数量不超过1%），也会使网络的性能大幅度的退化。
最后，网络的尺寸被当前的GPU内存所限制。我们的网络在两块3GB的 GTX 580GPU上训练了5到6天。我们的所有实验结果表明，如果将来可以使用更强大的GPU以及更大的数据集，我们的网络表现性能将会更好。

2.数据集

- ImageNet是一个超过1500万张标注好高分辨率图像的数据集。这个数据集是从互联网上搜集到的，然后由人工使用亚马逊的Mechanical Turk crowd-sourcing 工具标注。

这也是我们开展我们大多数实验的数据集。从2010年开始，作为Pascal Visual Object Challenge的一部分，ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) 一年举办一次。ILSVRC使用的是ImageNet的子数据集，包含有1000类目标，每一类目标大约有1000张图像。到目前为止，大约有1200万张训练集、5000张验证集以及15万测试集。
ILSVRC-2010 是ILSVRC唯一一场提供测试集的比赛，所以我们在这个比赛的数据集上进行了我们绝大多数的实验。因为我们同时参加了2012年的比赛，所以我们在第六部分详细的说明了我们的比赛结果（测试集效果看不到）。在ImageNet数据集上，常见的做法是查看网络的两个分类错误比率：top-1和top-5。top-5错误top-前五名错误率是指正确标签不在模型认为最有可能的五个标签之列的测试图像的比例。
我们的网络要求图像输入是一个固定的分辨率，但是ImageNet包含了多种尺度的分辨率图像。因此，我们对这些多尺寸的图像进行了下采样，将其固定到一个256乘256的分辨率下。给定一个矩形的图像，我们首先对图像进行重新缩放，使较短的一边长度为256，之后从生成的图像中裁剪出中央为256x256的图像patch块。除了从每一个像素中减去训练集的平均值之之外，我们没有对数据集做其他的任何操作了。所以可以认为我们是在原始的RGB图像上训练我们的网络。

3.网络结构

我们的网络结构如图2所示，包含了八个可学习参数的层-五个卷积层和三个全连接层。下面我们开始介绍一些新颖的或者不同寻常的网络特性。3.1-3.4是按照我们对自己工作的重要性进行了排序，也就是越靠前的越重要。

3.1 ReLU 非饱和激活函数（最重要的技巧）

对于实际网来说来说，处理输入x和输出f的一种标准做法是这f (x) = tanh(x)或者 $f(x)= (1+e^ {-x})^ {-1}$ 。考虑到梯度下降的训练时间，这种饱和非线性激活函数相比于非饱和线性激活函数训练起来是非常慢的，比如非饱和激活函数 $\\max (0,x)$ 。根据Nair 和Hinton的研究，我们更愿意把这种非线性的神经网络激活函数称之为Rectiﬁed Linear Units (ReLUs)。ReLU的训练速度非常快，在同等条件下，训练速度可以比tanh的训练速度快好几倍。具体的训练效果如图1所示，从中我们可以看到两者在相等的四层网络条件下，两者想要达到CIFAR-10数据集上的25%错误率所需要的迭代次数。这张图表明了我们如何使用传统的饱和激活函数，将无法在大型数据集上训练大型神经网络。
我们并不是第一个考虑在CNN上替换传统的激活函数的研究团队。例如，Jarrett等人宣称，在Caltech-101数据集上进行实验时，将 $\\tanh (x)|$ 放到局部平均池化层后面的分类效果和原始版本的网络效果一样好。但是，在这个数据集上首先关心的应该是防止过拟合，所以Jarrett做实验的目的以及得到的实验结果，都是关于过拟合的，而没有看到这种激活函数对于网络训练的加速效果，这一点可以在我们的报告中看到。更快的训练速度对于大模型在大数据集上进行训练具有非常深远的影响。

图1：一个使用ReLU激活函数的四层卷积神经网络（实线）在CIFAR-10数据集上达到25%的训练误差速度，要比同样的使用tanh激活函数的网络（虚线）快六倍。每一个网络的学习率都是经过人工微调过的，目的是让他们的训练速度尽可能快。两者都没有加任何类型的正则化。这里展现的效果因网络结构而异，但是使用ReLU激活函数的网络学习速度始终要比使用饱和神经元的网络快好几倍。

3.2 在多GPU上进行训练（次重要的技巧）

一个GTX580的GPU只有3GB的内存，这限制可以在它上面训练的网络的最大尺寸。这表明1200万的训练样本对于训练神经网络来说是足够的，但是对单GPU来说数据量却太大了。因此，我们把网络结构分散到2个GPU上来解决这个问题。当今的GPU已经可以很好的进行跨GPU进行数据同步了，因为他们可以直接在另一块GPU的内存上进行读和写，这个过程不需要通过宿主机的内存进行缓冲，因此可以大大加快数据的读写速度。在这个并行训练方案中，我们在每一个GPU上都放置一半的卷积核，不过有一个额外的技巧：GPU只在特定的层进行数据交互。举个例子来说，第3层接收全部来自于第2层卷积后的数据，但是，第4层的卷积核，只接受来自于本GPU上第3层的数据。选择这种连接模式，对于交叉验证来说是一个问题，但是这种方式却允许我们可以精确的调整双GPU之间的连接参数量，从而可以微调神经网络的尺寸。
这种组合的结果，有点类似于Cires¸an等人采用的柱状CNN结构，但需要注意的是，我们的两个GPU不是独立的，是有联系的（具体可以看图2）。这个方案可以降低我们的top-1和top-5的错误率，top-1降低了1.7%，top-5降低了1.2%，相比之下，在一个GPU上训练的每个卷积层的内核数量只有一个网络的一半。双GPU网络模型训练所花费的时间要比单个GPU训练所耗费时间稍微少一点。
注：这里所说的单GPU模型，实际上指的是在最终一层的卷积层中拥有和双GPU模型网络同样的参数，同样数量的卷积核。这是因为大多数的神经网络参数，都集中在了第一个全连接层中，而这些参数则主要来自于最后一个卷积层。所以为了保证两个网络拥有大致相同的参数，我们并没有将最后一层卷积层的卷积核数量减半（也没有将全连接层的数量减半）。因此，这种比较方式实际上是偏向于单GPU网络的，因为他比真的减半体积的双GPU模型来说更大。

3.3 局部响应标准化

ReLU拥有令人非常满意的能力来保证不需要网络输入标准化来防止网络性能下降。如果有一些训练样本在ReLU上产生了正向输入，那么网络就会进行学习。但是我们仍然发现local normalization的方案有助于泛化性。用 $a\_ {x,y}^ {i}$ 来表示神经网络的活动，计算方法是在位置(x,y)上应用kernel i，之后在使用ReLU 非线性激活的函数，response-normalized activity 的表达式如下所示：

其中，总和遍及同一空间位置的 n 个 "相邻 "特征图，N是这一层上的卷积核数量总和。当然了，kernel maps的顺序在训练之前是随意设置的。这种类型的response normalization可以实现实现一种横向抑制，这是受真实神经元的工作原理启发。在使用不同内核计算出来的神经元输出中，形成对大内核的竞争。k，n，α，β是超参数，对于同一个验证集来说，数值是确定的。在这里我们设置k=2，n=5，α=0.0001以及β=0.75。我们在一些层的ReLU后面使用这种normalization。（这部分工作的具体介绍看3.5）
我们的这个方案和Jarrett的local contrast normalization有点类似，但因为我们不仅仅减去了平均值，所以我们的做法应该更符合“brightness normalization”。Response normalization可以让我们的模型的top1和top5的错误率分别降低1.4%和1.2%。我们也在CIFAR-10数据集上验证了我们方案的效果：

3.4 重叠池化

神经网络中的池化层可以汇总相邻神经元组特征中的主要信息。一般情况下，相邻神经元的池化区域不会重叠。更精确的说，你可以认为池化层是由相隔s像素的网格状的区域组成的，每一个区域都可以提取出zxz的特征图。如果我们设置s=z，我们就可以得到CNN通常采用的传统局部池化方法。如果我们设置s

3.5 总的模型

现在我们开始介绍我们所设计的这个CNN网络的总体模型。正如图2所示，这个网络包含了八个有权重的网络层；前面的五个是卷积层，后面的三个是全连接层。最后的全连接层输出到一个1000-way的Softmax层，将网络的输出映射为1000类的标签。我们的网络最大化了我们逻辑回归目标，相当于最大化了预测分布下正确标签的对数概率在整个训练案例中的平均值。
如图2所示，2、4、5的卷积层只连接同一块GPU的上层网络的输出。第三层的卷积核分别连接的是两块GPU上的所有第二层的输出。全连接层处的神经元连接了所有上一层网络的神经元。Response-normalization层放在了第一和第二卷积层的后面。就像3.4所描述的那样，最大池化层和第五层卷积层一样，放在了两个Response-normalization层后面。在每一个卷积层和全连接层后面都放置了一个RELU非线性激活函数层。
第一卷积层的输入为224 x 224 x 3的图像，使用96个11x11x3的卷积核来进行卷积，步长设置为4像素。（这是kernel map中相邻神经元的感受野中心之间的距离）第二卷积层使用第一个卷积层的输出作为输入，拥有256个5x5x48的卷积核。第3、4、5卷积层，直接连接前者，中间没有任何的池化层或者激活函数层。第三层卷积层有384个3x3x256的卷积核，连接的是第二层的输出（经过normalized和池化后的输出）。第4个卷积层有384个3x3x192的卷积核，第5卷积层有256个3x3x192的卷积核。全连接层每层有4096个神经元。

图2 我们cnn网络的一个结构展示，清晰地表明了我们两块GPU的相互关系。一块GPU处理一些卷积层运算，另一款GPU处理另一些卷积层的运算。这两块GPU只在特定的层进行信息交互。网络的输入是150528维数据（224_224_3=150528）。各层网络的参数量分别为253440-186624-64896-43264-4096-4096-1000。

4.减少过拟合

我们的神经网络结构有6000万个参数。尽管使用一共有1000个类别的ILSVRC的数据集进行训练，这给一个训练样本添加了10 bits的约束。但事实证明，如果网络没有过拟合的话，这些数据集是无法分担这么多的网络参数的。下面我们将介绍应对过拟合的两种方法。

4.1 数据增强

最简单和最常用的少网络，在数据集上过拟的方法是，在保证数据集标签不改变的前提下人为地扩大数据集的数量。我们使用了两种非常明确的方法来进行数据增强，这两种方法所带来的计算资源的消耗非常小，因此我们可以直接进行训练时的在线数据转换，而非不得不把这些增强后的图像保存在本地磁盘上。在我们的方案中，我们使用Python代码在CPU上对图像进行转换，GPU则只负责使用转换好的图像进行训练。所以这种数据增强的方法是free的（相对于GPU来说，译者注）
第一种形式的数据增强是，通过平移和水平翻转来进行增强。我们从原始的256x256的图像（包括他们的水平翻转中）中随机提取224x224的图像patch块，用来训练我们的网络模型。这可以让我们的训练数据集增加2048倍。当然了，由此产生的训练样本是高度相似的。如果不采用这个做法的话，我们的网络将有可能会过拟合，从而迫使我们不得不采用更小的模型。在测试集上，网络也是对原始图像以及他们的水平翻转图像的224x224的patch进行的预测（四个角的patch和一个中心的patch），一张图像总共产生十个patch，最后在Softmax层对10个patch的得分进行平均后预测。
第二个数据增强的方法是改变训练集上RGB通道图像的强度。特别是，我们是使用PCA方法在ImageNet数据集上来改变RGB像素值的强度的。对于每一个训练图像来说，我们将找到的主成分的倍数相加，其幅度与相应的本征值乘以从平均值为零且标准差为0.1的高斯分布中提取的随机变量成比例。因此对于每一个RGB图像像素 $KaTeX parse error: Undefined control sequence: \[ at position 12: I\_ {xy} = \̲[̲I\_ {xy}^ {R},I…$ ，我们增加下面的数值
$KaTeX parse error: Undefined control sequence: \[ at position 1: \̲[̲ p\_ {1} , p\_ …$
其中， $P\_i$ 和 $λ\_i$ 分别是 RGB 像素值 3 × 3 协方差矩阵的第 i 个特征向量和特征值，αi 是上述随机变量。每个 αi 只对特定训练图像的所有像素绘制一次，直到该图像再次用于训练时才重新绘制。这一方案近似地捕捉到了自然图像的一个重要特性，即物体特征不受光照强度和颜色变化的影响。该方案可将 TOP-1 错误率降低 1%以上。（这一段不好翻译，所以用的机翻）

4.2 Dropout

融合多个不同模型的预测结果，是减少测试误差的一种非常成功的策略，但是这种方法对于动不动需要训练好几天的大型神经网络来说，太昂贵了。在训练的时候，有一种非常有效的方法来融合两个模型，时间上只需要花两倍的成本。这便是最近刚被提出来称之为dropout的技术，可以以50%的概率随机的将硬含层中的神经元输出设置为零。被丢弃的神经元在这条通路中不传递对应的输出到下一层，也不参与反向传播。所以每一次当输入被给出后，神经网络都采用了一个不同的结构，但是所有的结构都共享了一套权重参数。这种技术降低了神经网络的共适应复杂性，因为一个省域经济不可以依赖于其他特定存在的神经元来进行判断。因此，这强迫网络去学习一些更强大、更通用的特征。这些特征在于其他神经元的不同，随机自己组合使用是非常有用。在测试的时候，我们使用所有的神经元，但是对他们的输出做一个乘0.5的操作，与训练的时候大致相对应。相当于取指数级多剔除网络产生的预测分布的几何平均数。。
如图2所示，我们在前两个全连接层中使用dropoutt的策略。如果没有rapt我们的网络表现出轻微的过拟合。加入dropout之后，网络收敛的速度变慢，大约需要之前两倍的迭代次数。

5 学习的细节

我们训练网络时使用随机梯度下降SGD的策略，Batch Size设置为128，momentum动量为0.9，权重衰减为0.0005。我们发现这种非常小的weight decay对于网络模型学习特征来说是非常重要的。换句话说，这里的weight decay不仅仅是一个正则项：它还可以降低网络模型的训练误差。weight w的更新规则是：
$KaTeX parse error: Expected 'EOF', got '&' at position 33: …v \_ { i + 1 } &̲ : = 0.9 \\cdot…$
i是迭代次数，v是momentum变量，ε是网络的学习率， $left\\langle \\left. \\frac { \\partial L } { \\partial w } \\right| \_ { w \_ { i } } \\right\\rangle \_ { D \_ { i } }$ 是第i个batch $D \_ { i }$ 在 $w \_ { i }$ 处求得的目标关于w的梯度的平均值，
我们使用标准的方差为0.01的零均值高斯分布来对每一层网络的权值进行初始化。我们对第2、4、5的卷积层和全连接层中的隐含层的偏置项进行全1处理。这种初始化方法通过给ReLU提供正向输入加速了训练早期阶段的收敛。我们在剩下的网络层的神经元偏置中设置为全0。
我们对所有的网络层使用同一个学习率，这个学习率是我们在整个训练过程中手动调节的。我们调整学习率的原则是：如果验证集上的误差在一段时间内没有继续减小的话，我们就把当前的学习率除以10。学习率初始为0.01，当训练结束时，学习率减少了三次，也就是调整为了0.00001。我们在3GB的英伟达GTX580上面训练1200万张图像的数据集90个epoch，这花费了我们5到6天的时间。

6.Results

我们在ILSVRC-2010的训练和测试结果展示在了表格1中。我们网络的top-1和top-5测试误差分别为37.5%和17.0%。ILSVRC- 2010上面取得的最好结果是47.1%和28.2%。当时使用的方法是，对基于不同特征训练的六个稀疏编码模型的预测结果求平均值的方法。此后，通过对根据两种密集采样特征计算的费雪向量 (FV) 训练的两个分类器的预测结果进行平均计算而获得的最佳成绩是 45.7% 和 25.7%[24]。
我们同时使用我们的模型参加了ILSVRC-2012比赛，表2是我们的比赛结果。因为ILSVRC-2012的测试集标签没有给出，所以我们无法评估我们的模型在测试集上的误差。根据我们的实验发现、验证集和测试集的精度相差非常小，不超过0.1%。因此在本段的其他部分，我们交替使用验证和测试误差比率。
本研究所提出的CNN模型取得了18.2%的top-5误差率。对五个相似的CNN模型进行误差平均，top-5的误差率是16.4%。在ImageNet Fall 2011数据集上（1500万张图像，22000个类别）训练一个在卷积层的后面外加一个池化层的CNN模型，之后微调它在ILSVRC-2012上面进行训练，所取得的top-5误差率是16.6%。对两个使用entire Fall 2011预训练权重的CNN模型分类结果进行平均，top-5的误差率是15.3%。第二名的测试结果误差率为 26.2%，采用的方法是将多个分类器的预测结果平均化，这些分类器是根据不同类型的密集采样特征计算出的 FV 进行训练的。

6.1 定性评价

图3展示了网络的两个数据连接层学习到的卷积核。网络学到了各种频率和方向选择性的卷积核，以及各种彩色斑点。这里需要注意的是，我们专门展示了两块GPU上卷积核学习到特征的差别。GPU1在很大程度上与颜色无关，而GPU2学到的特征则与颜色有关。这种非常特殊的区别，在每次运行时都会发现，与任何特定的随机权重初始化方式都无关（GPU重新编号为）

图3 96个11x11x3的卷积核在224x224x3的输入图像中渠道的特征。上面的48个核是在GPU上训练调整的，下面的48个核是在GPU2上训练调整的。这部分的细节可以看论文的6.1部分。

图4：（左侧）8张ILSVRC-2010测试集图像以及5个我们模型预测出来的最可能标签。真正的标签被写在了每张图片的下方，正确标签的识别概率也被用红色条展示出来（如果正确标签刚好是在前5个最高概率中的话）（右侧）5个ILSVRC-2010测试集图像放在了第一列，剩下的列显示了6个网络认为最相关的训练集图像，这些图像在最后一个隐藏层中产生的特征向量与测试图像特征向量的欧氏距离最小。
在图4的左侧，我们通过计算网络的top-5对测试集图像进行预测，定性对网络模型的效果进行评价。需要注意的是，即使目标远离中心，比如左上角的虫子，也同样可以被网络识别到。大多数的top-5标签似乎都是合理的。例如，只有其他类型的猫科动物才被认为是豹的可信标签。在某些情况下（格栅、樱桃），照片的预期焦点确实模糊不清。
另一种证明网络效果的可视化方法是考虑网络的最后一层卷积层输出的4096维向量。如果两张图片所产生的特征图激活向量欧式距离比较小，我们就认为这两张图像在神经网络的高维空间中是相似的。图4显示出了从测试集中挑选出的5张图片，和他们分别对应的6张从训练集中挑选出的最相似的图像。注意看在像素层面上，检索到的训练集图像，在L2范数计算规则下并不是与第一列的测试集图像距离最近的。例如检索到的狗和大象，会以各种姿势出现。我们在论文的补充材料中展现了更多类似的检索结果。
使用欧式距离计算2个4096维向量的相似性是不高效的，但可以使用一个训练到的自动编码器，将这些向量压缩为简短的二进制代码来高效检索。对于图像检索来说，相较于直接使用自动编码器，对原始的像素图像进行编码，这种对向量的编码方式效果更好。因为直接对原始图像进行编码，并没有使用图像标签，因此倾向于检索具有相似边缘模式的图像，无论它们在语义上是否相似。

7 讨论

我们的实验结果表明了一个大的深的卷积神经网络是可以在一个较高难度挑战的数据集上使用纯监督学习取得突破的。如果我们的神经网络被拿掉了任何一层，网络的性能会下降很多。例如，如果拿掉中间的任何一层，top-1的准确性将会下降2%。所以深度对于卷积神经网络取得好的效果来说是非常重要的。
为了简化我们的实验，尤其是当我们获得足够的计算能力，可以在不相应增加标注数据量的情况下显著扩大网络规模时，我们没有使用任何的无监督预训练方法（即使我们认为这些方法是有帮助的）。到目前为止，
但我们将网络模型变得更大，然后训练时间更长后，我们的网络已经提升了很多。但是如果想要和人类的视觉系统相提并论的话，我们还有许多数量的工作要做。最后，我们将会使用非常大和非常深的卷击神鹰网逻辑去处理视频任务，在视频上时间结构提供了非常有用的信息，而这些信息在静态图像中是缺失的或者不那么明显的。

博主最后说明

翻译这篇文章主要是用来帮助自己进行自我对照，以及锻炼自己的英文阅读能力的。自己不是英语专业的，中间肯定有很多翻译的不够准确，读起来不够通顺的地方，还请大家不啬指出，我会在这篇文章以及下一篇系列的翻译文章中进行改正。（但不接受那些不说明具体问题所在就无脑褒贬的不负责说法）

神经网络之CNN文本识别邪恶的贝利亚神经网络 cnn 人工智能
1.参考我的第一篇文章了解CNN概念神经网络之CNN图像识别(torchapi调用)-CSDN博客2.框架目前对NLP的研究分析应用最多的就是RNN系列的框架，比如RNN,GRU,LSTM等等，再加上Attention，基本可以认为是NLP的标配套餐了。但是在文本分类问题上，相比于RNN，CNN的构建和训练更为简单和快速，并且效果也不差，所以仍然会有一些研究。那么，CNN到底是怎么应用到NLP上的
Word2Vec的使用，一些思考，含示例——包括使用预训练Word2Vec模型和自训练Word2Vec模型热爱生活的猴子 NLP_自然语言处理 word2vec 人工智能自然语言处理
词嵌入模型（WordEmbeddings）——Word2Vec简介：Word2Vec是由Google团队提出的一种词嵌入方法，通过神经网络模型将词语映射到一个低维的连续向量空间中。你可以直接通过它训练生成词向量，也就是一个新的Word2Vec，也可以使用预训练好的词向量，也就是那里直接用。它有两种模型结构：CBOW（ContinuousBagofWords）和Skip-Gram。CBOW（连续词袋
DynamicSparse-MobileNet (DSMNet) 用于低功耗图像分类闲人编程人工智能实战教程—论文创新点分类人工智能数据挖掘 DSMNet 动态稀疏熵感知自适应
目录DynamicSparse-MobileNet(DSMNet)用于低功耗图像分类一、模型背景与动机二、模型创新点详细解析1.动态稀疏计算路径2.自适应通道缩放3.熵感知知识蒸馏三、数据集与预处理四、网络结构详解1.输入层与熵估计模块2.动态稀疏卷积块3.熵感知分类头五、模型优化策略1.优化器设计——Prodigy优化器2.动态计算损失3.损失函数设计4.正则化技术5.防止过拟合六、网络结构图与
DiNN学习笔记1-理论部分瓜皮37 同态加密密码学信息安全神经网络
DiNN学习笔记1-理论部分背景知识机器学习即服务MLaaS中的全同态加密神经网络Fhe-DiNN中的默认设定Fhe-DiNN方案神经元中的计算离散神经网络DiNN评估步骤自举的引入激活函数的同态评估对TFHE的改进明文的打包密钥转换的前置动态变化的消息空间优化盲旋步骤DiNN方案的整体流程参考资料背景知识机器学习即服务机器学习即服务(MachineLearningasaService,MLaaS
AI大模型知识图谱和学习路线！ hhaiming_ 人工智能知识图谱学习
23年AI大模型技术狂飙一年后，24年AI大模型的应用已经在爆发，因此掌握好AI大模型的应用开发技术就变成如此重要，那么如何才能更好地掌握呢？一份AI大模型详细的知识图谱和学习路线就变得非常重要！一、大模型全套的学习路线学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳
【深度学习·命运-27】NAS四部曲end-NASNet 华东算法王深度学习·命运深度学习人工智能
NASNet（NeuralArchitectureSearchNetwork）是由GoogleBrain团队提出的另一种神经架构搜索（NAS）方法，它通过自动化搜索神经网络的结构，找到了具有竞争力的神经网络架构，尤其在计算机视觉任务（如图像分类）中表现非常优秀。NASNet是基于进化算法的架构搜索方法，与其他NAS方法相比，它具有更高的效率，并且能够生成更加优化的网络架构。1.NASNet的背景与
【数学建模】基于matlab模拟无人车泊车问题仿真 matlab科研助手数学建模 matlab 开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍无人驾驶汽车技术近年来取得了飞速发展，其中自动泊车功能是关键技术之一。本文将重点讨论无
图像分类项目 2.28 不要不开心了人工智能机器学习数据挖掘 python 深度学习
今天的内容是图像分类项目一.图像分类将不同的图像，划分到不同的类别标签，实现最小的分类误差。图像分类的三层境界1.通用的多类别图像分类2.子类细粒度图像分类3.实例级图片分类二.图像分类评估指标TP（Truepositive，真正例）：将正类预测为正类数。FP（Falsepositive，假正例）：将反类预测为正类数。TN（Truenegative，真反例）：将反类预测为反类数。FN（Falsen
数学建模：MATLAB极限学习机解决回归问题 DesolateGIS 数学建模数学建模 matlab 开发语言
一、简述极限学习机是一种用于训练单隐层前馈神经网络的算法，由输入层、隐藏层、输出层组成。基本原理：输入层接受传入的样本数据。在训练过程中随机生成从输入层到隐藏层的所有连接权重以及每个隐藏层神经元的偏置值，这些参数在整个训练过程中不会被修改。前向传播：输入数据通过已设定的权重和偏置传递给隐藏层，经过激活函数处理后产生隐藏层的输出。在得到隐藏层输出后，需找到从隐藏层到输出层的最佳权重。隐藏层到输出层的
神经进化算法(Neuroevolution) 原理与代码实例讲解 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
神经进化算法,Neuroevolution,进化算法,深度学习,机器学习,遗传算法,神经网络,代码实例1.背景介绍在机器学习领域，神经网络凭借其强大的学习能力和泛化能力，在图像识别、自然语言处理、语音识别等领域取得了显著的成就。然而，传统的神经网络训练方法通常依赖于人工设计的网络结构和参数初始化，这往往需要大量的经验和试错，并且难以找到最优的网络结构和参数。神经进化算法(Neuroevolutio
神经架构搜索原理与代码实例讲解 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
神经架构搜索：原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习的快速发展，神经网络在各个领域取得了显著的成果。然而，设计一个高效、通用的神经网络架构仍然是一个具有挑战性的问题。手动设计网络架构需要大量的专业知识和经验，而且往往效率低下。因此，神经架构搜索（NeuralArchitectureS
NLP自然语言处理：文本表示总结 - 上篇word embedding（基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）陈宸-研究僧 NLP自然语言处理
文本表示分类（基于表示方法）离散表示one-hot表示词袋模型与TF-ID分布式表示基于矩阵的表示方法降维的方法聚类的方法基于神经网络的表示方法NNLMCBOWSkip-gramGloVeELMoGPTBERT目录一、文本离散表示1.1文本离散表示：one-hot1.2文本离散表示：词袋模型与TF-IDF1.2.1词袋模型（bagofwords）1.2.2对词袋模型的改进：TF-IDF二、文本分布
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究（Matlab代码实现）然哥爱编程深度学习 cnn lstm
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码实现1概述摘要：深度学习模型的超参数选择对模型的性能和泛化能力具有重要影响。本文提出了一种基于鲸鱼算法（WOA）优化长短期记忆神经网络（LSTM）模型的超参数选择方法。首先，我们介绍了LSTM模型的结构和训练过程。然后，我们
反向传播（Backpropagation）直觉理解忍者算法算法机器学习人工智能深度学习
反向传播（Backpropagation）直觉理解1.为什么要有反向传播？想象你在练习投篮，目标是让篮球进框。但你一开始投的方向可能偏左、偏右，或者力道过大、过小。每次投篮后，你会观察球偏离篮筐的情况，并调整投篮方式，让下次投得更准。神经网络的学习过程就像练习投篮：投篮→神经网络做出预测观察偏差（进没进）→计算误差调整投篮方式→调整神经网络的参数但问题是：你怎么知道该往哪个方向调整？你怎么知道该调
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi
卷积神经网络（Convolutional Neural Network，CNN）详细解释（带示例）浪九天人工智能理论人工智能神经网络深度学习机器学习
目录卷积神经网络示例Python案例代码解释卷积神经网络概述：卷积神经网络是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型。它通过卷积层、池化层和全连接层等组件，自动提取数据的特征，大大减少了模型的参数数量，降低计算量，同时提高了模型的泛化能力。主要组件卷积层：是CNN的核心组件，由多个卷积核组成。卷积核在数据上滑动，通过卷积操作提取数据的局部特征。卷积操作是将卷积核与数据的局
matlab连接散射点,使用小波散射做信号分类死月絲卡蕾特 matlab连接散射点
在时间序列信号的深度学习第二部分，我们将介绍一下怎样使用小波散射做信号分类。本视频将分为两部分。第一部分中我们已经简单介绍一下深度学习，包括它的概念和工作流程等。并且我们演示了如何用时频变换，和基于卷积神经网络的迁移学习来做心电图信号的分类。第二部分中我们将首先介绍什么是小波散射，之后将聚焦在怎样使用小波散射技术也就是不变散射卷积网络做自动特征提取，和使用长短期记忆网络也就是LSTM(LongSh
周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
2W8000字 LLM架构文章阅读指北人工智能
大模型架构专栏已经更新了30多篇文章。完整的专栏内容欢迎订阅：LLM架构专栏1、LLM大模型架构专栏||从NLP基础谈起2、LLM大模型架构专栏||自然语言处理（NLP）之建模3、LLM大模型架构之词嵌入（Part1）3、LLM大模型架构之词嵌入（Part2）3、LLM大模型架构之词嵌入（Part3）4、LLM架构从基础到精通之Word2Vec训练全解析5、LLM架构从基础到精通之循环神经网络（R
Matlab 大量接单 matlabgoodboy matlab 开发语言
分享一个matlab接私活、兼职的平台1、技术方向满足任一即可2、技术要求3、最后技术方向满足即可MATLAB：熟练掌握MATLAB编程语言，能够使用MATLAB进行数据处理、机器学习和深度学习等相关工作。机器学习、深度学习、强化学习、仿真、复现、算法、神经网络、建模、图像识别、数据挖掘、数据获取、爬虫、数据分析、目标检测、算法创新、因子分析、相关分析、方差分析、判别分析、方程分析、线性回归、中介
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN解析大模型_学习路线深度学习 cnn transformer 人工智能 AI大模型大模型 LLM
今天探讨它们各自适用的场景，让您知道在何种情况下选择何种模型；同时分析它们的优势与局限，助您全面评估这些模型的性能。一、卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分
3.4.4- 先颜色后形状的方式 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数字识好家伙VCC stm32 神经网络嵌入式硬件单片机硬件工程 51单片机嵌入式实时数据库
非常详细的视频和文字教程，讲解常见的openmv教程包括巡线、物体识别、圆环识别、阈值自动获取等。非常适合学习openmv、K210、K230等项目视频合集链接在:openmv教程合集openmv入门到项目开发openmv和STM32通信openmv和opencv区别openmv巡线openmv数字识别教程LCD3.4.4-先颜色后形状的方式可以再试试先颜色后形状的识别方式。importsenso
3.4.5-识别形状+颜色+增加最小变化阈值 STM32串口通信 openmv+STM32串口通信 openmv串口通信openmv识别物体 openmv神经网络训练 openmv数字识好家伙VCC stm32 神经网络嵌入式硬件硬件工程单片机机器学习人工智能
非常详细的视频和文字教程，讲解常见的openmv教程包括巡线、物体识别、圆环识别、阈值自动获取等。非常适合学习openmv、K210、K230等项目视频合集链接在:openmv教程合集openmv入门到项目开发openmv和STM32通信openmv和opencv区别openmv巡线openmv数字识别教程LCD3.4.5-识别形状+颜色+增加最小变化阈值在形状+颜色的识别效果中，发现小球是不动，
深度学习框架之主流学习框架 uu1224 深度学习学习人工智能机器学习神经网络
深度学习框架是一类专门设计用来简化和加速神经网络模型开发过程的软件工具。它们提供了构建、训练和部署神经网络所需的各种功能和库。以下是一些主流的深度学习框架及其特点：TensorFlow：由Google开发，是一个广泛使用的开源深度学习框架。它以强大的图计算模型和分布式计算能力著称，并且通过高级API如Keras，为用户提供了易于上手的开发体验。PyTorch：由Facebook开发，以其动态计算图
2.28 图像分类全解析：从境界到评估，再到模型与样本处理不要天天开心机器学习算法人工智能
图像分类将不同的图像，划分到不同的类别标签，实现最小的分类误差。图像分类的三层境界：通用的多类别图像分类子类细粒度图像分类实例级图片分类图像分类评估指标之混淆矩阵：TP（Truepositive,真正例）——将正类预测为正类数。FP（Falsepostive,假正例）——将反类预测为正类数。TN（Truenegative,真反例）——将反类预测为反类数。FN（Falsenegative,假反例）—
指数移动平均（EMA）策略 Sherry Wangs 深度学习深度学习 python 机器学习
文章目录概述具体步骤代码实现概述指数移动平均（EMA）是一种加权移动平均的方法，它给予近期数据更高的权重，同时也考虑到了历史数据的影响。在神经网络领域，EMA常被用于对模型参数进行平滑处理，使得网络模型在训练过程中能够更加稳定且泛化能力可能得到提升。具体步骤假设我们有一个神经网络模型，其参数为θ\thetaθ（例如权重矩阵和偏置向量等），我们要使用EMA策略来更新这些参数。初始化EMA参数：设θe
Pytorch神经网络魔改之：模型融合 - 速通（1） lczdyx pytorch 神经网络深度学习 python 人工智能
本文将以几种常见方法为例，介绍如何进行Pytorch神经网络的模型融合：1.子模型串联(SequentialConcatenation)在这个方法中，输入数据x首先通过FeatureExtractor(即：子模型1)，处理后的结果再传递给Classifier(即：子模型2)。最后，返回Classifier的输出。这种方式允许将两个子模型串联起来，形成一个组合模型：importtorch.nnasn
python代码实现支持神经网络对鸢尾花分类邀_灼灼其华机器学习及概率统计 python 神经网络分类 sklearn
1、导入支持向量机模型，划分数据集fromsklearnimportdatasetsfromsklearnimportsvmiris=datasets.load_iris()iris_x=iris.datairis_y=iris.targetindices=np.random.permutation(len(iris_x))iris_x_train=iris_x[indices[:-10]]iri
构建神经网络之sklearn（完善）邪恶的贝利亚神经网络 sklearn 机器学习
1.数据预处理1.缺失值importpandasaspd#假设我们有一个DataFramedfprint(df.isnull().sum())#查看每一列缺失值的数量数值型数据：fromsklearn.imputeimportSimpleImputer#对于数值型数据，使用均值填充imputer=SimpleImputer(strategy='mean')#可选：'mean','median','
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

论文翻译-ImageNet Classiﬁcation with Deep Convolutional Neural Networks

前言

摘要

1.引言

2.数据集

3.网络结构

3.1 ReLU 非饱和激活函数（最重要的技巧）

3.2 在多GPU上进行训练（次重要的技巧）

3.3 局部响应标准化

3.4 重叠池化

3.5 总的模型

4.减少过拟合

4.1 数据增强

4.2 Dropout

5 学习的细节

6.Results

6.1 定性评价

7 讨论

博主最后说明

你可能感兴趣的:(AlexNet,CNN,神经网络,图像分类)