Kaleidoscope-

Squeeze-and-Excitation Networks -翻译

Squeeze-and-Excitation Networks

翻译前言：由于英语阅读水平不佳以及术语掌握不完全，部分描述性语言为机翻然后修改得到，同时部分地方加了博主自己的注释~~（注释会删除线表明）~~，翻译的不好见谅，本文仅供参考。

摘要—卷积神经网络（CNN）的核心模块是卷积块，它使网络能够融合每层局部感受野内的空间和通道信息构建信息特征。大量的先前研究已经研究了这种关系的空间结构，试图通过在整个特征层次上提高空间编码的质量来增强CNN的表示能力。在这项工作中，我们将重点放在通道关系上，并提出一个新颖的体系结构单元，我们称之为“挤压和激励”（SE）块，该模块通过显式建模通道之间的相互依赖性来自适应地重新校准通道方式的特征响应。我们展示了模块堆叠在一起以形成的SENet架构，该架构可以非常有效地概括不同数据集。我们进一步证明，SE块用略微的额外计算成本为现有的最新CNN带来了性能上的显着改善。

挤压和激励网络构成了我们ILSVRC 2017类别提交的基础，该类别获得了第一名，并将前5名的错误减少到2.251％，相对于2016年的获胜作品有了约25％的相对改善。有关模型和代码，请访问https://github.com/hujie-frank/SENet。

索引词—压缩和激励，图像表示，注意力，卷积神经网络。

1简介

进化神经网络（CNN）已被证明是解决各种视觉任务的有用模型[1]，[2]，[3]，[4]。在网络的每个卷积层，一组过滤器沿输入通道表达邻域空间连通性模式-在本地接收域内将空间和通道信息融合在一起。通过将一系列卷积层与非线性激活函数和下采样运算符进行交织，CNN可以生成捕获分层模式并获得全局理论接收场的图像表示。计算机视觉研究的中心主题是寻找更强大的表示形式，这些表示形式仅捕获对给定任务最重要的图像属性，从而提高性能。

作为用于视觉任务的广泛使用的模型系列，新的神经网络体系结构设计的开发现在代表了此搜索的关键领域。最近的研究表明，可以通过将学习机制集成到网络中来增强CNN产生的表示，以帮助捕获要素之间的空间相关性。一种这样的方法，由Inception系列体系结构[5]，[6]推广，将多尺度过程合并到网络模块中以实现更高的性能。进一步的工作试图更好地对空间依赖性进行建模[7]，[8]，并将空间注意力纳入网络的结构[9]。

在本文中，我们研究了网络设计的另一个通道之间的关系。我们引入了一个新的体系结构单元，我们称之为“挤压和激发”（SE）块，其目的是通过显式修改其卷积特征的通道之间的相互依赖性来提高网络产生的表示的质量。为此，我们提出了一种机制，该机制允许网络执行特征重新校准，通过该机制，它可以学习使用全局信息来选择性地强调信息特征并抑制不太有用的特征。

SE构造块的结构如图1所示。对于任何给定的变换Ftr，将输入X映射到特征图U，其中U∈R（H×W×C），例如一个卷积，我们可以构造一个相应的SE块来执行特征重新校准。首先将特征U传递给挤压操作，该操作通过在其空间维度（H×W）上聚合特征图来生成通道描述符。该描述符的功能是产生对信道方式特征响应的全局分布的嵌入，从而允许来自网络全局接收域的信息被其所有层使用。聚合之后是激励操作，该激励操作采用简单的自选通机制的形式，该机制将嵌入作为输入并产生每通道调制权重的集合。将这些权重应用于特征图U，以生成SE块的输出，可以将其直接馈送到网络的后续层中。

这个结构可以通过简单地堆叠SE块的集合来构建SE网络（SENet）。而且，这些SE块还可以在网络体系结构的一定深度范围内用作原始块的替代品（第6.4节）。【一个SE block，Ftr是一个转换操作，并且 $F_{tr}:X\rightarrow U,X\in \mathbb{R^{{W{}\times 'H{}\times 'C{}'}}}, U\in \mathbb{R^{{W{}\times 'H{}\times 'C{}'}}}$ （定义输入输出），具体U，X的值见下文】

虽然构建模块的模板是通用的，但它在不同深度执行的角色在整个网络中都不同。在较早的层中，它以类不可知的方式激发信息功能，从而增强了共享的低级表示。在随后的层中，SE块变得越来越专业化，并以高度特定于类的方式响应不同的输入（第7.2节）。结果，可以通过网络累积SE块执行的功能重新校准的好处。

新的CNN架构的设计和开发是一项艰巨的工程任务，通常需要选择许多新的超参数和层配置。相比之下，SE块的结构很简单，可以通过用SE对应部件替换组件来直接在现有的最新体系结构中使用，从而可以有效地提高性能。 SE块在计算上也很轻巧，并且在模型复杂性和计算负担上仅增加了一点点。

为了提供这些主张的证据，我们开发了多个SENet，并对ImageNet数据集进行了广泛的评估[10]。我们还提供了ImageNet以外的结果，这些结果表明我们的方法的好处并不局限于特定的数据集或任务。通过使用SENets，我们在ILSVRC 2017分类竞赛中排名第一。我们最好的模型集合在测试set1上达到2.251％的top-5误差。与上一年的获奖者相比，这意味着大约25％的相对改善（前5名错误为2.991％）。

2相关工作

更深层次的体系结构。VGGNets [11]和Inception模型[5]表明，增加网络深度可以显着提高其能够学习的表示质量。通过调节输入到每一层的分布，批量归一化（BN）[6]为深度网络中的学习过程增加了稳定性，并产生了更平滑的优化表面[12]。在这些工作的基础上，ResNets证明了通过使用基于身份的跳过连接来学习更深入，更强大的网络是可能的[13]，[14]。

Highway networks [15]引入了一种门控机制来调节沿捷径连接的信息流。

在完成这些工作之后，网络层之间的连接有了进一步的重新设计[16]，[17]，这表明对深层网络的学习和表示特性有希望的改进。

替代的但密切相关的研究领域集中在改善网络中包含的计算元素的功能形式的方法上。事实证明，分组卷积是增加学习变换基数的流行方法[18]，[19]。可以使用多分支卷积[5]，[6]，[20]，[21]来实现运算符更灵活的组合，这可以看作是分组运算符的自然扩展。在先前的工作中，跨通道相关性通常被映射为特征的新组合，从而独立于空间结构[22]，[23]或通过使用具有1×1卷积的标准卷积滤波器[24]进行联合。这项研究大部分集中在降低模型和计算复杂度的目标上，反映了一个假设，即可以将通道关系表示为具有局部接受域的实例不可知功能的组合。相比之下，我们声称，为该单元提供一种机制，以使用全局信息显式建模通道之间的动态，非线性依存关系，可以简化学习过程，并显着增强网络的表示能力。

算法架构搜索。 除上述工作外，还有丰富的研究历史，旨在放弃手动体系结构设计，而是寻求自动学习网络的结构。这个领域的许多早期工作是在神经进化社区中进行的，该社区建立了使用进化方法搜索网络拓扑的方法[25]，[26]。进化搜索虽然经常需要计算，但取得了显著成功，其中包括为序列模型[27]，[28]找到良好的存储单元，以及为大规模图像分类学习复杂的体系结构[29]，[30]，[31] 。为了减轻这些方法的计算负担，基于拉马克继承[32]和可微体系结构搜索[33]提出了该方法的有效替代方案。

通过将架构搜索表述为超参数优化，可以使用随机搜索[34]和其他基于模型的更复杂的优化技术[35]，[36]解决该问题。拓扑选择作为通过可能的设计的架构的路径[37]和直接架构预测[38] [39]已被提议为其他可行的架构搜索工具。通过强化学习[40]，[41]，[42]，[43]，[44]的技术已经获得了特别强劲的结果。 SE块可以用作这些搜索算法的原子构建块，并在并行工作中被证明在此功能上非常有效[45]。

注意和门控机制。可以将注意力理解为将可用的计算资源的分配偏向信号的最有用的组件的一种方法。注意机制已经证明了它们在许多任务中的效用，包括序列学习，图像中的定位和理解，图像标题，和唇读。在这些应用中，它可以作为操作员并入一个或多个层，这些层代表用于模态之间适应的高层抽象。一些工作对空间和渠道注意力的组合使用提供了有趣的研究[58]，[59]。 Wang等[58]引入了一个强大的基于沙漏（hourglass）模块[8]的躯干和面具注意机制，该机制插入深层残差网络的中间阶段之间。相比之下，我们提出的SE块包括一个轻量级选通机制，该机制着重于通过以计算有效的方式对各个通道之间的关系进行建模来增强网络的表示能力。

3挤压和激励块

挤压和激励块是可以基于将输入X∈R（H‘×W’×C）映射到特征图U∈ $R^{H\times W}$ 的变换Ftr上构建的计算单元。在下面的符号中，我们将Ftr用作卷积，并使用V = [v1，v2，… ，vc]表示第c个卷积核，其中xc表示第c个输入。然后，我们可以将输出写为U = [u1，u2，… ，uc]~~（U：tensor uc：大小为H*W的feature map）~~，其中

$u_{c}=v_{c}*X=\sum_{s=1}^{C{}'}v_{C}^{S}*x^{8}$ (1)

此处，∗表示卷积， $v_{c}= [ v^{_{c}^{1}} ,v^{_{c}^{2}},....,v^{_{c}^{C{}'}}]$ ，X = [x 1，x 2，…，x C’]和uc∈ $R^{H\times W}$ 。 $V^{_{C}^{S}}$ 是一个二维卷积核，代表作用在X对应通道上Vc的单个通道。为简化表示法，省略了bais。由于输出是通过所有通道的求和产生的，因此通道相关性隐式嵌入vc中，但与滤波器捕获的局部空间相关性纠缠在一起。通过卷积建模的通道关系固有地是隐式的和局部的（最顶层的通道除外）。我们期望通过显式改变通道的相互依赖性来增强卷积特征的学习，以便网络能够提高其对信息特征的敏感性，这些特征可以被后续的转换所利用。因此，我们希望向其提供全局信息的访问权，并在压缩和激励分两步将其反馈到下一个转换之前，以两个步骤重新校准滤波器的响应。图1示出了说明SE块的结构的图。

3.1压缩：全局信息嵌入

为了解决利用通道依赖性的问题，我们首先在输出功能中考虑到每个通道的信号。每个学习到的滤波器都使用局部接收场进行操作，因此，转换输出U的每个单元都无法利用该区域之外的上下文信息。

为了减轻这个问题，我们建议将全局空间信息压缩到一个通道中。使用全局平均池化生成按通道统计信息来实现的。形式上，统计量z∈Rc是通过将U缩小其空间尺寸H×W来生成的，因此z的第c个元素可通过以下公式计算： $z_{c}=F_{sq}(u_{c})= 1/(H\times W)\sum_{i=1}^{H}\sum_{j=1}^{W}u_{c}(i,j)$ （2） ~~（Squeeze操作得到z）~~

讨论。 变换U的输出可以解释为局部描述符的集合，这些描述符的统计量表示整个图像。在现有的特征工程工作中[60]，[61]，[62]普遍使用这种信息。我们选择最简单的聚合技术，即全局平均池化，并注意到这里也可以采用更多复杂的策略。

3.2激励：自适应重新校准

为了利用压缩操作中汇总的信息，我们紧随其后的是第二个操作，该操作旨在完全捕获通道方式的依存关系。为了实现这一目标，该功能必须满足两个条件：首先，它必须具有灵活性（特别是，它必须能够学习通道之间的非线性相互作用）；其次，它必须学习一个非互斥的关系，因为我们将确保允许强调多个渠道（而不是强制执行一次热激活）。为了满足这些条件，我们采用具有S型激活的简单门控机制：~~【W1乘以z：一个全连接层操作，s为U中C个feature map的权重】~~

$s=F_{ex}(z,W)=\sigma (g(z,W))=\sigma( W_{2}\delta (W_{1}z))$ (3)

其中δ表示ReLU [63]函数， $W_{1}\in \mathbb{R^{\frac{C}{r} \times C}}$ 和 $W_{2}\in \mathbb{R^{ C\times \frac{C}{r}}}$ ~~(不知道为什么除号下面那个r显示不出来)~~。为了限制模型的复杂性和辅助概括，我们通过在非线性周围形成两个完全相连的（FC）层形成瓶颈层，即降压比为r的降维层~~【用来减少channel个数】~~，来对门控机制进行参数化（此参数选择将在6.1章节中讨论），然后是ReLU，然后是返回到转换输出U的通道维的维数增加层。通过sigmoid函数重新缩放U，可以得到块的最终输出：~~【对tensor U进行操作：uc二维矩阵，sc为权重，uc矩阵中每个值乘sc】~~

$\widetilde{x_{c}} = F_{scale}(u_{c},s_{c})= s_{c}u_{c}$ (4)

其中表示标量Sc与特征图Uc∈R（H×W）之间的通道方向乘法。

讨论。 激励运算符将输入的特定描述符z映射到一组信道权重。在这方面，SE块从本质上引入了取决于输入的动态特性，可以将其视为通道上的自关注函数，这些通道的关系不限于卷积滤波器响应的局部接收场。

图2.原始Inception模块（左）和SE Inception模块（右）的模式。

图3.原始残差模块（左）和SE ResNet模块（右）的架构。（~~ResNet中添加SE block）~~

~~【注：图2中Inception部分对应Figure1中的Ftr操作！】~~

3.3实例化

SE块可以通过在每次卷积之后的非线性之后插入而集成到标准体系结构中，例如VGGNet [11]。此外，SE块的灵活性意味着它可以直接应用于标准卷积以外的转换。为了说明这一点，我们通过将SE块合并到一些更复杂的体系结构示例中来开发SENet，如下所述。

我们首先考虑为接收网络构建SE块[5]。在这里，我们仅将变换Ftr当作一个完整的Inception模块（参见图2），并通过对体系结构中的每个此类模块进行此更改，就可以获得SE-Inception网络。 SE块也可以直接用于剩余网络（图3描绘了SE-ResNet模块的架构）。在此，SE块变换Ftr被认为是残差模块的非同一性分支。挤压和激励在与身份分支求和之前都起作用。可以通过类似的方案来构建将SE块与ResNeXt [19]，Inception-ResNet [21]，MobileNet [64]和ShuffleNet [65]集成在一起的其他变体。对于SENet体系结构的具体示例，表1中给出了SE-ResNet-50和SE-ResNeXt-50的详细说明。

SE块具有灵活性的结果之一是，有几种可行的方法可以将其集成到这些体系结构中。因此，为了评估对用于将SE块合并到网络体系结构中的集成策略的敏感性，我们还提供了消融实验，以探索第6.5节中针对块包含的不同设计。

4模型和计算复杂性

为了使拟议的SE块设计具有实际用途，必须在改进的性能和增加的模型复杂性之间做出良好的权衡。为了说明与模块相关的计算负担，我们以ResNet-50和SE-ResNet-50之间的比较为例。对于224×224像素的输入图像，ResNet-50在单次向前通过中需要约3.86 GFLOPs。每个SE块在压缩阶段使用全局平均池化操作，在激发阶段使用两个小FC层，然后进行廉价的按通道缩放操作。总体而言，将缩减比r（在第3.2节中介绍）设置为16时，SE-ResNet-50需要约3.87 GFLOP，相当于相对于原始ResNet-50的0.26％相对增加。为了弥补这种微小的计算负担，SE-ResNet-50的精度超过了ResNet-50的精度，实际上接近了需要约7.58 GFLOP的更深的ResNet-101网络的精度（表2）。

实际上，通过ResNet-50进行一次单程前进和后退需要190毫秒，而SE-ResNet-50则需要209毫秒，并且具有256幅图像的训练小批量（两个定时都在具有8个NVIDIA Titan X GPU的服务器上执行）。我们建议，这代表了合理的运行时开销，随着全局池和小的内部产品操作在流行的GPU库中得到进一步的优化，可以进一步降低此开销。由于它对于嵌入式设备应用程序的重要性，我们进一步对每种型号的CPU推理时间进行基准测试：对于224×224像素的输入图像，ResNet-50需要164毫秒，而SE-ResNet-50则需要167毫秒。我们认为，SE块对模型性能的贡献可以证明SE块产生的少量额外计算成本是合理的。

接下来，我们考虑提议的SE块引入的其他参数。这些附加参数仅来自门控机制的两个FC层，因此仅占总网络容量的一小部分。具体而言，这些FC层的权重参数引入的总数由下式给出：

$\frac{2}{r}\sum_{n=1}^{S}N_{s}\cdot C^{2}_{s}$ (5)

其中r表示缩小率，S表示级数（一个级表示在公共空间尺寸的特征图上操作的块的集合），Cs表示输出通道的尺寸，Ns表示阶段s的重复块数（当在FC层中使用偏差项时，引入的参数和计算成本通常可以忽略不计）。 SE-ResNet-50在ResNet-50所需的约2500万个参数之外引入了约250万个附加参数，相当于增加了约10％。实际上，这些参数中的大多数来自网络的最后阶段，在该阶段中，在最大数量的通道上执行激励操作。但是，我们发现可以以很小的性能代价（相对于ImageNet，Top-5误差<0.1％）将SE块的这一成本相对较高的最后阶段删除，从而将相对参数的增加幅度降低至约4％，这可能是有用的在参数使用是关键考虑因素的情况下（有关更多讨论，请参见第6.4和7.2节）。

（左）ResNet-50 [13]。（中）SE-ResNet-50。（右）带有32×4d模板的SE-ResNeXt-50。括号内列出了带有剩余构建块的特定参数设置的形状和操作，并在外部显示了阶段中堆叠块的数量。 fc后面的内括号表示SE模块中两个完全连接的层的输出尺寸。
ImageNet验证集和复杂度比较上的单次裁剪错误率（％）。原始列指原始论文中报告的结果（ResNets的结果可从以下网站获得：https：//github.com/Kaiminghe/deep-residual-networks）。为了进行公平的比较，我们对基线模型进行了重新训练，并在重新实施列中报告了得分。 SENet列指的是已添加SE块的相应体系结构。括号中的数字表示在重新实施的基准上的性能改进。 †表示该模型已经在验证集的非黑名单子集中进行了评估（在[21]中进行了更详细的讨论），这可能会稍微改善结果。 VGG-16和SE-VGG-16经过批量归一化训练。

5实验

在本节中，我们进行实验以研究SE块在一系列任务，数据集和模型体系结构中的有效性。

5.1图像分类

为了评估SE块的影响，我们首先对ImageNet 2012数据集[10]进行实验，该数据集包含128万个训练图像和来自1000个不同类别的50K验证图像。我们在训练集上训练网络，并报告验证集上的top-1和top-5错误。

每个基准网络体系结构及其对应的SE对应对象都使用相同的优化方案进行训练。我们遵循标准做法，并使用比例和宽高比[5]进行随机裁剪，将数据增强为224×224像素（对于Inception-ResNet-v2 [21]和SE-Inception-ResNet- v2）并执行随机水平翻转。通过平均RGB通道减法对每个输入图像进行归一化。

所有模型都在我们的分布式学习系统ROCS上进行训练，该系统旨在处理大型网络的有效并行训练。使用动量0.9和最小批量大小为1024的同步SGD进行优化。初始学习率设置为0.6，每30个周期减少10倍。使用[66]中所述的权重初始化策略，从零开始训练模型100个纪元。减速比r（在3.2节中）默认设置为16（除非另有说明）。

在评估模型时，我们应用中心裁剪，以便在将短边的大小首先调整为256的情况下从每个图像裁剪224×224像素（对于每张图像，将短边的大小首先调整为352的299×299，用于Inception-ResNet- v2和SE-Inception-ResNet-v2）。

网络深度。 我们首先将SE-ResNet与具有不同深度的ResNet架构进行比较，并在表2中报告结果。我们观察到SE块可以在不同深度上不断提高性能，而计算复杂度却极小地提高。值得注意的是，SE-ResNet-50的单作物top-5验证误差为6.62％，超过ResNet-50（7.48％）的0.86％，接近更深层次的ResNet-101网络所实现的性能（6.52％的前5位错误）仅占总计算负担的一半（3.87 GFLOP vs. 7.58 GFLOPs）。这种模式会在更大的深度上重复出现，其中SE-ResNet-101（6.07％top-5错误）不仅匹配，而且比更深的ResNet-152网络（6.34％top-5错误）高0.27％。应该注意的是，SE块本身会增加深度，但是它们以极高的计算效率来实现，即使在扩展基本体系结构深度实现递减收益的点上，也能产生良好的收益。此外，我们看到增益在一系列不同的网络深度范围内是一致的，这表明SE块引起的改进可能与通过简单增加基础架构深度获得的改进是互补的。

与现代架构的集成。

接下来，我们研究将SE块与另外两种最新的体系结构Inception-ResNet-v2 [21]和ResNeXt（使用32×4d的设置）[19]集成的效果，这两种方法都引入了额外的计算功能。构建基础网络的基础。我们构建了SE-Inception-ResNet-v2和SE-ResNeXt（表1中给出了SE-ResNeXt-50的配置）这些网络的SENet等效项，并在表2中报告了结果。将SE块引入这两种体系结构可提高性能。特别是SE-ResNeXt-50的top-5误差为5.49％，优于其直接竞争对手ResNeXt-50（5.90％的top-5误差）以及更深的ResNeXt-101（5.57％的top） -5错误），该模型的参数和计算开销几乎是总数的两倍。我们注意到，在重新实现Inception-ResNet-v2与[21]中报告的结果之间，性能存在细微差异。

但是，我们在SE块的效果方面观察到了类似的趋势，发现SE对应项（4.79％的top-5错误）也比我们重新实现的Inception-ResNet-v2基准（5.21％的top-5错误）还要高0.42％作为[21]中报告的结果。

通过使用VGG-16 [11]和BN-Inception体系结构[6]进行实验，我们还评估了SE块在非残留网络上运行时的效果。为了便于从头开始训练VGG-16，我们在每次卷积后添加了“批量归一化”层。我们对VGG-16和SE-VGG-16使用相同的训练方案。比较的结果显示在表2中。与报告的残留基线体系结构的结果类似，我们观察到SE块在非残留设置上带来了性能上的提高。

为了提供一些关于SE块对这些模型优化的影响的见解，在图4中描述了基线体系结构运行的示例训练曲线及其各自的SE对应物。我们观察到SE块在整个优化过程中均产生了稳定的改进。安装程序。而且，这种趋势在被视为基准的一系列网络体系结构中是相当一致的。

移动设置。 最后，我们从移动优化网络的类别中考虑两种具有代表性的体系结构，即MobileNet [64]和ShuffleNet [65]。对于这些实验，我们使用的最小批处理大小为256，而积极的数据扩充和正则化则稍差于[65]。我们使用SGD在动量（设置为0.9）和初始学习率0.1的情况下在8个GPU上训练了模型，每次验证损失趋于平稳时，其初始学习率降低了10倍。整个培训过程需要约400个周期（使我们能够重现[65]的基准绩效）。表3中报告的结果表明，SE块以最小的计算成本来不断提高精度。

其他数据集。 接下来，我们研究SE块的优势是否可以推广到ImageNet以外的数据集。我们使用几种流行的基准架构和技术（ResNet-110 [14]，ResNet-164 [14]，WideResNet-16-8 [67]，Shake-Shake [68]和Cutout [69]）进行实验。 CIFAR-10和CIFAR-100数据集[70]。这些包括50k训练和10k测试的32×32像素RGB图像的集合，分别用10和100类标记。 SE块集成到这些网络中的方式与第3.3节中所述的方法相同。每个基线及其对应的SENet都使用标准的数据增强策略进行了培训[24]，[71]。在训练期间，在随机进行32×32裁切之前，将图像随机水平翻转并在每一侧用四个像素进行零填充。还应用了均值和标准差归一化。训练超参数的设置（例如小批量大小，初始学习率，权重下降）与原始论文建议的设置相匹配。我们观察到，在每个比较中，SENet的性能都优于基线体系结构，这表明SE块的好处并不局限于ImageNet数据集。

5.2场景分类

我们还对Places365-Challenge数据集[73]进行了实验，以进行场景分类。该数据集包含800万个训练图像和365个类别中的36、500个验证图像。相对于分类，场景理解的任务为模型的良好概括和处理抽象的能力提供了另一种评估方法。因为它通常要求模型处理更复杂的数据关联，并且对于更大程度的外观变化具有鲁棒性。

我们选择使用ResNet-152作为评估SE区块有效性的强大基准，并遵循[72]，[74]中所述的训练和评估协议。在这些实验中，模型是从头开始训练的。我们将结果报告在表6中，并与先前的工作进行了比较。我们观察到SE-ResNet-152（11.01％的top-5误差）提供了证据，表明SE块也可以改善场景分类。该SENet超越了以前的最新模型Places-365-CNN [72]，该模型在此任务上的前5个误差为11.48％。

5.3关于COCO的对象检测

我们进一步使用COCO数据集评估SE块在对象检测任务上的一般化[75]。与以前的工作[19]一样，我们使用最小协议，即在80k训练集和35k val子集的联合上训练模型，并对剩余的5k val子集进行评估。权重由ImageNet数据集上训练的模型的参数初始化。我们使用Faster R-CNN [4]检测框架作为评估模型的基础，并遵循[76]中描述的超参数设置（即，采用“ 2x”学习时间表进行端到端训练）。我们的目标是评估用SE-ResNet替换对象检测器中的中继体系结构（ResNet）的效果，以便性能的任何变化都可以归因于更好的表示形式。

表7报告了使用ResNet-50，ResNet-101及其SE对应物作为中继线体系结构的对象检测器的验证集性能。在COCO的标准AP指标上，SE-ResNet-50优于ResNet-50 2.4％（相对6.3％的改善），在AP@IoU=0.5时，SE-ResNet-50优于ResNet-50。 SE块还受益于更深的ResNet-101体系结构，在AP指标上实现了2.0％的提高（相对于5.0％的相对改进）。总之，这组实验证明了SE嵌段的通用性。可以在广泛的体系结构，任务和数据集上实现改进。

5.4 ILSVRC 2017年分类竞赛

SENets为我们向ILSVRC竞赛提交的作品奠定了基础，在那里我们获得了第一名。我们的获奖作品包括一个小型的SENet，它采用了标准的多尺度和多作物融合策略，在测试集上获得了2.251％的top-5误差。

作为本次提交的一部分，我们通过将SE块与修改后的ResNeXt [19]集成在一起，构建了一个附加模型SENet-154（该体系结构的详细信息在附录中提供）。我们将该模型与使用标准作物尺寸（224×224和320×320）在表8中对ImageNet验证集的先前工作进行了比较。我们观察到，使用224×224中心作物评估，SENet-154的top-1误差达到18.68％，top-5误差达到4.47％，这代表了最强的报告结果。

迎接挑战之后，ImageNet基准有了很多进一步的进步。对于比较，我们在表9中包含了我们目前知道的最强结果。[79]最近仅使用ImageNet数据报告了最佳性能。这种方法使用强化学习来为培训期间的数据扩充制定新的策略，以提高[31]搜索的架构的性能。 [80]使用ResNeXt-101 32×48d架构报告了最佳的整体性能。这是通过在大约十亿个弱标签图像上预训练他们的模型并在ImageNet上进行微调来实现的。通过更复杂的数据增强[79]和广泛的预训练[80]所产生的改进可能是我们对网络体系结构提出的更改的补充。

6消融实验

在本节中，我们进行消融实验，以更好地理解在SE块的组件上使用不同配置的效果。所有烧蚀实验均在一台机器（具有8个GPU）上在ImageNet数据集上执行。 ResNet-50被用作骨干架构。从经验上我们发现，在ResNet架构上，在激励操作中消除FC层的偏差有助于对通道相关性进行建模，并在以下实验中使用此配置。数据扩充策略遵循第5.1节中描述的方法。为了让我们研究每种变体的性能上限，将学习率初始化为0.1，并继续训练直到验证损失平稳2（总共约300个epochs）。然后将学习率降低10倍，然后重复此过程（总共3次）。训练期间使用标签平滑正则化[20]。

6.1减速比

Eqn中引入的减速比r。 5是一个超参数，它使我们能够改变网络中SE块的容量和计算成本。为了研究此超参数介导的性能与计算成本之间的平衡，我们使用SE-ResNet-50对一系列不同的r值进行了实验。表10中的比较表明，该性能对于一定范围的减速比具有鲁棒性。增加的复杂度不会单调地提高性能，而较小的比率会极大地增加模型的参数大小。设置r = 16可以在精度和复杂度之间达到良好的平衡。实际上，在整个网络中使用相同的比率可能不是最佳的（由于不同层执行的角色不同），因此可以通过调整比率以满足给定基础体系结构的需求来实现进一步的改进。

6.2挤压运算符

我们研究了使用全局平均池而不是全局最大池作为挤压运算符的选择的重要（因为这很好用，所以我们没有考虑更复杂的替代方法）。结果报告在表11中。虽然最大合并和平均合并均有效，但平均合并的性能稍好一些，这证明了将其选择为挤压操作的基础。但是，我们注意到SE块的性能对于选择特定的聚合运算符而言相当可靠。

6.3励磁算子

我们接下来评估励磁机制的非线性选择。我们考虑了另外两个选择：ReLU和tanh，并尝试用这些替代性非线性代替S形。结果报告在表12中。我们看到，将S型交换为tanh会稍微降低性能，而使用ReLU会大大降低性能，实际上会导致SE-ResNet-50的性能下降到ResNet-50基线以下。这表明为了使SE块有效，精心构造激励算子非常重要。

2.作为参考，使用270个固定时期的时间表进行培训（降低125、200和250个时期的学习率），ResNet-50和SE-ResNet-50的top-1和top-5错误率达（23.21％， 6.53％）和（22.20％，6.00％）

6.4不同阶段

通过将SE块一次集成到ResNet-50中，我们探索了SE块在不同阶段的影响。

具体来说，我们将SE块添加到中间阶段：第2阶段，第3阶段和第4阶段，并在表13中报告结果。我们观察到，在体系结构的这些阶段中的每一个阶段引入SE块都会带来性能优势。

此外，从不同意义上讲，SE块在不同阶段产生的增益是互补的，因为它们可以有效地组合在一起以进一步增强网络性能。

6.5集成策略

最后，我们进行消融研究，以评估将SE模块集成到现有架构中时其位置的影响。除了建议的SE设计之外，我们还考虑三种变体：

（1）SE-PRE块，其中SE块移动到残差单元之前；

（2）SE-POST块，其中SE单元在与标识分支求和之后（在ReLU之后）移动；

（3）SE-Identity块，其中SE单元与ID并行地放置在标识连接上剩余单位。

这些变体如图5所示，每种变体的性能列于表14。我们观察到SE-PRE，SE-Identity和建议的SE块的性能相似，而SE-POST块的使用会导致性能下降。该实验表明，如果SE单元在分支聚合之前应用，则SE单元所产生的性能改进对其位置是相当可靠的。

在上面的实验中，每个SE块都放置在残差单元的结构外部。我们还构造了一种设计变体，将SE块移动到剩余单元内，将其直接放置在3×3卷积层之后。由于3×3卷积层具有较少的通道，因此相应的SE块引入的参数数量也减少了。表15中的比较表明，与标准SE块相比，SE 3×3变体以较少的参数实现了可比的分类精度。尽管这超出了这项工作的范围，但我们预计通过针对特定架构量身定制SE块使用，可以进一步提高效率。

7 SE块的作用

尽管已证明拟议的SE块可改善多种视觉任务的网络性能，但我们也想了解挤压操作的相对重要性以及激励机制在实践中的工作方式。对深度神经网络学习到的表示进行严格的理论分析仍然具有挑战性，因此，我们采用一种经验方法来检查SE块所起的作用，以期至少对它的实际功能有一个初步的了解。

7.1挤压的效果

为了评估挤压操作产生的全局嵌入是否对性能起重要作用，我们尝试了SE块的变体，该变体添加了相同数量的参数，但不执行全局平均池化。具体来说，我们删除池化操作，并在激励算子（即NoSqueeze）中将两个FC层替换为具有相同通道尺寸的相应1×1卷积，其中激励输出将空间尺寸保持为输入。与SE块相反，这些逐点卷积只能根据本地运算符的输出来重新映射通道。

图5.消融研究中探讨的SE块集成设计。

图6.激励操作员在ImageNet上SE-ResNet-50中不同深度引起的激活。每个激活集均根据以下方案命名：SE_stageID_blockID。除了SE_5_2处的异常行为之外，随着深度的增加，激活变得越来越特定于类。

在实践中，深层网络的后续层通常将具有（理论上的）全局接受域，而NoSqueeze变体中的全局嵌入不再可以在整个网络中直接访问。

表16中将这两个模型的准确性和计算复杂性与标准ResNet-50模型进行了比较。我们观察到，全局信息的使用对模型性能具有重大影响，强调了挤压操作的重要性。此外，与NoSqueeze设计相比，SE块允许以计算上的简化方式使用此全局信息。

7.2激励的作用

为了更清楚地了解SE块中激励算子的功能，在本节中，我们研究来自SE-ResNet-50模型的示例激活，并检查它们在不同类别和不同输入图像下的分布情况。网络的深度。尤其是，我们想了解激发在不同类别的图像之间以及类别内的图像之间如何变化。我们首先考虑不同类别的激励分布。具体来说，我们从ImageNet数据集中采样了四个表现出语义和外观差异的类，即金鱼，哈巴狗，平面和悬崖（这些类的示例图像在附录中显示）。然后，我们从验证集中为每个类别抽取五十个样本，并在每个阶段的最后一个SE块中（紧接在降采样之前）计算五十个均匀采样通道的平均激活，并在图6中绘制它们的分布图。作为参考，我们还绘制了所有1000个类别中平均激活的分布。

关于激励操作的作用，我们进行了以下三个观察。首先，不同类别的分布在网络的较早层（例如网络）非常相似。 SE_2_3.这表明功能通道的重要性很可能在早期由不同类别的人共享。第二个观察结果是，在更大的深度上，每个通道的值变得更加特定于类，因为不同的类对特征的判别值表现出不同的偏好，例如， SE_4_6和SE_5_1.这些观察结果与以前的工作[81]，[82]中的发现一致，即，较早的图层特征通常更通用（例如，在分类任务中与类无关），而较晚的图层特征表现出更高的特异性[83]。

接下来，我们在网络的最后阶段观察到某种不同的现象。 SE_5_2表现出一种有趣的趋向饱和状态的趋势，在该状态中，大多数激活都接近一个。在所有激活取值为1的点上，SE块简化为身份运算符。在SE_5_3的网络末端（紧随其后的是全局池，然后是分类器），在不同的类上出现了类似的模式，规模的变化不大（可以由分类器进行调整）。这表明SE_5_2和SE_5_3在为网络提供重新校准方面不如以前的模块重要。该发现与第4节中的经验研究结果一致，该结果表明，通过删除最后一个阶段的SE块，仅会降低性能，可以显着减少额外的参数数量。

最后，我们在图7中显示了同一类别中两个样本类别（金鱼和平面）的图像实例的激活的平均值和标准偏差。我们观察到了与类别间可视化一致的趋势，表明动态行为 SE块的数量在类和类中的实例之间都不同。尤其是在网络的较后一层中，考虑到单个类中的表示能力具有多样性，网络会学习利用特征重新校准来提高其区分性能[84]。总而言之，SE块会产生特定于实例的响应，这些响应仍可在架构的不同层上支持模型日益增长的特定于类的需求。

图7. SE-ResNet-50的不同模块中的励磁引起的激活，这些模块来自ImageNet的金鱼和平面类的图像样本。该模块名为“ SE_stageID_blockID”。

8结论

在本文中，我们提出了SE模块，这是一种架构单元，旨在通过使其能够执行动态通道特征重新校准来提高网络的表示能力。大量的实验表明SENet的有效性，它可以跨多个数据集和任务实现最先进的性能。此外，SE块还说明了以前的体系结构无法对通道方式的功能依赖关系进行充分建模。我们希望这种见解对其他需要强大区分功能的任务可能有用。最后，由SE块产生的特征重要性值可能会用于其他任务，例如用于模型压缩的网络修剪。

致谢作者

要感谢Momenta的Li Chao和Wang Guangyuan在培训系统优化和CIFAR数据集实验方面所做的贡献。我们还要感谢Andrew Zisserman，Aravindh Ma hendran和Andrea Vedaldi进行的许多有益的讨论。

国家自然科学基金资助（61632003，61620106003，61672502，61571439），中国国家重点研发计划（2017YFB1002701）和澳门FDCT资助（068/2015 / A2）部分支持这项工作。 Samuel Albanie得到EPSRC AIMS CDT EP / L015897 / 1的支持。

附录：SENET-154的详细信息

SENet-154是通过将SE块合并到64×4d ResNeXt-152的修改版本中而构造的，该版本通过采用ResNet-152的块堆叠策略扩展了原始的ResNeXt-101 [19]。 [13]。除使用SE块之外，此模型的设计和训练的其他区别如下：（a）每个瓶颈构建块的前1×1卷积通道数减少了一半，以减少模型的计算成本并以最小的性能降低。（b）将第一个7×7卷积层替换为三个连续的3×3卷积层。（c）用步长为2的卷积的1×1下采样投影替换为步长为2的3×3的卷积以保留信息。（d）在分类层之前插入一个滤除层（滤除率为0.2），以减少过度拟合。（e）在训练过程中使用标签平滑规则化（如[20]中介绍的那样）。（f）在最后几个训练时期中冻结所有BN层的参数，以确保训练和测试之间的一致性。（g）并行使用8台服务器（64个GPU）进行了培训，以实现大批量（2048）。初始学习率设置为1.0。

参考：

REFERENCES [1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” in Conference on Neural Information Processing Systems, 2012.

[2] A. Toshev and C. Szegedy, “DeepPose: Human pose estimation via deep neural networks,” in CVPR, 2014.

[3] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in CVPR, 2015.

[4] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” in Conference on Neural Information Processing Systems, 2015.

[5] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in CVPR, 2015.

[6] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in ICML, 2015.

[7] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick, “Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks,” in CVPR, 2016.

[8] A. Newell, K. Yang, and J. Deng, “Stacked hourglass networks for human pose estimation,” in ECCV, 2016. [9] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,” in Conference on Neural Information Processing Systems, 2015.

[10] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet large scale visual recognition challenge,” International Journal of Computer Vision, 2015.

[11] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in ICLR, 2015.

[12] S. Santurkar, D. Tsipras, A. Ilyas, and A. Madry, “How does batch normalization help optimization? (no, it is not about internal covariate shift),” in Conference on Neural Information Processing Systems, 2018.

[13] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016.

[14] K. He, X. Zhang, S. Ren, and J. Sun, “Identity mappings in deep residual networks,” in ECCV, 2016.

[15] R. K. Srivastava, K. Greff, and J. Schmidhuber, “Training very deep networks,” in Conference on Neural Information Processing Systems, 2015.

[16] Y. Chen, J. Li, H. Xiao, X. Jin, S. Yan, and J. Feng, “Dual path networks,” in Conference on Neural Information Processing Systems, 2017.

[17] G. Huang, Z. Liu, K. Q. Weinberger, and L. Maaten, “Densely connected convolutional networks,” in CVPR, 2017.

[18] Y. Ioannou, D. Robertson, R. Cipolla, and A. Criminisi, “Deep roots: Improving CNN efficiency with hierarchical filter groups,” in CVPR, 2017.

[19] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He, “Aggregated ´ residual transformations for deep neural networks,” in CVPR, 2017.

[20] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in CVPR, 2016.

[21] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. Alemi, “Inceptionv4, inception-resnet and the impact of residual connections on learning,” in AAAI Conference on Artificial Intelligence, 2016.

[22] M. Jaderberg, A. Vedaldi, and A. Zisserman, “Speeding up convolutional neural networks with low rank expansions,” in BMVC, 2014.

[23] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” in CVPR, 2017.

[24] M. Lin, Q. Chen, and S. Yan, “Network in network,” in ICLR, 2014.

[25] G. F. Miller, P. M. Todd, and S. U. Hegde, “Designing neural networks using genetic algorithms.” in ICGA, 1989.

[26] K. O. Stanley and R. Miikkulainen, “Evolving neural networks through augmenting topologies,” Evolutionary computation, 2002.

[27] J. Bayer, D. Wierstra, J. Togelius, and J. Schmidhuber, “Evolving memory cell structures for sequence learning,” in ICANN, 2009.

[28] R. Jozefowicz, W. Zaremba, and I. Sutskever, “An empirical exploration of recurrent network architectures,” in ICML, 2015.

[29] L. Xie and A. L. Yuille, “Genetic CNN,” in ICCV, 2017.

[30] E. Real, S. Moore, A. Selle, S. Saxena, Y. L. Suematsu, J. Tan, Q. Le, and A. Kurakin, “Large-scale evolution of image classifiers,” in ICML, 2017.

[31] E. Real, A. Aggarwal, Y. Huang, and Q. V. Le, “Regularized evolution for image classifier architecture search,” arXiv preprint arXiv:1802.01548, 2018.

[32] T. Elsken, J. H. Metzen, and F. Hutter, “Efficient multi-objective neural architecture search via lamarckian evolution,” arXiv preprint arXiv:1804.09081, 2018.

[33] H. Liu, K. Simonyan, and Y. Yang, “DARTS: Differentiable architecture search,” arXiv preprint arXiv:1806.09055, 2018.

[34] J. Bergstra and Y. Bengio, “Random search for hyper-parameter optimization,” JMLR, 2012.

[35] C. Liu, B. Zoph, J. Shlens, W. Hua, L.-J. Li, L. Fei-Fei, A. Yuille, J. Huang, and K. Murphy, “Progressive neural architecture search,” in ECCV, 2018.

[36] R. Negrinho and G. Gordon, “Deeparchitect: Automatically designing and training deep architectures,” arXiv preprint arXiv:1704.08792, 2017.

[37] S. Saxena and J. Verbeek, “Convolutional neural fabrics,” in Conference on Neural Information Processing Systems, 2016.

[38] A. Brock, T. Lim, J. M. Ritchie, and N. Weston, “SMASH: one-shot model architecture search through hypernetworks,” in ICLR, 2018.

[39] B. Baker, O. Gupta, R. Raskar, and N. Naik, “Accelerating neural architecture search using performance prediction,” in ICLR Workshop, 2018.

[40] B. Baker, O. Gupta, N. Naik, and R. Raskar, “Designing neural network architectures using reinforcement learning,” in ICLR, 2017.

[41] B. Zoph and Q. V. Le, “Neural architecture search with reinforce[1]ment learning,” in ICLR, 2017.

[42] B. Zoph, V. Vasudevan, J. Shlens, and Q. V. Le, “Learning transfer[1]able architectures for scalable image recognition,” in CVPR, 2018.

[43] H. Liu, K. Simonyan, O. Vinyals, C. Fernando, and K. Kavukcuoglu, “Hierarchical representations for efficient architecture search,” in ICLR, 2018.

[44] H. Pham, M. Y. Guan, B. Zoph, Q. V. Le, and J. Dean, “Efficient neural architecture search via parameter sharing,” in ICML, 2018.

[45] M. Tan, B. Chen, R. Pang, V. Vasudevan, and Q. V. Le, “Mnas[1]net: Platform-aware neural architecture search for mobile,” arXiv preprint arXiv:1807.11626, 2018.13

[46] B. A. Olshausen, C. H. Anderson, and D. C. V. Essen, “A neurobio[1]logical model of visual attention and invariant pattern recognition based on dynamic routing of information,” Journal of Neuroscience, 1993.

[47] L. Itti, C. Koch, and E. Niebur, “A model of saliency-based visual attention for rapid scene analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998.

[48] L. Itti and C. Koch, “Computational modelling of visual attention,” Nature reviews neuroscience, 2001.

[49] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order boltzmann machine,” in Conference on Neural Information Processing Systems, 2010.

[50] V. Mnih, N. Heess, A. Graves, and K. Kavukcuoglu, “Recurrent models of visual attention,” in Conference on Neural Information Processing Systems, 2014.

[51] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in Conference on Neural Information Processing Systems, 2017.

[52] T. Bluche, “Joint line segmentation and transcription for end-to[1]end handwritten paragraph recognition,” in Conference on Neural Information Processing Systems, 2016.

[53] A. Miech, I. Laptev, and J. Sivic, “Learnable pooling with context gating for video classification,” arXiv:1706.06905, 2017.

[54] C. Cao, X. Liu, Y. Yang, Y. Yu, J. Wang, Z. Wang, Y. Huang, L. Wang, C. Huang, W. Xu, D. Ramanan, and T. S. Huang, “Look and think twice: Capturing top-down visual attention with feedback convolutional neural networks,” in ICCV, 2015.

[55] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y. Bengio, “Show, attend and tell: Neural image caption generation with visual attention,” in ICML, 2015.

[56] L. Chen, H. Zhang, J. Xiao, L. Nie, J. Shao, W. Liu, and T. Chua, “SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning,” in CVPR, 2017.

[57] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman, “Lip reading sentences in the wild,” in CVPR, 2017.

[58] F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang, “Residual attention network for image classification,” in CVPR, 2017.

[59] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “CBAM: Convolutional block attention module,” in ECCV, 2018.

[60] J. Yang, K. Yu, Y. Gong, and T. Huang, “Linear spatial pyramid matching using sparse coding for image classification,” in CVPR, 2009.

[61] J. Sanchez, F. Perronnin, T. Mensink, and J. Verbeek, “Image classi[1]fication with the fisher vector: Theory and practice,” International Journal of Computer Vision, 2013.

[62] L. Shen, G. Sun, Q. Huang, S. Wang, Z. Lin, and E. Wu, “Multi[1]level discriminative dictionary learning with application to large scale image classification,” IEEE TIP, 2015.

[63] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in ICML, 2010.

[64] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv:1704.04861, 2017.

[65] X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An extremely efficient convolutional neural network for mobile devices,” in CVPR, 2018.

[66] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification,” in ICCV, 2015.

[67] S. Zagoruyko and N. Komodakis, “Wide residual networks,” in BMVC, 2016.

[68] X. Gastaldi, “Shake-shake regularization,” arXiv preprint arXiv:1705.07485, 2017.

[69] T. DeVries and G. W. Taylor, “Improved regularization of convolutional neural networks with cutout,” arXiv preprint arXiv:1708.04552, 2017.

[70] A. Krizhevsky and G. Hinton, “Learning multiple layers of fea[1]tures from tiny images,” Citeseer, Tech. Rep., 2009.

[71] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Q. Weinberger, “Deep networks with stochastic depth,” in ECCV, 2016.

[72] L. Shen, Z. Lin, G. Sun, and J. Hu, “Places401 and places365 mod[1]els,” https://github.com/lishen-shirley/Places2-CNNs, 2016.

[73] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, and A. Torralba, “Places: A 10 million image database for scene recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

[74] L. Shen, Z. Lin, and Q. Huang, “Relay backpropagation for effec[1]tive learning of deep convolutional neural networks,” in ECCV, 2016.

[75] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “Microsoft COCO: Common objects in ´ context,” in ECCV, 2014.

[76] R. Girshick, I. Radosavovic, G. Gkioxari, P. Dollar, and K. He, “De- ´ tectron,” https://github.com/facebookresearch/detectron, 2018.

[77] D. Han, J. Kim, and J. Kim, “Deep pyramidal residual networks,” in CVPR, 2017.

[78] X. Zhang, Z. Li, C. C. Loy, and D. Lin, “Polynet: A pursuit of structural diversity in very deep networks,” in CVPR, 2017.

[79] E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and Q. V. Le, “Autoaugment: Learning augmentation policies from data,” arXiv preprint arXiv:1805.09501, 2018.

[80] D. Mahajan, R. Girshick, V. Ramanathan, K. He, M. Paluri, Y. Li, A. Bharambe, and L. van der Maaten, “Exploring the limits of weakly supervised pretraining,” in ECCV, 2018.

[81] H. Lee, R. Grosse, R. Ranganath, and A. Y. Ng, “Convolutional deep belief networks for scalable unsupervised learning of hierar[1]chical representations,” in ICML, 2009.

[82] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson, “How transferable are features in deep neural networks?” in Conference on Neural Information Processing Systems, 2014.

[83] A. S. Morcos, D. G. Barrett, N. C. Rabinowitz, and M. Botvinick, “On the importance of single directions for generalization,” in ICLR, 2018.

[84] J. Hu, L. Shen, S. Albanie, G. Sun, and A. Vedaldi, “Gather-excite: Exploiting feature context in convolutional neural networks,” in Conference on Neural Information Processing Systems, 2018

你可能感兴趣的:(python,networks,神经网络,机器学习)

Python从入门到精通的系统性学习路径 niuTaylor 编程区 python 学习开发语言
Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p
Python技术全景解析：从基础到前沿的深度探索靠近彗星 python 开发语言性能优化个人开发极限编程
目录一、Python为何成为开发者首选？1.核心优势矩阵2.性能进化史二、Python核心应用领域1.数据科学黄金三角2.AI开发新范式三、现代Python进阶技巧1.类型提示革命2.异步编程实战四、Python工程化实践1.现代项目架构2.性能优化矩阵五、Python未来生态展望1.前沿技术融合2.性能革命六、学习路线图1.技能成长路径基础阶段（1-3月）专业方向（3-6月）深度进阶（6-12月
回归任务训练--MNIST全连接神经网络（Mnist_NN）豆芽819 深度学习框架PyTorch pytorch 深度学习人工智能机器学习回归
importtorchimportnumpyasnpimportloggingfromtorch.utils.dataimportTensorDataset,DataLoaderfromtorch.utils.dataimportDataLoader#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname
如何使用DeepSeek编写测试用例？海姐软件测试 deepseek 大数据测试工具
一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee
Explore Model-Based Feature Importance 后端
Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
python 标准库之 functools 模块 36度道 python系列学习笔记 python
functools模块提供了一系列用于处理函数的工具。其中，像partial可以创建一个新的可调用对象，这个对象固定了原函数的部分参数，有点像给函数穿上了“参数防护服”；reduce能对一个序列进行累积计算，就好比是一个勤劳的小会计，按顺序把序列里的数加起来或者做其他运算；wraps主要用于装饰器，它能帮助装饰器函数保留被装饰函数的元信息，比如函数名、文档字符串等，让被装饰函数“表里如一”。底层原
Python——函数生如雪花 Python python
一、十进制小数转换成二进制小数【问题描述】编写程序，输入十进制小数（只考虑正数），把它转换为以字符串形式存储的二进制小数，输出该二进制小数字符串。对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。【输入形式】十进制浮点小数【输出形式】对应输入小数的二进制小数字符串。若整数部分或者小数部分为0，则输出0。比如输入0
Python Web框架 Flask vs Django vs FastAPI ZengDerby python flask fastapi django
如果您需要构建大型的、功能丰富的应用程序，Django可能是一个很好的选择。如果您需要更灵活的框架，可以选择Flask来定制开发。而对于追求极致性能和高并发处理的项目，FastAPI可能是一个更加理想的选择。优缺点Flask在小型项目或微服务理想的选择。Flask灵活且轻量，非常适合快速开发小型应用。Flask是一个非常灵活的框架，它允许您根据项目需求进行定制。您可以根据需要选择合适的插件和扩展。
python if用法 IT技术土狗 python从入门到入狱 python
pythonif用法流程控制流程控制即控制流程，具体指控制程序的执行流程，而程序的执行流程分为三种结构：顺序结构（之前我们写的代码都是顺序结构）、分支结构（用到if判断）、循环结构（用到while与for）1、分支结构分支结构就是根据条件判断的真假去执行不同分支对应的子代码2、为什么需要分支结构人类某些时候需要根据条件来决定做什么事情，比如：如果今天下雨，就带伞所以程序中必须有相应的机制来控制计算
python与数值有关的问题 cbxjsdg python
1.复数的问题x=123+456j#后面没加j部分为实数，加j部分为虚数print('实数部分',x.real)#表示实数print('虚数部分',x.imag)#表示虚数2.查看数值的类型a=10b=10.0c=1.99E2#表示1.99*10的二次方的意思，这是科学计数法print('数值为',a,'数值类型为',type(a))print('数值为',b,'数值类型为',type(b))pr
【架构设计】前置知识 GIS程序媛—椰子架构设计架构设计
架构设计是软件开发的进阶技能，需要结合理论知识和实践经验。以下是掌握架构设计所需的前置知识及其重要性，以及学习路径建议：一、基础编程能力1.编程语言与核心概念掌握至少一门主流语言（如Java、Python、C#、Go等），理解其语法、特性及生态。核心概念：面向对象（OOP）、函数式编程（FP）、并发/异步、内存管理等。示例：通过Java理解接口、多态、设计模式。通过Go学习并发模型（Gorouti
Python, C ++开发家庭开支 Geeker-2025 python c++
开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
python接口自动化全世界最帅的男人 python 自动化开发语言
Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
Python异步编程：从基础到高级 CarlowZJ python 网络数据库
前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
minimind2学习：（1）训练溯源006 minimind学习学习深度学习生成模型
1、数据下载参考：https://github.com/jingyaogong/minimind/tree/master2、预训练训练6个epochspythontrain_pretrain.py--epochs6训练过程：LLM总参数量：25.830百万Epoch:[1/6](0/11040)loss:8.940lr:0.000550000000epoch_Time:106.0min:Epoch
使用Seaborn库中的`violinplot`函数绘制水平小提琴图（Violin Plot）是一种常见的数据可视化方法 code_welike 信息可视化数据分析数据挖掘 Python
使用Seaborn库中的violinplot函数绘制水平小提琴图（ViolinPlot）是一种常见的数据可视化方法。水平小提琴图可以展示数据的分布特征，并可以对比不同组别之间的差异。本文将介绍如何使用Python和Seaborn库绘制水平小提琴图，并提供相应的源代码示例。首先，我们需要确保已经安装了Seaborn库。可以使用以下命令在Python中安装Seaborn：pipinstallseabo
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
使用Seaborn绘制水平小提琴图 YOUFDJ python 开发语言 Python
使用Seaborn绘制水平小提琴图水平小提琴图是一种常用的数据可视化工具，可以用于展示不同类别之间的分布情况。在Python中，我们可以使用Seaborn库的catplot函数来轻松地绘制水平小提琴图。本文将介绍如何使用Seaborn绘制水平小提琴图，并附带相应的源代码示例。首先，确保你已经安装了Seaborn库。如果没有安装，可以使用以下命令在命令行中安装：pipinstallseaborn安装
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi