羞儿

【读点论文】ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation，逐点卷积加上空洞卷积

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

Abstract

本文引入了一种快速高效的卷积神经网络ESPNet，用于资源约束下的高分辨率图像语义分割。ESPNet基于一种新的卷积模块——高效空间金字塔(efficient spatial pyramid, ESP)，它在计算、内存和功耗方面都非常高效。
ESPNet比表现良好的语义分割网络PSPNet快22倍(在标准GPU上)，小180倍，而分类准确率仅低8%。本文在各种语义分割数据集上评估EPSNet，包括cityscape、PASCAL VOC和一个乳腺活检整个幻灯片图像数据集。
在相同的内存和计算限制下，ESPNet在标准指标和本文新引入的性能指标(衡量边缘设备上的效率)上都优于所有当前高效的CNN网络，如MobileNet、ShuffleNet和ENet。本文的网络可以在标准GPU和边缘设备上分别以每秒112帧和9帧的速度处理高分辨率图像。
论文地址：[1803.06815] ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation (arxiv.org)

Introduction

深度卷积神经网络(Deep convolutional neural networks, CNNs)在视觉场景理解任务中取得了很高的精度[Pyramid scene parsing network,Spatial pyramid pooling in deep convolutional networks for visual recognition,Deeplab]。虽然这些网络的精度随着深度和宽度的增加而提高，但大型网络速度缓慢，耗电量大。
这在计算量大的语义分割任务上尤其成问题[Segmentation-based urban traffic scene understanding,Da-rnn,Joint semantic segmentation and 3d reconstruction from monocular video]。例如，PSPNet具有6570万个参数，运行速度约为1 FPS，而标准笔记本电脑的电池放电速率为77瓦。许多先进的现实世界应用，如自动驾驶汽车、机器人和增强现实，都是敏感的，并要求在边缘设备上本地在线处理数据。这些精确的网络需要大量的资源，不适合边缘设备，这些设备的能量开销有限，内存限制有限，计算能力下降。
卷积分解已经证明了它在降低深度cnn(如Inception[Going deeper with convolutions,Rethinking the inception architecture for computer vision,Inception-v4]， ResNext和Xception)的计算复杂度方面的成功。本文引入了一种基于卷积分解原理的高效卷积模块ESP(高效空间金字塔)(见下图)。
- (a)将标准卷积层分解为逐点卷积和扩张卷积的空间金字塔，构建高效的空间金字塔(ESP)模块。
- (b) ESP模块框图。ESP模块的有效接收域较大，引入了网格伪影，采用分层特征融合(HFF)去除网格伪影。增加了输入和输出之间的跨接，以改善信息流。展开的卷积层表示为(#输入通道，有效内核大小，#输出通道)。膨胀卷积核的有效空间维数为 $n_k × n_k$ ，其中 $n_k = (n−1)2^{k−1} + 1,k = 1，···，k$ 。注意，只有n × n个像素参与膨胀的卷积核。在我们的实验中n = 3, $=\frac MK$ 。
基于这些ESP模块，本文提出了一种高效的网络结构ESPNet，可以轻松地部署在资源受限的边缘设备上。ESPNet是快速，小，低功耗，低延迟，但仍然保持分割精度。
ESP基于卷积分解原理，将一个标准卷积分解为两个步骤:(1)逐点卷积和(2)扩张卷积的空间金字塔，如上图所示。逐点卷积有助于减少计算量，而扩张卷积的空间金字塔对特征映射进行重新采样，从较大的有效接收野学习表征。本文证明了ESP模块比其他的卷积分解形式(如Inception和ResNext)更高效。
在相同的内存和计算限制下，ESPNet的表现优于MobileNet和ShuffleNet(另外两种基于因数分解原理的高效网络)。本文注意到现有的空间金字塔方法(例如[Deeplab]中的atrous空间金字塔模块)计算成本很高，不能在不同的空间层次上用于学习表示。
与这些方法相比，ESP算法计算效率高，可以在CNN网络的不同空间层次上使用。现有的基于扩张卷积的网络规模大，效率低，但本文的ESP模块以一种新颖高效的方式推广了扩张卷积的使用。
为了分析CNN网络在边缘设备上的性能，本文引入了一些新的性能指标，如对GPU频率的敏感性和曲速执行效率。为了展示ESPNet的强大功能，本文在人工智能和计算机视觉中最昂贵的任务之一:语义分割上评估了本文的网络。
经验证明，ESPNet在学习类似数量的参数时，比ENet(能效最高的语义分割网络之一)更准确、高效和快速。本文的结果还表明，ESPNet学习广义表示，并优于ENet另一个有效的网络ERFNet在没见过的数据集上。ESPNet可以在高端GPU上以每秒112帧的速度处理高分辨率的RGB图像，在笔记本电脑上以每秒21帧的速度处理，在边缘设备上以每秒9帧的速度处理。

Related Work

许多不同的技术，如卷积分解、网络压缩和低比特网络，已经被提出来加速卷积神经网络。本文首先简要介绍了这些方法，然后简要概述了基于cnn的语义分割。
Convolution factorization:
- 卷积分解将卷积运算分解为多个步骤，降低了计算复杂度。这种分解已经成功地展示了它在降低深度CNN网络(例如Inception系列， factorized network，ResNext ， Xception和MobileNets)计算复杂度方面的潜力。ESP模块也是基于这种分解原理构建的。ESP模块将卷积层分解为逐点卷积和扩张卷积的空间金字塔。这种因子分解有助于降低计算复杂度，同时允许网络从一个较大的有效接受域学习表示。
Network Compression:
- 另一种建立高效网络的方法是压缩。这些方法使用哈希[Compressing neural networks with the hashing trick]、剪枝[Compressing deep neural networks with pruning, trained quantization and huffman coding]、向量量化[Quantized convolutional neural networks for mobile devices]和收缩[Icnet for real-time semantic segmentation on high-resolution images,Speeding up convolutional neural networks with low rank expansions]等技术来减小预训练网络的大小。
Low-bit networks:
- 另一种实现高效网络的方法是低比特网络，它通过量化权值来降低网络的规模和复杂性(例如[Xnor-net])。
Sparse CNN:
- 为了消除CNN中的冗余，提出了稀疏CNN方法，如稀疏分解[Sparse convolutional neural networks]、结构稀疏学习Learning structured sparsity in deep neural networks]、基于字典的方法[Lcnn: Lookup-based convolutional neural network]。本文注意到，基于压缩的方法、低比特网络和稀疏CNN方法同样适用于ESPNets，并且是本文工作的补充。
Dilated convolution:
- 扩展卷积[A real-time algorithm for signal analysis with the help of the wavelet transform]是标准卷积的一种特殊形式，通过在卷积核的每个像素之间插入零(或孔)来增加核的有效接收域。
- 对于膨胀率为r的n × n扩张卷积核，其有效大小为 $n−1)r + 1]^2$ 。膨胀率指定像素之间的零(或孔)的数量。但是由于膨胀，只有n × n个像素参与卷积运算，在降低计算成本的同时增加了有效的内核大小。
- Multi-scale context aggregation by dilated convolutions以递增的扩张速率叠加扩张的卷积层，从较大的有效接受场学习上下文表征。[Dilated residual networks,Learning to segment breast biopsy whole slide images,Understanding convolution for semantic segmentation]也采用了类似的策略。Chen等人介绍了一种atrous空间金字塔(ASP)模块。
- 这个模块可以看作是deeplab的并行版本。这些模块的计算效率很低(例如，asp对内存有很高的要求，需要学习更多的参数;见3.2节)。本文的ESP模块还使用扩展卷积并行学习多尺度表示;然而，它的计算效率很高，可以在CNN网络的任何空间层次上使用。
CNN for semantic segmentation:
- 人们提出了不同的基于cnn的分割网络，如多维递归神经网络，encoder-decoders[Enet,Erfnet,Segnet,U-net]，[Hypercolumns for object segmentation and fine-grained localization]，基于区域的表示，级联网络。一些支持技术和这些网络一起被用于实现高精度，包括集成特征、多阶段训练、来自其他数据集的额外训练数据、目标建议、基于crf的后处理和基于金字塔的特征重采样。
Encoder-decoder networks:
- 本文的工作与这有关。编码器解码器网络首先通过执行卷积和降采样操作来学习表示。然后通过执行上采样和卷积操作对这些表示进行解码。ESPNet首先学习编码器，然后附加一个轻量级解码器来生成分割掩码。这与现有的网络形成了对比，在这些网络中，解码器要么是编码器的精确复制(如[Segnet])，要么相对于编码器(如[Enet,Ernet])来说相对较小(但重量不轻)。
Feature re-sampling methods:
- 特征重采样方法使用不同的池化率和核大小对相同尺度的卷积特征映射进行重新采样，以实现高效分类。特征重采样的计算成本很高，并且只在分类层之前进行，以学习尺度不变表示。本文引入了一种计算效率高的卷积模块，允许在CNN网络的不同空间层次上进行特征重采样。

ESPNet

下面详细介绍了ESPNET的细节，并描述了构建ESPNET的核心ESP模块。本文将ESP模块与类似的CNN模块进行比较，如Inception系列， ResNext ，MobileNet，和ShuffleNet模块。

ESP module

ESPNet基于高效的空间金字塔(ESP)模块，该模块是一种卷积的分解形式，将标准卷积分解为逐点卷积和膨胀卷积的空间金字塔(见上图a)。ESP模块中的逐点卷积采用1 × 1卷积将高维特征映射投影到低维空间。
然后，扩张卷积的空间金字塔使用K, n × n个同时扩张的卷积核对这些低维特征映射重新采样，每个卷积核的扩张速率为 $2^{k−1},K ={1，···，K}$ 。这种分解方法大大减少了ESP模块所需的参数数量和内存，同时保持了较大的有效接收域 $n−1)2^{K−1} + 1]^2$ 。这种金字塔式卷积运算被称为扩张卷积的空间金字塔，因为每个扩张的卷积核学习不同接收域的权值，因此类似于空间金字塔。
标准卷积层取输入特征图 $F_i∈\Bbb R^{W×H×M}$ ，应用N个核 $K∈\Bbb R^{m×n×M}$ 生成输出特征图 $F_o∈\Bbb R^{W×H×N}$ ，其中W和H表示特征图的宽度和高度，m和N表示核的宽度和高度，m和N表示输入和输出特征通道的数量。为了简单起见，本文假设m = n，因此标准卷积核学习 $n^2MN$ 参数。这些参数与n × n核的空间维数和输入M通道、输出n通道的数量密切相关。
Width divider K:
- 为了减少计算量，本文引入了一个简单的超参数K，它的作用是统一收缩网络中各个ESP模块的特征映射维数。
- Reduce:对于给定的K, ESP模块首先通过逐点卷积将特征映射从m维空间缩减到N K维空间(上图a中的步骤1)。
- split:然后将低维特征映射拆分到K个并行分支上。
- Transform:然后每个分支使用 $2^{k−1},k ={1，···，k−1}$ 给出的n × n个扩张速率不同的卷积核同时处理这些特征映射(上图a中的步骤2)。
- merge:然后将这K个并行扩展卷积核的输出连接起来，产生一个n维输出特征map。上图b展示了ESP模块采用的减少-分裂-转换-合并策略。
- ESP模块具有 $\frac{MN}{K}+ \frac{(nN)^2}K$ 参数，其有效接收域为 $n−1)2^{K−1} + 1]^2$ 与标准卷积的 $n^2NM$ 参数相比，采用两步分解的方法使ESP模块的参数总数减少了 $\frac{n^2MK}{M+n^2N}$ 的一倍，同时有效接收域增加了约 $2^{K−1}]^2$ 。例如，当n = 3, n = M = 128, K = 4时，ESP模块的有效接收域为17 × 17，比标准卷积核(有效接收域为3 × 3)少学习3.6倍的参数。
Hierarchical feature fusion (HFF) for de-gridding:
- 虽然将扩张卷积的输出拼接在一起会给ESP模块带来一个较大的有效感受野，但也会引入不必要的棋盘或网格假象，如下图所示。
- (a)举例说明一个网格伪像，其中单个活动像素(红色)与膨胀率r = 2的3×3膨胀卷积核卷积。
- (b)具有和不具有层次特征融合(HFF)的ESP模块特征图可视化。ESP中的HFF消除了网格伪影。彩色观看效果最佳。
- 为了解决ESP中的网格问题，使用不同膨胀率的核获得的特征映射在拼接之前会进行层次化添加(上图b中的HFF)。该解决方案简单有效，且不会增加ESP模块的复杂性，这与现有方法不同，现有方法通过使用膨胀率较小的卷积核学习更多参数来消除网格误差[Dilated residual networks,Understanding convolution for semantic segmentation]。为了改善网络内部的梯度流动，ESP模块的输入和输出特征映射使用元素求和[Deep residual learning for image recognition]进行组合。

Relationship with other CNN modules

The ESP module shares similarities with the following CNN modules.
MobileNet module:
- MobileNet模块，如下图a所示，使用深度可分离卷积[Xception]，将标准卷积分解为深度卷积(变换)和点卷积(展开)。与ESP模块相比，它学习参数少，内存要求高，接收域低。ESP模块的一个极端版本(K = N)与MobileNet模块几乎相同，只是在卷积操作的顺序上有所不同。在MobileNet模块中，空间卷积之后是点向卷积;然而，在ESP模块中，点卷积之后是空间卷积。注意ESP模块的有效感受野 $n−1)2^{K−1} + 1]^2)$ 高于MobileNet模块( $n]^2$ )。
- Different types of convolutional modules for comparison.
- 本文将该层表示为(#输入通道，内核大小，#输出通道)。(e)的膨胀速率在每一层的最上面。这里g表示分组卷积中卷积组的个数。为了简单起见，本文只报告(d)中卷积层的内存。为了将所需的内存转换为字节，将其乘以4(一个浮点数需要4字节存储)。
ShuffleNet module:
- 如上图b所示的ShuffleNet模块是基于reduce-transform-expand的原理。它是ResNet中瓶颈块的优化版本。为了减少计算量，shuffle使用了分组卷积和深度卷积。它将ResNet中瓶颈块中的1 × 1和3 × 3卷积分别替换为1 × 1分组卷积和3 × 3深度可分卷积。与ESP模块相比，Shufflenet模块学习的参数要少得多，但对内存的要求更高，接收域也更小。
Inception module:
- Inception模块是基于splitreduce-transform-merge的原则构建的。这些模块通常在通道数量和内核大小上是异构的(例如，一些模块是由标准卷积和因数卷积组成的)。与Inception模块相比，ESP模块设计简单明了。为了便于比较，上图c显示了Inception模块的同构版本。上图f是Inception模块和ESP模块的对比。ESP(1)学习的参数更少，(2)对内存的要求更低，(3)有效接收域更大。
ResNext module:
- 如上图d所示，ResNext模块是ResNet中瓶颈模块的并行版本，基于split-reduce - transform-expand-merge的原理。ESP模块与ResNext类似，涉及分支和残差求和。然而，ESP模块在内存和参数方面效率更高，有效接收域更大。
Atrous spatial pyramid (ASP) module:
- ASP模块基于拆分-转换-合并的原理构建，如上图e所示。ASP模块涉及到分支，每个分支学习内核在不同的接受域(使用扩张卷积)。虽然ASP模块具有高效的接收域，在分割任务中表现较好，但ASP模块对内存的要求较高，需要学习更多的参数。与ASP模块不同，ESP模块的计算效率很高。

Experiments

语义分割是人工智能和计算机视觉中最昂贵的任务之一。为了展示ESPNet的强大功能，本文在多个数据集上对ESPNet的性能进行了评估，用于语义分割，并与最先进的网络进行了比较。

Experimental set-up

Network structure:
- ESPNet使用ESP模块学习卷积核以及下采样操作，除了第一层是标准的大步卷积。所有层(卷积和ESP模块)后面都有一个批归一化和一个PReLU非线性，除了最后一个点卷积，它既没有批归一化，也没有非线性。最后一层输入softmax进行像素级分类。
- ESPNet的不同变体如下图所示。第一个变体，ESPNet-A(图a)，是一种标准网络，它以RGB图像作为输入，并使用ESP模块学习不同空间层次的表示，以产生一个分割掩码。第二种ESP - b(图b)通过在之前的跨步ESP模块和之前的ESP模块之间共享特征映射，改善了ESPNet-A内部的信息流。第三种变体，ESPNet-C(图c)，加强了ESPNet-B内部的输入图像，以进一步改善信息的流动。这三种变量产生的输出的空间维度是输入图像的1 / 8。第四种变体，ESPNet(图d)，在ESPNet- c中添加了一个轻量级解码器(使用reduceupsample-merge的原理构建)，输出与输入图像相同空间分辨率的分割mask。
- 从ESPNet- a到ESPNet的路径。红色和绿色色框分别代表负责下采样和上采样操作的模块。空间级别的l在(a)中的每个模块的左侧。本文将每个模块表示为(#输入通道，#输出通道)。这里，conv-n表示n × n卷积。
- 为了在不改变网络拓扑结构的情况下构建具有较深计算效率的边缘设备网络，超参数α控制网络的深度;ESP模块在空间层次l上重复 $α_l$ 次。在更高的空间层次(l = 0和l = 1)， cnn需要更多的内存，因为这些层次的特征图的空间维数较高。为了节省内存，ESP和卷积模块都不会在这些空间级别上重复。用于构建ESPNet(从ESPNet- a到ESPNet)的构建模块函数在附录B中进行了讨论。
Dataset:
- 本文在cityscape数据集上评估了ESPNet，该数据集是一个城市视觉场景理解数据集，包含2975张训练图、500张验证图和1,525张测试高分辨率图像。该数据集是在50个城市的不同季节采集的。该任务是将一幅图像分割成19个类，属于7个项目(例如:人和骑手类属于同一类人)。本文使用Cityscapes在线服务器在测试集上评估本文的网络。
- 为了研究泛化性，本文在一个没见过的数据集上测试了ESPNet。本文使用Mapillary数据集来完成这个任务，因为它具有多样性。本文将验证集(# 2000张图片)中的注释(65个类)映射到Cityscape数据集中的7个类别。为了进一步研究本文网络的分割能力，本文在来自不同领域的另外两个流行数据集上训练和测试了ESPNet。
- 首先，本文使用了众所周知的PASCAL VOC数据集，该数据集有1464张训练图像、1448张验证图像和1456张测试图像。任务是将图像分割成20个前景类。本文使用PASCAL VOC在线服务器在测试集(comp6类别)上评估本文的网络。
- 按照惯例，本文使用了来自[Semantic contours from inverse detectors,coco]的其他图像。其次，本文使用了乳腺活检整个幻灯片图像数据集，之所以选择该数据集，是因为生物医学图像中的组织结构在大小和形状上有所不同，而且因为该数据集允许本文检查从一个大的接收野学习表征的潜力。
- 该数据集由30张训练图像和28张验证图像组成，平均大小为10000 × 12000，远远大于自然场景图像。
Performance evaluation metrics:
- 大多数传统的CNNs通过精度、延迟、网络参数数量和网络大小来衡量网络性能(如[Mobilenets,Shufflenet,Enet,Erfnet,SqueezeNet])。这些指标提供了有关网络的高级信息，但无法证明有限的可用硬件资源的有效使用。除了这些指标之外，本文还引入了几个系统级指标来描述CNN在资源受限设备上的性能[Deep-dive analysis of the data analytics workload in cloudsuite,Performance characterization of high-level programming models for gpu graph analytics.]。
Segmentation accuracy
- 分割精度是由ground truth值和预测的分割掩码之间的平均交集(mIOU)分数来衡量的。
Latency
- 延迟表示CNN网络处理图像所需的时间。这通常是以每秒帧数(FPS)来衡量的。
Network parameters
- 网络参数表示网络学习到的参数个数。
Network size
- 网络大小表示存储网络参数所需的存储空间量。一个高效的网络应该有一个较小的网络大小。
Sensitivity to GPU frequency
- GPU频率敏感度衡量应用程序的计算能力，定义为执行时间变化百分比与GPU频率变化百分比的比值。数值越高，说明应用程序对GPU的利用效率越高。
Utilization rates
- 利用率是指运行在边缘设备上的计算资源(CPU、GPU和内存)的利用率。特别是，边缘设备(如Jetson TX2)中的计算单元在CPU和GPU之间共享内存。
Warp execution efficiency
- Warp执行效率定义为每次执行Warp中活动线程的平均百分比。gpu以warp的形式调度线程，warp中的每个线程都以单指令多数据的方式执行。曲速执行效率越高，说明GPU使用效率越高。
Memory efficiency
- 内存效率是请求/存储的字节数与从设备(或共享)内存传输/传输到设备(或共享)内存的字节数之比，以满足加载/存储请求。由于内存事务是在块中进行的，因此这个指标允许我们确定使用内存带宽的效率。
Power consumption
- 功耗是应用程序在推断期间所消耗的平均功率。
Training details:
- 使用PyTorch和CUDA 9.0和cuDNN后端对ESPNet网络进行训练。ADAM的初始学习率为0.0005，每100个epoch衰减2次，权重衰减为0.0005。交叉熵损失函数中使用了逆类概率加权方案来解决类不平衡问题[Enet,Erfnrt]。随机初始化权重。标准策略，如缩放、裁剪和翻转，被用来增加数据。Cityscape数据集的图像分辨率为2048 × 1024，所有的精度结果都是在这个分辨率下报告的。为了训练网络，本文对RGB图像进行了二次采样。当输出分辨率小于2048 × 1024时，采用双线性插值对输出进行上采样。为了在PASCAL数据集上进行训练，本文使用了固定大小为512 × 512的图像。
- ESPNet的训练分为两个阶段。首先，ESPNet-C使用降采样注释进行训练。其次，在ESPNet- c上附加一个轻量级解码器，然后对整个ESPNet网络进行训练。
- 本文的实验使用了三种不同的GPU设备:(1)桌面使用NVIDIA TitanX GPU (3584 CUDA核)，(2)笔记本使用NVIDIA GTX-960M GPU (640 CUDA核)，(3)边缘设备使用NVIDIA Jetson TX2 (256 CUDA核)。有关硬件的详细信息，请参见附录A。
- 除非另有明确说明，对于大小为1024 × 512的RGB图像，在经过200次平均试验后，将报告诸如功耗和推理速度等统计数据。为了收集硬件级统计数据，使用了NVIDIA和Intel的硬件分析和跟踪工具，如NVPROF ， Tegrastats和PowerTop。在本文的实验中，本文将α2 = 2和α3 = 8的ESPNet称为ESPNet，除非另有明确说明。

Results on the Cityscape dataset

Comparison with state-of-the-art efficient convolutional modules:
- 为了理解ESP模块，本文将ESPNet-C中的ESP模块替换为最先进的高效卷积模块，如图3所示(MobileNet ， ShuffleNet， Inception 系列， ResNext，和ResNet)，并评估它们在Cityscape验证数据集上的性能。本文没有与ASP进行比较，因为它的计算成本很高，不适合边缘设备。
- 下图对比了ESPNet-C不同卷积模块的性能。本文的ESP模块的性能分别比MobileNet和ShuffleNet模块高出7%和12%，同时学习的参数数量相似，网络大小和推理速度相当。此外，ESP模块的精度与ResNext和Inception相当，效率更高。一个基本的ResNet模块(两个3 × 3卷积的堆栈和一个跳跃连接)提供了最好的性能，但必须学习6.5×更多的参数。
- 最先进的高效卷积模块之间的比较。为了公平的比较不同的模块，本文使用K = 5, $=\frac NK$ ， α2 = 2， α3 = 3。本文使用标准的大步卷积进行降采样。对于ShuffleNet，本文使用g = 4和K = 4，这样得到的ESPNet-C网络与ESP块具有相同的复杂度。
Comparison with state-of-the-art segmentation methods:
- 本文比较了ESPNet和最先进的语义分割网络的性能。这些网络要么使用预先训练的网络(VGG: FCN-8s和SegNet， ResNet: DeepLab-v2和PSPNet，以及SqueezeNet : SQNet)，要么从头训练(ENet和ERFNet)。下图比较了ESPNet和最先进的方法。ESPNet的准确率比ENet高出2%，而在台式机和笔记本电脑上的运行速度分别为1.27×和1.16×。
- 比较最先进的分割方法在城市景观测试集在两个不同的设备。所有网络(FCN-8s ， SegNet ， SQNet， ENet， DeepLabv2 ， PSPNet， ERFNet)都没有条件随机场，并转换为PyTorch进行公平比较。彩色观看效果最佳。
- ESPNet在属于同一类别的类之间会犯一些错误，因此类的精度较低。例如，骑手可能会与人混淆。然而，ESPNet提供了一个很好的分类精度。ESPNet的分类mIOU比PSPNet低8%，而学习的参数少180×个。ESPNet具有更低的功耗，更低的电池放电率，并且显著快于最先进的方法，同时仍然实现了具有竞争力的分类精度;这使得ESPNet适合在边缘设备上分割。另一种高效的分割网络ERFNet具有良好的分割精度，但比ESPNet多了5.5倍的参数，大了5.44倍，耗电更大，电池放电率也更高。此外，ERFNet不能有效地利用边缘设备上有限的可用硬件资源。

Segmentation results on other datasets

Unseen dataset:
- 下表a比较了ESPNet与ENet和ERFNet在不可见数据集上的性能。这些网络在cityscape数据集上训练，并在Mapillary数据集测试。
- 不同数据集的结果。这里，参数的数量以百万为单位，并且✳表明使用了更广泛的ESPNet版本。在l ={1,2,3}时，我们用(16,128,256)作为输出通道数，K = 4。参见附录F获得更多示例图像。
- 选择ENet和ERFNet，因为ENet是最有效的分割网络之一，而ERFNet具有较高的准确率和中等的效率。本文的实验表明，ESPNet学习了良好的对象泛化表示，并在不可见数据集上从定性和定量上优于ENet和ERFNet。
PASCAL VOC 2012 dataset:
- (上表c)在PASCAL数据集上，ESPNet比SegNet (PASCAL VOC上最小的网络之一)的准确率高4%，同时学习的参数少81×个。ESPNet的精度比PSPNet (PASCAL VOC上最精确的网络之一)低22%，同时学习的参数少了180倍。
Breast biopsy dataset:
- (上表d)在乳腺活检数据集上，ESPNet获得了相同的精度，同时学习了9.5×更少的参数。

Performance analysis on an edge device

本文在NVIDIA Jetson TX2上测量性能，这是一个边缘设备的计算平台。性能分析结果见下图。
- 在NVIDIA Jetson TX2上使用ENet和ERFNet的ESPNet性能分析:(a)网络大小，(b)推断速度与GPU频率的对比(MHz)， ©灵敏度分析，(d)利用率，(e)效率，以及(f, g)两种不同GPU频率下的功耗。在(d)中，没有考虑网络初始化阶段的统计，因为它们在所有网络中是相同的。参见附录E的时间与利用地块。彩色观看效果最佳。
Network size:
- 上图a对比了ESPNet与ENet和ERFNet的32位未压缩网络大小。ESPNet的网络大小分别比ENet和ERFNet小1.12×和5.45×，这很好地体现了ESPNet的架构设计。
Inference speed and sensitivity to GPU frequency:
- 上图b对比了ESPNet与ENet和ERFNet的推理速度。ESPNet与ENet的帧率基本相同，但对GPU频率更敏感(上图c)。因此，ESPNet在高端显卡(如GTX960M和TitanX)上实现了比ENet更高的帧率。例如，在NVIDIA TitanX上，ESPNet比ENet快1.27倍。在NVIDIA Jetson TX2上，ESPNet比ERFNet快3倍。
Utilization rates:
- 上图d比较了不同网络的CPU、GPU和内存利用率。这些网络是吞吐量密集型的，因此GPU利用率很高，而CPU利用率很低。这些网络的内存利用率有很大不同。与ENet和ERFNet相比，ESPNet的内存占用较低，这表明ESPNet适合内存受限的设备。
Warp execution efficiency:
- 上图e对比了ESPNet、ENet和ERFNet的warp执行效率。ESPNet的翘曲执行比ENet高出约9%，比ERFNet高出约14%。这表明ESPNet具有较小的warp divergence，促进了边缘设备上有限的GPU资源的有效利用。本文注意到翘曲执行效率比GPU利用率更能反映GPU资源的利用率。即使有少量的warp活动，GPU频率也会很忙，GPU利用率很高。
Memory efficiency:
- (上图e)所有网络的全局负载效率相似，但ERFNet的存储和共享内存效率较差。这可能是由于ERFNet将20%的计算能力用于执行内存对齐操作，而ESPNet和ENet在此操作上分别花费4.2%和6.6%的时间。参见附录C，了解不同内核的计算细分。
Power consumption:
- 上图f和g比较了ESPNet与ENet和ERFNet在两种不同GPU频率下的功耗。在网络执行阶段，ESPNet、ENet和ERFNet在GPU频率为824mhz时的平均功耗分别为1 W、1.5 W和2.9 W，在GPU频率为1134mhz时的平均功耗分别为2.2 W、4.6 W和6.7 W;说明ESPNet是一个节电网络。

Ablation studies: The path from ESPNet-A to ESPNet

更大的网络或集成多个网络的输出可以提供更好的性能，但对于ESPNet，目标是为边缘设备提供高效的网络。为了在保持效率的同时提高ESPNet的性能，对设计选择进行了系统研究。下表总结了结果。
- 从ESPNet- a到ESPNet的路径。在这里,⭐表示下采样采用跨步ESP，†表示将输入增强法替换为输入感知融合法，◦表示数值为百万。(a-e)中的所有网络以α3 = 3训练100个epoch，而(f)中的网络以变量α3训练300个epoch。宽度分割器(K):(上表d)增加K会增大有效接收野
ReLU vs PReLU:
- (上表a)在ESPNet-A中用PReLU替换ReLU，准确率提高了2%，同时对网络复杂度的影响最小。
Residual learning in ESP:
- (上表b)当去除ESP模块中的跳接时，ESPNet-A的准确率下降了约2%。这验证了残差学习的有效性。
Down-sampling:
- (上表c)在ESPNet-A中用跨步式ESP替换标准的跨步式卷积，精度提高1%，参数减少33%。
Width divider (K):
- (上表d)增加K可以增大ESP模块的有效接收域，同时减少网络参数的数量。重要的是，ESPNet-A的准确率随着K的增加而下降。例如，将K从2提高到8会导致ESPNet-A的准确率下降11%。准确性下降的部分原因是ESP模块的有效感受野超出了输入特征映射的大小。对于1024 × 512的图像，输入的特征图在空间级l = 2和l = 3的空间维数分别为256 × 128和128 × 64。但是，有些核的接收域较大(K = 8时为257 × 257)。这些核的权值对学习没有帮助，导致精度较低。在K = 5时，本文发现参数数量和精度之间有一个很好的权衡，因此，本文在实验中使用K = 5。
ESPNet-A → ESPNet-C:
- (上表e)将ESPNet-A中基于卷积的网络宽度扩展操作替换为ESPNet-B中的拼接操作，准确率提高了约1%，且网络参数数量没有明显增加。采用输入增强方法(ESPNet-C)后，ESPNet-B在没有大幅增加网络参数的情况下，准确率进一步提高了约2%。这可能是由于输入强化方法在输入图像和编码阶段之间建立了直接的联系，改善了信息的流动。
- 与本文的输入增强方法最接近的工作是[Learning to segment breast biopsy whole slide images]的输入感知融合方法，它学习下采样输入图像上的表示，并将它们与卷积单元相加结合。当本文提出的输入增强方法被[Learning to segment breast biopsy whole slide images]中的输入感知融合所取代时，准确率并没有提高，但网络参数的数量增加了约10%。
ESPNet-C → ESPNet:
- (上表f)在ESPNet- c中添加一个轻量级解码器将精度提高了约6%，而从ESPNet- c到ESPNet的参数数量和网络大小分别仅增加了20000和0.06 MB。

Conclusion

提出了一种基于空间金字塔模块的语义分割网络ESPNet。除了传统指标之外，本文还引入了一些新的系统级指标，这些指标有助于分析CNN网络的性能。本文的实证分析表明，espnet是快速和有效的。本文还演示了ESPNet可以很好地学习对象的泛化表示，并在自然数据集中表现良好。

A Hardware Details

本文的实验用了三台机器。下表总结了关于这些机器的详细信息。边缘设备上的计算平台(例如Jetson TX2)在CPU和GPU之间共享全局内存或RAM，而笔记本和桌面设备有专用的CPU和GPU内存。
NVIDIA Jetson TX2可以在不同的模式下运行。在性能模式(Max-P)中，TX2中所有的CPU核都是启用的，而在正常模式(Max-Q模式)中，6个CPU核中只有4个是活动的。在这些模式下，CPU和GPU的时钟频率是不同的，因此，应用程序在不同的模式下会有不同的功耗需求。

B The path from ESPNet-A to ESPNet

ESPNet的不同变体如下图所示。第一种变体ESPNet-A(图8a)是一种标准网络，它以RGB图像为输入，并使用ESP模块学习不同空间层次的表示，以产生分割掩码。第二种ESP - b(图8b)通过在之前的跨步ESP模块和之前的ESP模块之间共享特征映射，改善了ESP - a内部的信息流。第三种变体，ESPNet-C(图8c)，加强了ESPNet-B内部的输入图像，以进一步改善信息的流动。这三种变量产生的输出的空间维度是输入图像的1 / 8。第四种变体，ESPNet(图8d)，在ESPNet- c中增加了一个轻量级解码器(使用简化采样原理构建)，输出与输入图像相同空间分辨率的分割掩码。接下来将讨论用于构建ESPNet(从ESPNet- a到ESPNet)的构建模块函数。
从ESPNet- a到ESPNet的路径。红色和绿色色框分别代表负责下采样和上采样操作的模块。空间级别的l在(a)中的每个模块的左侧。我们将每个模块表示为(#输入通道，#输出通道)。这里，convn表示n × n卷积。
Efficient down-sampling:
- 最近的CNN架构在降采样操作中使用了大步卷积而不是池化操作，因为它允许学习非线性的降采样操作，同时允许扩展网络宽度。标准的跨步卷积运算是昂贵的;因此，它们被跨步式ESP模块所取代，以实现降采样。
- ESP模块学习非线性降采样操作时，用n × n步卷积代替了逐点卷积。通过降采样操作改变特征图的空间维度。在[Deep residual learning for image recognition,Densely connected convolutional networks]之后，本文没有在降采样操作中使用跳接连接来组合输入和输出特征映射。
- 通过步进卷积和步进ESP学习到的参数个数分别为 $n^2MN$ 和 $\frac{n^2MN}{ K} + (\frac{n^2 N^2}{K^2}·K )$ ,分别。通过将步进卷积表示为步进ESP进行降采样，所需参数数量减少 $\frac{KM}{M+N}$ 倍，有效接收域增加约 $2^{K−1}]^2$ 倍。本文将这个网络称为ESPNet-A(上图a)。
Network width expansion:
- 为了保持每个空间层次的计算复杂度，传统的CNNs在每次下采样操作后都会将网络宽度扩大一倍，通常使用卷积运算。接下来[Densely connected convolutional networks]，本文将从前一个跨步ESP模块接收到的特征映射与前一个ESP模块连接起来，以增加网络的宽度，如上图b中弯曲箭头所示。串联操作在同一空间层次上建立了输入和输出之间的远距离连接，因此改善了网络内部的信息流动。本文将这个网络称为ESPNet-B(上图b)。
Input reinforcement:
- 由于下采样和卷积操作，空间信息丢失。为了进行补偿，本文在网络内部强化输入图像。本文对输入图像进行下采样，并将其与前一个跨步ESP模块和前一个ESP模块的特征映射进行连接。将带输入增强的ESPNet-B称为ESPNet-C(上图c)。由于输入的RGB图像只有3个通道，因此由于输入增强而增加的网络复杂性是最小的。
Depth multiplier α:
- 为了在不改变网络拓扑结构的情况下构建具有较深计算效率的边缘设备网络，本文引入了超参数α来控制网络的深度。该参数α在空间级l重复ESP模块αl次。在更高的空间级，即l = 0和l = 1, cnn需要更多的内存，因为在这些空间级l = 0和l = 1时，特征图的空间维数较高。为了节省内存，不会在这些空间级别上重复ESP或卷积模块。
- 当本文改变这些参数的值时，网络所需的计算资源数量也会改变。下图显示了αl,l ={2,3}对网络参数及其大小的影响。随着α2的增加，网络的大小增加，但对参数的数量影响很小。当α3增大时，网络的大小和参数的数量都增加。参数的数量和网络的大小都应该随着深度的增加而增加。因此，为了创建深度和高效的ESPNet网络，本文固定α2的值，改变α3的值。
- 深度乘数α2和α3在创建高效网络中的关系。这里，圈大小∝网大小。
RUM for efficient decoding:
- ESPNetC输出的空间分辨率是输入图像尺寸的1 / 8。直接对特征图进行上采样，比如使用双线性插值，可以在标准度量上给出很好的精度，但输出通常是粗糙的。
- 采用一种自下而上的方法(例如[A deep convolutional encoder-decoder architecture for image segmentation,U-net])，使用一个简单的规则:Reduce-UpsampleMerge (RUM)来聚合ESPNet-C学习到的多层次信息。Reduce:将空间层次l和l−1的特征映射投影到C维空间，C代表数据集中类的数量。上采样:使用2×2反卷积核对空间级l的简化特征映射上采样2倍，使其具有与l - 1级特征映射相同的空间维度。合并:l级的上采样特征映射通过拼接操作与l−1级的c维特征映射相结合。重复这个过程，直到特征图的空间维度与输入图像相同。我们将这种网络称为ESPNet(上图d)。

C Top-10 Kernels in ESPNet, ENet, and ERFNet

卷积操作使用高度优化的通用矩阵乘法(GEMM)操作和im2col等内存重新排序操作来实现。对于快速高效的网络，GEMM操作对应的内核应该对计算资源利用率有较高的贡献。
下图显示了ENet、ERFNet和ESPNet执行的前10个内核。本文可以看到，在ESPNet中排名TOP1的内核是GEMM，它大约占总计算时间的38%。由于卷积操作是使用GEMM内核实现的，这表明ESPNet可以有效地利用TX2中有限的计算资源。
该图显示了前10个内核及其对计算资源利用率的贡献。TOP1内核用绿色突出显示。
同样，ENet中排名第一的内核也是GEMM;然而，该内核对计算的贡献不如ESPNet那么大。这就是为什么ENet对GPU频率的敏感度较低，并且在NVIDIA TitanX上的运行速度比ESPNet慢1.27倍，而在NVIDIA TX2上的运行速度几乎相同。另一方面，ERFNet中排名第一的内核是内存对齐内核。这表明ERFNet会被内存操作阻塞。

D Image Size vs. Inference Speed

下图总结了图像大小对推理速度的影响。在较小的图像分辨率(224x224和640x360)下，ESPNet比ENet和ERFNet更快。然而，对于高分辨率的图像，ESPNet提供了与ENet相似的推断速度。本文假设ESPNet的瓶颈是由于TX2设备上有限和共享的资源。本文注意到，ESPNet在高端设备(如笔记本和桌面)上处理高分辨率图像的速度比ENet快。
The impact of image size on the inference speed on an edge device

E Resource Utilization Plots for ENet, ERFNet, and ESPNet

下图显示了ENet、ERFNet和ESPNet的TX2资源(CPU、GPU和内存)随时间的利用率。数据是在Max-Q模式下使用Tegrastats收集的。这些网络是吞吐量密集型的，因此，GPU利用率很高，而CPU利用率很低。注意，平均CPU利用率低于25%;这表明这些网络只使用可用的4个CPU内核中的一个，如果在TX2上运行其他应用程序，可以将其绑定到单个CPU内核，从而更好地利用CPU资源。这些网络的内存利用率有很大不同。与ENet和ERFNet相比，ESPNet的内存占用较低，这表明ESPNet适合内存受限的设备。
这个图比较了NVIDIA Jetson TX2上的CPU利用率。对于ESPNet，使用α2 = 2。在这里，1.0表示100%的CPU利用率。
这个图比较了NVIDIA Jetson TX2上的GPU利用率。对于ESPNet，使用α2 = 2。在这里，1.0代表100%的GPU利用率。
这个图比较了NVIDIA Jetson TX2上的内存利用率。对于ESPNet，使用α2 = 2。TX2上最大可用内存为8gb，由CPU和GPU共享。
回想一下，α2 = 2和α3 = 8的ESPNet学习到的参数数量与ENet相同。然而，ESPNet的内存占用比ENet低(上图);说明ESPNet的内存效率更高，可以有效地利用共享内存。

F Results on the Cityscape and the Mapillary Dataset

下表给出了Cityscape数据集上的分类和分类结果的汇总，
- Cityscape数据集的比较。与其他网络的比较，请参阅城市景观排行榜: https://www.cityscapes-dataset.com/benchmarks/
而下表给出了Mapillary数据集上的分类结果。尽管ERFNet在每个类上都优于ENet和ESPNet，但它在Mapillary数据集上的表现很差。
- $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-01FXHZDP-1663055676749)(C:\Users\WDQ\AppData\Roaming\marktext\images\2022-08-23-15-27-58-image.png)]$
- 在Mapillary验证集上进行分类比较。ESPNet学习了对象的广义表示，并且在野外表现优于ENet和ERFNet。
特别是，ERFNet很难在Mapillary数据集上对简单的类进行分类，例如sky，而在这些类上，ENet和ESPNet表现得相对较好。我们注意到，ESPNet学习了关于对象的良好泛化表示，并且表现良好，即使在野外。下图分别给出了Cityscape和Mapillary数据集的定性结果。

你可能感兴趣的:(论文笔记,深度学习,轻量化语义分割,计算机视觉,espnet,空洞卷积)

【Ubuntu20.04】配置深度学习环境糊涂懿深度学习人工智能
参考Ubuntu20.04配置深度学习环境（全网最细最全）NVIDIA显卡驱动安装安装CUDA通过终端nvidia-smi查看自己能安装的最高CUDA版本，在官方网址下载需要的版本。安装cuDNN在官方网址选择适配于自己安装的CUDA版本的cuDNN安装Anaconda（借用一下这张图）InstallerType那里一定要选择第三个runfile，可以选择不再安装NVIDIA驱动了，最后一个初始化
AI深度学习项目-yolo4_tiny 垃圾分类识别系统毕设宇航 yolov4 垃圾识别 QQ767172261
项目概述目标本项目旨在开发一个高效的垃圾分类识别系统，利用深度学习技术特别是YOLOv4-tiny版本来实现垃圾的自动分类。YOLOv4-tiny作为YOLOv4的一个轻量化版本，在保证较高精度的同时，能够提供更快的检测速度，非常适合资源受限的设备或者要求实时性的应用场景。技术栈深度学习框架：PyTorch目标检测算法：YOLOv4-tiny编程语言：Python硬件加速：GPU（如果可用）功能特
计算机视觉之 GSoP 注意力模块 Midsummer-逐梦计算机视觉（CV）深度学习机器学习人工智能
计算机视觉之GSoP注意力模块一、简介GSopBlock是一个自定义的神经网络模块，主要用于实现GSoP（GlobalSecond-orderPooling）注意力机制。GSoP注意力机制通过计算输入特征的协方差矩阵，捕捉全局二阶统计信息，从而增强模型的表达能力。原论文：《GlobalSecond-orderPoolingConvolutionalNetworks(arxiv.org)》二、语法和
opencv-python 图像增强十七：泊松图像融合 CV-King opencv python 人工智能算法计算机视觉 numpy
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、概述二，实现：前言在深入探讨图像处理与计算机视觉领域的过程中，我们不禁对图像融合技术的精妙与实用性感到着迷。图像融合不仅是一项融合了美学与科学的技术手段，它还巧妙地将来源各异、特性不同的图像数据整合为一体，从而生成视觉上连贯且富含信息的合成图像。本篇博客文章旨在详尽解析OpenCV库中的一项高级功能cv2.seamle
Clobotics 计算机视觉场景存储实践：多云架构、 POSIX 全兼容、低运维的统一存储 Juicedata 计算机视觉架构运维
Clobotics是一家将计算机视觉和机器学习技术应用于风电以及零售行业的企业。在风电行业，Clobotics利用无人机对风力发电机叶片进行检查，显著降低了对人工作业的依赖。在零售领域，公司通过分析捕获的包装商品图像来提供基于实时数据的洞察，以增加销售额并减少运营成本。存储方面，Clobotics原本直接使用云SDK，而部分系统则使用了内部的封装器，没有形成统一的存储层，同时还面临多云架构、海量小
一文讲清楚，AI、AGI、AIGC与AIGC、NLP、LLM，ChatGPT等概念 GPT-Hub 人工智能自然语言处理 agi gpt chatgpt 机器学习神经网络
本文旨在深入解析人工智能（AI）、通用人工智能（AGI）、人工智能生成内容（AIGC）、自然语言处理（NLP）、大型语言模型（LLM）以及ChatGPT等关键概念，并探讨它们在现代科技发展中的重要性和实际应用。1.AI（人工智能）人工智能（AI）是指通过计算机技术来模仿、扩展甚至超越人类智能的广泛领域。AI并不局限于一种特定的技术，而是涵盖了多种技术手段，包括机器学习和深度学习等子领域。AI的应用
深度学习100问28:什么是RNNLM(RNN语言模型）不断持续学习ing 人工智能自然语言处理机器学习
嘿，你知道RNNLM是啥不？简单来说，它就像是一个语言小魔法师。想象一下，RNNLM是一个特别会猜词的小伙伴。它的任务呢，就是预测一个句子出现的概率，或者当你给它一些上文的时候，它能猜出下一个词会是啥。它是怎么做到的呢？它有一个像魔法盒子一样的结构，由输入层、隐藏层和输出层组成。输入层就像是接收魔法信号的入口，把词的表示，比如一些特别的编码或者词向量给接收进来。隐藏层可神奇啦，它就像有个记忆小口袋
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
自动化动画生成——MagicAnimate 爱研究的小牛 AIGC 人工智能
MagicAnimate是一个创新的动画制作工具，旨在通过利用先进的人工智能技术简化动画创作过程，提供高效、便捷的动画制作解决方案。MagicAnimate的实现技术结合了多种先进的人工智能和计算机视觉技术，如计算机视觉和深度学习技术，为动画创作者提供了一个强大的工具平台，旨在简化和增强动画创作过程。其主要特点包括：自动化动画生成：利用AI技术从静态图像或视频生成动画效果。多功能编辑工具：提供丰富
NeRF学习——NeRF初步认识 PLUS_WAVE CV cv python 计算机视觉 NeRF AI 机器学习神经网络
NeRFNeRF，全名为NeuralRadianceFields，是一种基于深度学习的三维场景隐式表示和渲染方法1NeRF的基本概念1.1辐射场表示场景NeRF的核心思想是通过神经网络训练出来的辐射场对场景进行隐式表示。这种表示方式与传统的使用体素、网格或点云的显式表示不同，NeRF将整个场景看作一个连续的函数，即RadianceFieldsF(x,d)=(σ,c)F(\bfx,d)=(\sigm
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
深度学习(二) 小泽爱刷题深度学习人工智能
CuDNN（CUDADeepNeuralNetworklibrary）是NVIDIA为加速深度学习计算而开发的高性能GPU加速库，专门优化了深度神经网络（DNN）的常见操作，如卷积、池化、归一化和激活函数等。CuDNN的主要作用是通过利用GPU的并行计算能力，提高深度学习模型在GPU上的运行效率。CuDNN的作用加速卷积操作：卷积操作是深度学习中特别是在卷积神经网络（CNN）中最重要且最计算密集的
深度学习(一) 小泽爱刷题深度学习人工智能
稀疏激活是ReLU函数的一个重要特性，它使得在前向传播和反向传播过程中，网络的计算变得更加高效。大多数神经元的激活值为0可以减少计算和存储开销，从而提高训练效率。sigmoid适用于常用于二分类任务的输出层，因为它能将输出值压缩到[0,1]之间，表示概率值。非零均值:输出值总是非零，这可能会导致训练过程中较慢的收敛。梯度消失问题:当输入值很大或很小时，梯度接近于0，导致训练过程中梯度更新变得缓慢。
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
生成式AI：图像填充进入新纪元百度_开发者中心程序人生
在当今数字化时代，人工智能（AI）正在不断推动科技发展的边界。最近，Adobe公司推出了了一项令人兴奋的新功能——GenerativeFill，它将帮助用户在Photoshop中更加便捷地填充和生成图像。与此同时，生成式AI的发展也将深刻改变电脑架构，引领我们进入一个更加智能和高效的工作环境。首先，让我们来了解一下GenerativeFill。这是一项基于深度学习的技术，它能够根据用户提供的的少量
生成式AI：创造性智能的新纪元 Lill_bin 杂谈人工智能分布式 zookeeper 机器学习算法
引言随着人工智能技术的飞速发展，生成式AI（GenerativeAI）已经成为一个引人注目的领域。它不仅仅是模仿人类行为，而是通过学习大量的数据，创造出全新的内容，如文本、图像、音乐等。本文将探讨生成式AI的基本原理、应用领域以及它对未来社会可能产生的影响。什么是生成式AI？生成式AI是一种利用机器学习算法，特别是深度学习技术，来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似，但又
【AIGC未来的发展方向】面向人工智能的第一步，一文告诉你人工智能是什么以及未来的方向分析洛神灬殇
人工智能的概念当人们提到“人工智能（AI）”时，很多人会想到机器人和未来世界的科幻场景，但AI的应用远远不止于此。现在，AI已经广泛应用于各种行业和生活领域，为我们带来了无限可能。AI是一个广泛的概念，它包括很多不同的技术，例如机器学习、深度学习、自然语言处理等等。这些技术都具有不同的功能和应用。机器学习是一种基于数据的人工智能技术，它可以让计算机根据大量的数据进行自我学习和优化。通过机器学习，计
javacv从入门到精通——第三章：基本使用 ayou_llf javacv java opencv 语音识别音视频视频编解码
了解javacv的基本结构JavaCV的基本结构如下：JavaCV核心类：JavaCV核心类是JavaCV库的核心，它包括了JavaCV的所有功能和特性，可以用来进行计算机视觉和人工智能任务的开发和实现。JavaCV核心类的主要功能包括：视频捕获、视频编解码、图像处理、人脸检测、特征提取等。基本数据类型：JavaCV库支持多种基本数据类型，包括整数、浮点数、布尔类型等，这些基本数据类型是进行计算机
【前端面试】React深度学习（下）贾明恣前端面试专栏前端面试 react.js
render阶段：构建Fiber树Fiber节点是如何被创建并构建Fiber树的render阶段的工作可以分为“递”阶段和“归”阶段。“递”阶段会执行beginWork:根据传入的Fiber节点创建子Fiber节点，并将这两个Fiber节点连接起来。当遍历到叶子节点（即没有子组件的组件）时就会进入“归”阶段。“归”阶段会执行completeWorkbeginWorkcurrent：当前组件对应的F
灵感枯竭？ChatGPT助你轻松完成开题报告！芙蓉姐姐陪你写论文 AI论文人工智能 AI写作深度学习论文笔记论文阅读 chatgpt
在学术探索的征途中，撰写论文开题报告是一项至关重要的初步工作。这项工作不仅标志着您研究旅程的起点，也是展现您研究思路和方法论的关键时刻。ChatGPT，作为一款前沿的人工智能工具，将以其深度学习能力，成为您学术探索道路上的得力助手。搭建框架在学术写作中，一个坚实的理论框架是支撑整个研究的基石。ChatGPT能够基于您的研究领域和关键概念，提供深入的大纲设计建议。它将协助您梳理思路，确保报告的每个部
轻量化教学助力教育金塔224葛晓玮
互联网改变了社会，科技改变了生活。科技的创新下，不可忽略的是以人为中心的根本，在今天的课堂中，我们又一次听到了“轻量级”这个词，通过邵校长的讲解，我们更近一步的看到了“轻量级”这一新兴技术在教学中的运用。通过借助互联网的力量，解决了乡村学校缺少优质资源和专业教师的尴尬，让更多的农村学生接触到音体美等课程，使学生们都能够全面发展。在知识飞速发展的时代，让教师们也能够在这些轻量级软件中学习到更多新的知
Python深度学习（使用 LSTM 生成文本）--学习笔记（十八）呆萌的小透明深度学习神经网络深度学习
第8章生成式深度学习人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。的确，到目前为止，我们见到的人工智能艺术作品的水平还很低。人工智能还远远比不上人类编剧、画家和作曲家。但是，替代人类始终都不是我们要谈论的主题，人工智能不会替代我们自己的智能，而是会为我们的生活和工作带来更多的智能，即另一种类型的智能。在许多领域，特别是
【AIGC】ChatGPT 3.5/4.0 新手使用手册 @我们的天空 AIGC chatgpt AIGC gpt prompt AI写作文心一言 AI编程
欢迎大家来到我们的天空如果文章内容对您有所触动，别忘了点赞、关注，收藏！作者简介：我们的天空《头衔》：大厂高级软件测试工程师，阿里云开发者社区专家博主，CSDN人工智能领域新星创作者。《博客》：人工智能，深度学习，机器学习，python，自然语言处理，AIGC等分享。所属的专栏：TensorFlow项目开发实战，人工智能技术主页：我们的天空一、基本介绍ChatGPT是一种高级的语言模型，能够生成类
机器视觉-1 常用的机器视觉开发库 dingkm666 机器视觉机器学习
机器视觉-1常用的机器视觉开发库前言：工欲善其事必先利其器，选择一个合适的视觉开发库是在机器视觉领域的发展的重要基础。1.OpenCV（OpenSourceComputerVisionLibrary）简介:OpenCV是最著名和最广泛使用的开源计算机视觉库之一。由Intel于1999年开发，目前由OpenCV.org维护，支持C++、Python、Java和MATLAB等多种编程语言。功能:图像处
深度学习-OpenCV运用（3）红米煮粥深度学习 opencv 人工智能
文章目录一、简介二、OpenCV运用1.图片扩充2.图像阈值处理3.添加椒盐噪声三、总结一、简介深度学习（DeepLearning）与OpenCV（OpenSourceComputerVisionLibrary）的结合为计算机视觉领域带来了强大的解决方案。OpenCV是一个开源的计算机视觉和机器学习软件库，它提供了大量的视觉处理算法，包括但不限于图像和视频处理、特征检测、对象识别等。二、OpenC
基于示例详细讲解模型PTQ量化的步骤（含代码） LQS2020 卷积神经网络 python
详细探讨模型PTQ量化每个步骤，涉及更多的技术细节和实际计算方法，以便更好地理解PTQ（Post-TrainingQuantization，训练后量化）的全过程。1.模型训练我们假设已经训练了一个卷积神经网络（CNN），例如VGG-16。训练完成后，我们得到了一个以32位浮点数表示的模型权重和激活值。2.收集统计信息在量化之前，我们需要从模型中收集统计信息，以帮助确定量化的参数。收集权重和激活的统
灾难性遗忘问题（Catastrophic Forgetting，CF）是什么？ Chauvin912 机器学习算法科普学习方法
灾难性遗忘问题（CatastrophicForgetting，CF）是什么？在深度学习和人工智能领域中，“灾难性遗忘”（CatastrophicForgetting）是指当神经网络在增量学习（IncrementalLearning）或持续学习（ContinualLearning）过程中遇到新任务时，往往会显著遗忘之前所学的任务知识。这种现象在需要模型长期积累知识的应用场景中尤为显著，如自动驾驶、机
EmguCV学习笔记 C# 9.2 VideoWriter类 VB.Net C#EmguCV c#图像计算机视觉 emgucv opencv vb.net .net
版权声明：本文为博主原创文章，转载请在显著位置标明本文出处以及作者网名，未经作者允许不得用于商业目的。EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。教程VB.net版本请访问：EmguCV学习笔记VB.Net目录-CSDN博客教程C#版本请访问：EmguCV学习笔记C#目录-CSDN博客笔者的博客网址：https:/
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL