东荷新绿

你的轻量化设计能有效提高模型的推理速度吗？

写在前面：本博客仅作记录学习之用，部分图片来自网络，如需引用请注明出处，同时如有侵犯您的权益，请联系删除！

文章目录

前言
预备知识
- 模型指标
- MACs计算
- - 卷积MACs
  - 全连接MACs
  - 激活函数MACs
  - BN MACs
- 存储访问
- - 存储构成
  - 内存访问量
轻量化结构
- MobileNets
- ShuffleNet
- - ShuffleNet V1
  - ShuffleNet V1 - 代码实现
  - ShuffleNet V2
  - ShuffleNet V2 - 代码实现
- GhostNets
- - GhostNet V1
  - GhostNet V1 - 代码实现
总结
致谢
参考

前言

轻量化网络是指在保持较高性能的同时大大减少模型参数和计算量的神经网络模型。轻量化网络的出现是为了解决在移动设备和嵌入式系统等资源受限的环境中部署深度学习模型时所面临的挑战。

传统的深度学习模型通常包含大量的参数和复杂的计算结构，这使得它们在移动设备上运行时需要消耗大量的内存和计算资源。而轻量化网络通过精心设计结构和参数，可以在移动端实现更加高效的部署，从而适应移动设备上的应用需求。

因此轻量化网络的研究和发展是深度学习领域的一个重要方向，涉及网络结构设计、模型压缩、量化技术、剪枝等多个方面。通过对轻量化网络的研究，可以更好地适应各种应用场景的需求，推动深度学习技术向更广泛的领域拓展与应用。

相信不少小伙伴肯定经历过类似的情况，轻量化网络，参数减少极多，推理速度甚至不升反降。或者明明用了一些轻量化的网络结构，速度提升并不多，因此不妨反问自己以下问题：

利用深度可分离卷积，模型参数减少，浮点运算减少，推理速度真的也能提升吗？

利用多分支结构/并行结构降低了模型参数，真的能提高推理速度吗？

利用逐点卷积降低通道进而降低了模型参数和运算，真的能提高推理速度吗？

利用一些即插即用的轻量化网络设计就能有效提高推理速度吗？

答案是否定的。那如何才能有效的轻量化提高推理速度呢？影响网络推理速度的因素是什么？这些都会在本文中有所解释。

预备知识

模型的推理速度不仅和模型相关，也与内存的访存量相关，因此下文对其进行说明。

模型指标

Parameters： 表示模型参数数量以衡量模型大小，如卷积层中卷积核中参数与偏置参数。

FLOPS： "Floating Point Operations Per Second"的缩写，意为每秒浮点运算次数，通常衡量硬件性能。

FLOPs： "Floating Point Operations"的缩写，意为浮点运算数，通常衡量模型的计算复杂度。
常见的FLOPS的进制如下:

1 MFLOPS = $10^6$ FLOPS（megaFLOPS），等于每秒 $10^6$ 次的浮点运算。

1 GFLOPS = $10^3$ MFLOPS（gigaFLOPS），等于每秒 $10^9$ 次的浮点运算。

1 TFLOPS = $10^3$ GFLOPS（teraFLOPS），等于每秒 $10^{12}$ 次的浮点运算。

1 PFLOPS = $10^3$ TFLOPS（petaFLOPS），等于每秒 $10^{15}$ 次的浮点运算。

1 EFLOPS = $10^3$ PFLOPS（exaFLOPS），等于每秒 $10^{18}$ 次的浮点运算。

1 ZFLOPS = $10^3$ EFLOPS（zettaFLOPS），等于每秒 $10^{21}$ 的浮点运算。

Characterization and Benchmarking of Deep Learning

MACs： "Multiply–Accumulate Operations"的缩写，即乘加累积操作数，1MACs包含一个乘法操作与一个加法操作。

MACs和MAdds描述的是相同的内容。MAC 是 “Multiply–accumulate” 的缩写，MAdd 是 “Multiply-Add” 的缩写，都描述了乘法和加法结合的指令或运算，不同的处理器架构可能使用不同的术语，但它们都指向相同的概念。

一般来说，MACs与FLOPs存在一个2倍的关系， $2\times FLOPs = MACs$ ，因此在衡量网络时候， $\times FLOPs = n \times MACs$ ，其中 $m = 2 n$ 。在CNN中，卷积核与特征图的计算中加法计算次数总比乘法次数少一，。举个例子，对于卷积核K（大小为 $n\times n$ ）和特征F之间的一次计算： $\sum_{i=1}^{n^2} F_{local_i} \times K_i$ ，乘法次数 $n^2$ ，加法计算次数 $n^2-1$ ，也常将其近似为 $n^2MACs$ 。因为在多数硬件中的乘加运算与乘法、加法运算具有相同的指令周期以提高计算效率，如现代处理器中的 SIMD（Single Instruction, Multiple Data）指令集通常会包含乘加指令，以支持并行的数据处理操作。

ARM Cortex-A系列处理器：支持多种乘加指令，如VMLA（Vector Multiply Accumulate）和VFMA（Vector Fused Multiply Accumulate）等指令，用于执行SIMD操作，在单个时钟周期内完成多个数据元素的乘加运算。

Intel x86系列处理器：支持多种乘加指令，如FMA（Fused Multiply-Add）指令和AVX2指令集中的VFMADD指令，在单个时钟周期内完成多个浮点数的乘加运算，从而提高计算效率。

Nvidia GPU：Nvidia的GPU架构中支持多种乘加指令，如MAD（Multiply and Add）指令和FMA指令，可以在单个时钟周期内执行多个浮点数的乘加运算，并且支持并行计算，可以加速高性能计算和图形处理等任务。

MAC： “Memory Access Cost” 的缩写，即内存使用量，用来评价模型在运行时的内存占用情况。

MACs计算

卷积MACs

对于卷积核大小为K的传统卷积而言， $MACs = B ×K × K × C_{in} × H_{out} × W_{out }× C_{out}$ ，B是Batch-size，实际MAC需要根据填充和步长确认输出特征的大小。

深度可分离卷积是将传统卷积分解为分组卷积和逐点卷积，占用的内存要少得多，速度更快。深度可分离卷积的 MACs 总数为分组卷积 + 逐点卷积，默认输出特征尺度不变：
$MACs = K × K × C_{in} × H_{out} × W_{out } + 1 × 1 ×C_{in} × H_{out } × W_{out } × C_{out } =C_{in} × H_{out } × W_{out }× (K × K + C_{out })$

对于倒残差的结构，给定通道扩增因子 $Factor_{exp}$ ：
$MACs = C_{in} × H_{in} × W_{in} × C_{exp} + K × K × C_{exp} × H_{out} × W_{out} + C_{exp} × H_{out} × W_{out} × C_{out}$
$C_{in} × H_{in} × W_{in} × C_{exp} + (K × K + C_{out})×C_{exp} × H_{out} × W_{out}$
其中 $C_{exp} = C_{in} × Factor_{exp}$ ， $Factor_{exp}=2$ 时，与传统卷积的MACs相近。

全连接MACs

在全连接层中，所有输入都连接到所有输出。对于具有输入值为 $I$ 和输出值 $J$ 的全连接，其权重可以存储在 $I \times J$ 矩阵中。全连接层执行的计算为： $y = ma t m u l (x, W) + b$ ，其中 $x$ 是输入值的向量， $W$ 是包含层权重的 $I \times J$ 矩阵， $b$ 是偏差值。

为了计算 MACs 的数量，查看点积发生的位置，因此 MACs 的总数为 $I \times J$ ，与整个批次的权重矩阵的大小相同，此处批次大小为1。偏差不影响 MACs 的数量，在点积中的加法比乘法少一个，偏差值 $b$ 只会被吸收到最终的乘法累加中。

注意：全连接层的公式是在没有显式偏置值的情况下编写的。在这种情况下，偏差向量作为一行添加到权重矩阵中以使其成为 $(I + 1) \times J$ ，会增加额外的乘法，MACs的数量都不会受到太大影响，此时MACs仅仅是一个近似值。意味着，全连接需要 $I \times J$ MACs 或者 $(2 I - 1) \times J$ FLOPS。

激活函数MACs

激活函数
通常，卷积后面跟着一个非线性激活函数，例如 ReLU 或 Sigmoid，激活函数需要时间，但一般使用 FLOPs 来衡量，因为其不是点积，即乘加运算。
ReLU ： $y = ma x (x, 0)$ ，是 GPU 上的单个操作，同时激活函数仅应用于输出，在具有J个输出神经元的全连接层上，ReLU 使用这些计算，将其计算为为 J FLOPs。

Sigmoid 激活的成本更高： $y = 1/ (1 + e x p (- x))$ 。在计算 FLOPs时，通常将加法、减法、乘法、除法、幂、平方根等算作一个 FLOP。由于Sigmoid 函数中有四个不同的操作，因此这将计为每个输出 4 个 FLOPs，或者总层输出的J × 4 FLOPS。这就是MobileNets发展与总结提到为什么使用h-swish代替swish的原因，实际上，忽略激活函数的计算代价是很常见的，因为它们只占用总时间的一小部分，绝大多数情况下不会成为计算瓶颈。

BN MACs

在现代网络中，通常在每个卷积层之后包含一个 BN 层。批量归一化将以下公式应用于每个输出值： $\gamma * (y - mean) / sqrt(variance + \epsilon) + \beta$ ；其中y是上一层输出特征图中的一个元素，首先通过减去该输出通道的并除以标准差来规范化此值， $\epsilon$ 用于确保分母不为0，然后按 $\gamma$ 进行缩放并添加偏差 $\beta$ 。

每个通道都有的 gamma, beta, mean，variance ，因此如果卷积层有C个输出通道，则批量归一化层有C×4个可学习的参数。通常，BN应用于卷积层的输出，但在非线性 ReLU 之前，可以一些数学运算，使批处理范数层消失！如下：

换句话说，可以将BN的学习参数“折叠”到前一个卷积/全连接层的权重中。在上面的公式中，表示来自上一层的单个输出值y，进一步的：

$\gamma * ((x[0]*w[0] + x[1]*w[1] + ... + x[n-1]*w[n-1] + b) - mean) / sqrt(variance + \epsilon) + \beta$

其中， $x$ 表示输入数据， $w$ 是该层的权重， $b$ 是该层的偏差值。

为了将BN参数折叠到前一层中，重写这个方程，以便gamma, beta, mean, and variance仅适用于w和b但其中没有x，改写后：

$w_{new}[i] = w[i] * \gamma / sqrt(variance + \epsilon)$
$b_{new }= (b - mean) * \gamma / sqrt(variance + \epsilon) + \beta$
其中 $w_{new}[i]$ 是第 i 个权重的新值， $b_{new }$ 是偏差的新值。

将这些值用于卷积层或全连接层的权重，得到：
$z = x[0]*w_{new}[0] + x[1]*w_{new}[1] + ... + x[n-1]*w_{new}[n-1] + b_{new}$

一般来说，紧跟 BN的网络层本身通常没有偏差b，因为 BN层已经提供了一个 $\beta$ 公式 $b_{new}$ 变得更简单一些（设置 $\beta = 0$ ）：
$b_{new} = \beta - mean * \gamma / sqrt(variance + \epsilon)$

因此，即使原始层没有偏差，它也会通过折叠的批量范数层获得偏差。总而言之，可以忽略BN的计算量影响。注意：上述只适用于顺序为：卷积、BN、ReLU 时才有效，甚至很多深度学习框架通常已经进行了优化集成。

存储访问

存储构成

系统存储：

L1/L2/L3：多级缓存，其位置一般在CPU芯片内部；

System DRAM：片外内存，内存条；

Disk/Buffer：外部存储，如磁盘或者固态硬盘。

GPU设备存储：

L1/L2 cache：多级缓存，其位置在GPU芯片内部；

GPU DRAM：通常所指的显存；

传输通道：

PCIE BUS：PCIE标准的数据通道，数据就是通过该通道从显卡到达主机；

BUS：总线。计算机内部各个存储之间交互数据的通道；

PCIE-to-PCIE：显卡之间通过PCIE直接传输数据；

NVLINK：显卡之间的一种专用的数据传输通道

内存访问量

内存访问量 ：通常涉及到两个主要方面：内存中数据的大小和访问模式。以下是一些常见的计算方式：

数据大小： 首先需要确定要访问的数据的大小，可以是单个变量、数组、结构体或其他数据结构，常以字节为单位进行计量。
访问模式： 内存访问模式包括顺序访问、随机访问、连续访问等。不同的访问模式可能会对内存访问量产生不同的影响。

顺序访问：数据按照地址的顺序被访问，每次访问将会取得相邻的数据，可以最大限度地利用 CPU 缓存，减少内存访问量。

随机访问：数据的访问是随机的，可能会导致更多的缓存未命中，增加内存访问量。

一般来说，内存访问量可以通过以下公式进行估算：
$\text{内存访问量} = \text{数据大小} \times \text{访问次数}$

对于GPU来说，内存访问量的计算方式与CPU有些不同。GPU的内部存储系统通常包括全局内存、共享内存和局部内存、L1/L2Cacha、寄存器（register）等。在GPU中，计算密集型任务通常会涉及大规模数据的并行处理，因此内存访问成为性能的一个关键因素。以下是一些与GPU内存访问量相关的因素：

全局内存访问： 全局内存是GPU中最大容量的内存，用于存储数据和指令，能被设备内的所有线程访问、全局共享。与CPU相比，GPU的全局内存访问速度较慢，因为运算单元不能直接的使用全局内存的数据，需要经过缓存。因此通过减少访问次数和访问的数据量来降低全局内存的访问量可以提高性能。

共享内存访问： 共享内存是GPU中每个线程块（Thread Block）共享的高速缓存，可以用于加速数据共享和通信。与全局内存相比，共享内存的访问速度更快。因此，在设计GPU程序时，可以尝试将频繁访问的数据放入共享内存中，以减少全局内存的访问量。

局部内存访问： 局部内存是每个线程私有的内存空间，在需要时可以用来存储临时数据，主要是用来解决当寄存器不足时的场景，即在线程申请的变量超过可用的寄存器大小的空间。与全局内存和共享内存相比，局部内存的访问速度较慢。因此，在GPU程序中，应尽量避免频繁地访问局部内存。

寄存器访问：线程能独立访问的资源，它所在的位置与局部内存不一样，是在片上（on chip）的存储，用来存储一些线程的暂存数据。寄存器的速度是访问中最快的，但是它的容量较小。

L1/L2缓存访问：L1/L2缓存的访问方式通常是由硬件自动管理的，其主要目的是尽可能地减少对主内存的访问。当GPU需要访问存储在主内存中的数据时，它首先会检查L1/L2缓存中是否存在该数据。如果存在，则可以直接从缓存中读取，而无需访问主内存。如果不存在，则必须从主内存中加载数据，并将其存储在L1/L2缓存中以供后续使用。

在GPU编程中，优化内存访问量是非常重要的，特别是对于大规模并行计算任务。减少内存访问量可以提高程序性能和效率。为了减少GPU内存访问量，可以考虑以下几个方面：

内存访问模式： 尽可能地利用局部性原理，例如空间局部性和时间局部性，以减少不必要的内存访问。优化内存访问模式可以减少数据传输和提高数据重用率。

数据布局： 合理安排数据的存储方式，使得数据在访问时可以保持连续性或者最小化跨界访问，从而减少内存访问量。

内存层次结构： 充分利用GPU内存的层次结构，尽可能使用快速访问的内存，如共享内存，以减少对全局内存的访问。

避免内存闪烁： 在GPU编程中，内存闪烁指的是频繁地在全局内存和其他内存之间进行数据传输，这会增加内存访问量和延迟。尽量减少内存闪烁可以降低内存访问量。

总之，优化GPU内存访问量需要综合考虑数据访问模式、数据布局、内存层次结构等因素，并根据具体的应用场景和硬件特性进行相应的优化策略。

轻量化结构

MobileNets

可移步MobileNets发展与总结，此处不过多赘述。总言之，使用分组卷积和逐点卷积替代传统的卷积，降低了网络的参数和FLOPs。

ShuffleNet

ShuffleNet V1

ShuffleNet V1： ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
论文速递： 点击转跳

构建更深更大的卷积神经网络是解决主要视觉识别任务的主要趋势。最精确的CNN通常有数百层和数千个通道，因此需要数十亿FLOPs的计算。在非常有限的计算预算中，以数十或数百MFLOPs追求最佳精度是不切实际的，如无人机、机器人和智能手机等常见移动平台。

MobileNet利用深度可分离卷积，ShuffleNet以一种新的形式推广了分组卷积和深度可分卷积，对于给定的计算复杂度预算，允许更多的特征映射通道，有助于编码更多的信息，对非常小的网络的性能尤其重要，如下图，需要注意的是比常规的残差少一个Relu。

叠加分组卷积会导致来自某个通道的输出仅来自一小部分输入通道，如图(a)。如果允许分组卷积从不同的群体中获取输入数据，则输入和输出通道将完全相关。具体来说，对于前一层组层生成的特征映射，先将每一组中的通道划分为几个子组，然后为下一层的每一组提供不同的子组。

进而通过通道洗牌操作(图c)实现：假设一个卷积层具有g个组，其输出具有 $g \times n$ 个通道；首先将输出通道维度重塑为 $(g, n)$ ，转置然后将其平坦化，作为下一层的输入，信道洗牌是可微的，可进行端到端训练。

Xception和ResNeXt等在构建块中引入了高效的深度可分离卷积或分组卷积，从而在表示能力和计算成本之间取得了很好的平衡。在此进行对比，给定输入大小 $c \times h \times w$ 和瓶颈通道 $m$ ， $g$ 是分组数：

ResNet的MACs = $1×1×c×h×w×m + 3×3×m×h×w×m+1×1×m×h×w×c = hw(2cm + 9m^2)$

ResNeXt的MACs = $1×1×c×h×w×m+3×3×m/g×h×w×m + 1×1×m×h×w×c = hw(2cm + 9m^2/g)$

ShuffleNet的MACs = $1 \times 1 \times c / g \times h \times w \times m + 3 \times 3 \times m / m \times h \times w \times m + 1 \times 1 \times m / g \times h \times w \times c = h w (2 c m / g + 9 m)$

尽管深度卷积通常具有非常低的理论复杂度，但很难在低功耗的移动设备上有效地实现，这可能是由于与其他密集操作相比，计算/内存访问比更差。在ShuffleNet单元中，只在瓶颈上使用深度卷积，以尽可能地避免开销，因此只是简单的使用深度可分离卷积只能降低网络参数（MobileNets发展与总结中有对其参数的计算），实际的推理速度并不一定提高。

ShuffleNet V1 - 代码实现

import torch
import torch.nn as nn
import torch.nn.functional as F

class ShuffleV1Block(nn.Module):
    def __init__(self, inp, oup, *, group, first_group, mid_channels, ksize, stride):
        super(ShuffleV1Block, self).__init__()
        self.stride = stride
        assert stride in [1, 2]

        self.mid_channels = mid_channels
        self.ksize = ksize
        pad = ksize // 2
        self.pad = pad
        self.inp = inp
        self.group = group

        if stride == 2:
            outputs = oup - inp
        else:
            outputs = oup

        branch_main_1 = [
            # pw
            nn.Conv2d(inp, mid_channels, 1, 1, 0, groups=1 if first_group else group, bias=False),
            nn.BatchNorm2d(mid_channels),
            nn.ReLU(inplace=True),
            # dw
            nn.Conv2d(mid_channels, mid_channels, ksize, stride, pad, groups=mid_channels, bias=False),
            nn.BatchNorm2d(mid_channels),
        ]
        branch_main_2 = [
            # pw-linear
            nn.Conv2d(mid_channels, outputs, 1, 1, 0, groups=group, bias=False),
            nn.BatchNorm2d(outputs),
        ]
        self.branch_main_1 = nn.Sequential(*branch_main_1)
        self.branch_main_2 = nn.Sequential(*branch_main_2)

        if stride == 2:
            self.branch_proj = nn.AvgPool2d(kernel_size=3, stride=2, padding=1)

    def forward(self, old_x):
        x = old_x
        x_proj = old_x
        x = self.branch_main_1(x)
        if self.group > 1:
            x = self.channel_shuffle(x)
        x = self.branch_main_2(x)
        if self.stride == 1:
            return F.relu(x + x_proj)
        elif self.stride == 2:
            return torch.cat((self.branch_proj(x_proj), F.relu(x)), 1)

    def channel_shuffle(self, x):
        batchsize, num_channels, height, width = x.data.size()
        assert num_channels % self.group == 0
        group_channels = num_channels // self.group
        
        x = x.reshape(batchsize, group_channels, self.group, height, width)
        x = x.permute(0, 2, 1, 3, 4)
        x = x.reshape(batchsize, num_channels, height, width)

        return x

代码来源

ShuffleNet V2

ShuffleNet V2： ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design
论文速递： 点击转跳

除了精度之外，计算复杂度是另一个重要的考虑因素。现实世界的任务通常旨在在目标平台(如硬件)和应用场景(如自动驾驶需要低延迟)给定的有限计算预算下获得最佳精度，激发了一系列朝着轻量化架构设计和更好的速度-精度权衡的工作，包括Xception， MobileNet， MobileNet V2， ShuffleNet，分组卷积和深度卷积在其中应用广泛。

间接指标(FLOPs)和直接指标(速度)度量之间的差异可归因于两个主要原因。首先，FLOPs没有考虑对速度有很大影响的几个重要因素。其中一个因素是内存访问成本(MAC)，在某些操作(如分组卷积)中，该成本占运行时的很大一部分，如下图。另一个是因素并行度，在相同的FLOPs下，具有高并行度的模型可能比具有低并行度的模型快得多。

其次，根据平台的不同，具有相同FLOPs的操作可能有不同的运行时间。如，早期的作品广泛使用张量分解来加速矩阵乘法，但是最新的CUDNN库专门针对3 × 3卷积进行了优化，导致张量分解在GPU上甚至更慢，当然也不能天真不能认为3 × 3卷积比1 × 1卷积慢9倍。

综上两点，有效的网络架构设计应该考虑如下两个原则：

使用直接指标来衡量网络(如推理速度)，而不是间接度量(如FLOPs或参数量)。

在目标平台上进行评估，因为不同的硬件设备的优化可能存在较大差异。

ShuffleNet V2设计灵感来源于ShuffleNet，故称为ShuffleNet V2，主要基于下列四个设计点：

相同的通道宽度最小化内存访问成本(MAC)： 现代网络通常采用深度可分离卷积，其中逐点卷积(即1 × 1卷积)占据了大部分复杂度，其中主要由两个参数指定：输入通道数 $c_1$ 和输出通道数 $c_2$ ，设h和w为特征图的宽高，则1 × 1卷积的FLOPs为 $B = h×w×c_1×c_2$ 。

不妨假设计算设备中的缓存足够大，可以存储整个特征映射和参数。因此，内存访问成本(MAC)，或者内存访问操作的次数，是 $MAC = h×w×(c_1+c_2)+c_1×c_2$ 。

读取输入特征映射的内存访问次数： $h×w×(c_1+c_2)$

读取参数矩阵的内存访问次数： $c_1 × c_2$

$\geq 2 h w\sqrt { c_1 c_2 } + c_1 c_2= 2 \sqrt { h w B } + \frac { B } { h w }$

因为 $\geq 2 \sqrt { ab}$ ，在 $a = b$ 取得等号，因而上述不等式在 $c_1 =c_2$ 取得等号

MAC有一个由FLOPs给出的下界，当且仅当输入和输出通道的数量相等时，它达到下界。结论是理论性的。实际上，许多设备上的缓存不够大。现代计算库通常采用复杂的阻塞策略来充分利用缓存机制。因此，实际MAC可能会偏离理论MAC。实验发现，如下表（单位时间的Batch越大速度越快），总FLOPs通过改变通道数来固定，当 $c_1: c_2$ 趋近于1:1时，MAC越小，网络评估速度越快。

过多的分组卷积会增加MAC：
分组卷积是现代网络架构的核心，通过将所有信道之间的密集卷积变为稀疏(仅在信道组内)来降低计算复杂度(FLOPs)。一方面，它允许在给定固定FLOPs的情况下使用更多的通道，并增加网络容量(从而提高精度)。但是通道数量的增加导致MAC的增加。

形式上，1 × 1分组卷积的MAC和FLOPs之间的关系为
$\frac { c _ { 1 } c _ { 2 } } { g } = h w c _ { 1 } + \frac { B g } { c _ { 1 } } + \frac { B } { h w }$

其中 $g$ 为组数， $B = hwc_1c_2/g$ 为FLOPs。给定固定的输入形状 $c_1 × h × w$ 和计算成本B, MAC随着 $g$ 的增长而增加，实验如下：

很明显，使用较大的组数会显著降低运行速度。在GPU上使用8组比使用1组(标准密集卷积)慢两倍多，在ARM上慢30%，这主要是由于MAC的增加。

因此，建议根据目标平台和任务，慎重选择分组数量，一味大的组数是不明智的，大组数带来的参数减小，FLOPs减小，准确性提高的优点很容易被增加的MAC成本所抵消，表现在推理速度不增反降。

网络碎片降低了并行度： 在GoogLeNet系列和自动生成的体系结构中，在每个网络块中广泛采用“多路径”结构。使用了许多小的操作符(“碎片操作符”)，而不是几个大的操作符。如，在NASNET-A中，碎片操作符的数量(即在一个构建块中单个卷积或池化操作的数量)为13，在像ResNet的规则结构中则是2或3。

碎片化结构已被证明有利于准确性，但它可能会降低效率，因为它对GPU等具有强大并行计算能力的设备不友好，此外还引入了额外的开销，如内核启动和同步，相信炼丹大师都有所体会，论文中的实验如下：

从上表结果可以看出，碎片化显著降低了GPU上的速度，如4-fragment结构比1-fragment结构慢3倍，在ARM上，速度降低相对较小。

元素操作不可忽略： 如下图，元素操作占用了相当多的时间，特别是在GPU上，包括ReLU、AddTensor、AddBias等。虽然具有较小的FLOPs，但相对较重的MAC。甚至说深度卷积也可看作类元素操作运算符，因为其具有较高的MAC/FLOPs比率，即具有小FLOPs，大MACs。

由上表，在移除ReLU和Short- Cut后，在GPU和ARM上都获得了大约20%的加速。

综上所述，一个高效的网络架构应该具备下列特点或设计网络在结合平台特性，如内存操作，代码优化的同时需要注意的点：

卷积具有相等的输入/输出通道

明确分组卷积的代价，避免过大的分组数目

降低网络碎片，不应具有大量的多路径结构

减少元素操作

进而设计ShuffleNet V2，为了获得较高的模型容量和效率，关键问题是如何在不密集卷积和不太多组的情况下保持大量等宽的通道，具体结构如下图：

在每个单元开始时，将c个特征通道的输入分为两个支路，分别为c - c0和c0通道。在G3之后，一个分支仍然是身份。另一个分支由三个具有相同输入和输出通道的卷积组成，以满足G1。其中两个1 × 1卷积不再是分组的，因为拆分操作已经产生了两个组。卷积后，两个分支通道堆叠起来。然后使“通道洗牌”操作来实现两个分支之间的信息通信。

总的来说，卷积全是等输入/输出通道，1 × 1卷积不再是分组的，通道拆分取代部分分组，通道洗牌来实现分支间的信息通信，并弃用add。

ShuffleNet v2不仅效率高，而且精度高。主要有两个原因。首先，每个构建块的效率高，可以使用更多的特征通道和更大的网络容量。

其次，在每个区块中，一半的特征通道(当c 0 = c/2时)直接穿过该区块并加入下一个区块。这可以看作是一种特征重用，与DenseNet和CondenseNet类似。

在DenseNet中，分析特征重用模式绘制了层间权值的11范数，如上图。很明显，相邻层之间的连接比其他层更强，意味着所有层之间的密集连接可能会引入冗余。ShuffleNet v2中特征重用的强度随着两个块之间的距离呈指数衰减，在相距较远的块之间，特性重用变得更弱，具有更少冗余。

ShuffleNet V2 - 代码实现

import torch
import torch.nn as nn

class ShuffleV2Block(nn.Module):
    def __init__(self, inp, oup, mid_channels, *, ksize, stride):
        super(ShuffleV2Block, self).__init__()
        self.stride = stride
        assert stride in [1, 2]

        self.mid_channels = mid_channels
        self.ksize = ksize
        pad = ksize // 2
        self.pad = pad
        self.inp = inp

        outputs = oup - inp

        branch_main = [
            # pw
            nn.Conv2d(inp, mid_channels, 1, 1, 0, bias=False),
            nn.BatchNorm2d(mid_channels),
            nn.ReLU(inplace=True),
            # dw
            nn.Conv2d(mid_channels, mid_channels, ksize, stride, pad, groups=mid_channels, bias=False),
            nn.BatchNorm2d(mid_channels),
            # pw-linear
            nn.Conv2d(mid_channels, outputs, 1, 1, 0, bias=False),
            nn.BatchNorm2d(outputs),
            nn.ReLU(inplace=True),
        ]
        self.branch_main = nn.Sequential(*branch_main)

        if stride == 2:
            branch_proj = [
                # dw
                nn.Conv2d(inp, inp, ksize, stride, pad, groups=inp, bias=False),
                nn.BatchNorm2d(inp),
                # pw-linear
                nn.Conv2d(inp, inp, 1, 1, 0, bias=False),
                nn.BatchNorm2d(inp),
                nn.ReLU(inplace=True),
            ]
            self.branch_proj = nn.Sequential(*branch_proj)
        else:
            self.branch_proj = None

    def forward(self, old_x):
        if self.stride==1:
            x_proj, x = self.channel_shuffle(old_x)
            return torch.cat((x_proj, self.branch_main(x)), 1)
        elif self.stride==2:
            x_proj = old_x
            x = old_x
            return torch.cat((self.branch_proj(x_proj), self.branch_main(x)), 1)

    def channel_shuffle(self, x):
        batchsize, num_channels, height, width = x.data.size()
        assert (num_channels % 4 == 0)
        x = x.reshape(batchsize * num_channels // 2, 2, height * width)
        x = x.permute(1, 0, 2)
        x = x.reshape(2, -1, num_channels // 2, height, width)
        return x[0], x[1]

GhostNets

GhostNet V1

GhostNet V1： GhostNet: More Features from Cheap Operations
论文速递： 点击转跳
开源代码： 点击转跳

传统的cnn通常需要大量的参数和浮点运算(FLOPs)才能达到令人满意的精度。因此，深度神经网络设计的最新趋势是探索具有可接受性能的移动设备的便携式和高效网络架构。

MobileNet利用深度卷积和点向卷积构建了基础单元，并取得了相当的性能。ShuffleNet进一步探索了一种通道洗牌操作增强轻量级模型的性能。

在训练良好的深度神经网络的特征图中，丰富甚至冗余的信息通常保证了对输入数据的全面理解。如下图给出了ResNet-50生成的输入图像的一些特征图，其中存在许多相似的特征图对，就像一个幽灵一样。

特征映射中的冗余是一个成功的深度神经网络的重要特征，而不是避免冗余的特征映射。
Ghost模块用更少的参数生成更多的特征。具体来说，深度神经网络中的普通卷积层将被分成两个部分。第一部分涉及普通卷积，但它们的总数将受到严格控制。即给定第一部分的固有特征映射，然后应用一系列简单的线性操作来生成更多的特征映射。

在不改变输出特征映射大小的情况下，与普通卷积神经网络相比，Ghost模块所需的参数数量和计算复杂度降低了，基于Ghost模块，建立了一个高效的神经网络架构，即GhostNet。

实验结果表明，提出的Ghost模块能够降低通用卷积层的计算成本，同时保持相似的识别性能，并且GhostNets可以在移动设备上快速推理的各种任务上超越最先进的高效深度模型，如MobileNetV3。

随着嵌入式设备对神经网络部署的需求，近年来提出了一系列紧凑模型。Xception利用深度卷积运算更有效地利用模型参数。MobileNets是一系列基于深度可分离卷积的轻量级深度神经网络。MobileNetV2提出了倒立剩余块，MobileNetV3进一步利用了AutoML技术，以更少的FLOPs实现了更好的性能。ShuffleNet引入了信道shuffle操作，以改善信道组之间的信息流交换。ShuffleNetV2在紧凑型模型设计中进一步考虑了目标硬件上的实际速度。

虽然这些模型以很少的FLOPs获得了很好的性能，但特征映射之间的相关性和冗余性从未得到很好的利用。

深度卷积神经网络通常由大量的卷积组成，带来了大量的计算成本。尽管最近的研究如MobileNet和ShuffleNet已经引入深度卷积或shuffle操作来使用较小的卷积滤波器(浮点数操作)构建高效的cnn，但剩余的1 × 1卷积层仍然会占用相当大的内存和FLOPs。

在实际中，给定输入数据 $\times h \times w }$ ，其中c为输入通道数，h、w为输入的高度和宽度，任意卷积层产生n个特征映射的操作可以表示为：
$Y = X * f + b$
式中，∗为卷积运算，b为偏置项， $Y∈R^{h ×w ×n}$ 为有n个通道的输出特征映射， $f∈R^{c×k×k×n}$ 为该层的卷积滤波器。其中， $h^{'}$ 和 $w^{'}$ 分别为输出数据的高度和宽度，k × k分别为卷积滤波器f的核大小。在这个卷积过程中，所需的FLOPs数可以计算为 $\cdot h ^ { \prime } \cdot w ^ { \prime } \cdot c \cdot k \cdot k$ ，由于滤波器数n和通道数c通常非常大(例如256或512)，因此FLOPs数通常高达数十万。

卷积层的输出特征映射通常包含大量冗余，其中一些特征映射可能彼此相似。没有必要用大量的flop和参数逐个生成冗余的特征映射。假设输出的特征映射是一些具有廉价转换的内在特征映射的“幽灵”。这些内在特征映射通常较小，由普通卷积滤波器产生。具体来说，m个内在特征映射 $\prime } \in R ^ { h^\prime \times w ^ { \prime } \times m}$ 是使用一次卷积生成的： $\prime } = X * f ^ { \prime }$

其中 $\prime } \in R ^ { c \times k \times k \times m}$ 为所使用的滤波器， $m \leq n$ ，为简单起见，省略偏置项。

为了进一步获得期望的 $n$ 个特征映射，对 $\prime }$ 中的每个固有特征进行一系列廉价的线性操作，根据以下函数生成 $s$ 个ghost特征:
$Φ_ { i , j } ( y _ { i } ^ { \prime } ) , \quad V i = 1 , \cdots , m , j= 1 , \cdots , s$

$Φ_ { i , j }$ 是生成第j个ghost特征图 $y _ { i j }$ 的第 $j$ 次(最后一次除外)线性操作。在实践中，Ghost模块中可能有几种不同的线性操作，如3×3和5×5线性核。

复杂性分析： 利用Ghost模块来生成与普通卷积层相同数量的特征映射，因此可以轻松地将Ghost模块集成到现有设计良好的神经架构中，以降低计算成本，下面对内存使用和理论加速方面的收益进行说明。

不妨假设，有1个特征映射，m·(s−1)= n/s·(s−1)个线性操作，每个线性操作的平均核大小等于 $d \times d$ 。理想情况下，n·(s−1)个线性操作可以有不同的形状和参数，考虑到在线推理CPU或GPU卡的效用，在一个Ghost模块中采用相同大小的线性操作(例如3 × 3或5 × 5)以实现高效推理。用Ghost模块升级普通卷积的理论加速比为：

其中d × d的大小与k × k的大小相似，s<

压缩比等于Ghost模块的加速比

Ghost瓶颈结构。利用Ghost模块的优势，引入了专为小型CNN设计的Ghost瓶颈(G-bneck)。如下图所示，Ghost瓶颈看起来类似于ResNet中的基本残差块，其中集成了几个卷积层和快捷方式，主要由两个堆叠的Ghost模块组成。

第一个Ghost模块作为扩展层增加通道的数量，将输出通道数与输入通道数之比称为扩展比。第二个Ghost模块减少了通道的数量以匹配残差。然后在这两个Ghost模块的输入和输出之间连接快捷方式。BN和ReLU非线性在每一层之后应用，参考MobileNetV2建议，在第二个Ghost模块之后不使用ReLU。

基于Ghost瓶颈，下表所示的所示的GhostNet。用Ghost瓶颈取代了MobileNetV3中的瓶颈块。GhostNet主要由Ghost模块作为构建块的Ghost瓶颈堆栈组成。第一层是具有16个滤波器的标准卷积层，然后是一系列信道逐渐增加的Ghost瓶颈。根据输入特征映射的大小，Ghost瓶颈被分成不同的阶段。除了每个阶段的最后一个瓶颈是stride=2之外，所有Ghost瓶颈都是在stride=1时应用的。

最后利用全局平均池化和卷积层将特征映射变换为1280维特征向量进行最终分类。SE模块也应用于某些虚瓶颈的残余层，最后实现轻量和性能的平衡。

为了降低现有深度神经网络的计算成本，Ghost模块将原始卷积层分成两部分，并使用较少的过滤器来生成几个内在特征映射。进一步应用一定数量的廉价转换操作来高效地生成Ghost特征图，是一种将原始模型转换为紧凑模型的即插即用模块，同时保持了可比较的性能。

GhostNet V1 - 代码实现

class GhostModule(nn.Module):
    def __init__(self, inp, oup, kernel_size=1, ratio=2, dw_size=3, stride=1, relu=True):
        super(GhostModule, self).__init__()
        self.oup = oup
        init_channels = math.ceil(oup / ratio)
        new_channels = init_channels*(ratio-1)

        self.primary_conv = nn.Sequential(
            nn.Conv2d(inp, init_channels, kernel_size, stride, kernel_size//2, bias=False),
            nn.BatchNorm2d(init_channels),
            nn.ReLU(inplace=True) if relu else nn.Sequential(),
        )

        self.cheap_operation = nn.Sequential(
            nn.Conv2d(init_channels, new_channels, dw_size, 1, dw_size//2, groups=init_channels, bias=False),
            nn.BatchNorm2d(new_channels),
            nn.ReLU(inplace=True) if relu else nn.Sequential(),
        )

    def forward(self, x):
        x1 = self.primary_conv(x)
        x2 = self.cheap_operation(x1)
        out = torch.cat([x1,x2], dim=1)
        return out[:,:self.oup,:,:]


class GhostBottleneck(nn.Module):
    """ Ghost bottleneck w/ optional SE"""

    def __init__(self, in_chs, mid_chs, out_chs, dw_kernel_size=3,
                 stride=1, act_layer=nn.ReLU, se_ratio=0.):
        super(GhostBottleneck, self).__init__()
        has_se = se_ratio is not None and se_ratio > 0.
        self.stride = stride

        # Point-wise expansion
        self.ghost1 = GhostModule(in_chs, mid_chs, relu=True)

        # Depth-wise convolution
        if self.stride > 1:
            self.conv_dw = nn.Conv2d(mid_chs, mid_chs, dw_kernel_size, stride=stride,
                             padding=(dw_kernel_size-1)//2,
                             groups=mid_chs, bias=False)
            self.bn_dw = nn.BatchNorm2d(mid_chs)

        # Squeeze-and-excitation
        if has_se:
            self.se = SqueezeExcite(mid_chs, se_ratio=se_ratio)
        else:
            self.se = None

        # Point-wise linear projection
        self.ghost2 = GhostModule(mid_chs, out_chs, relu=False)
        
        # shortcut
        if (in_chs == out_chs and self.stride == 1):
            self.shortcut = nn.Sequential()
        else:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_chs, in_chs, dw_kernel_size, stride=stride,
                       padding=(dw_kernel_size-1)//2, groups=in_chs, bias=False),
                nn.BatchNorm2d(in_chs),
                nn.Conv2d(in_chs, out_chs, 1, stride=1, padding=0, bias=False),
                nn.BatchNorm2d(out_chs),
            )


    def forward(self, x):
        residual = x

        # 1st ghost bottleneck
        x = self.ghost1(x)

        # Depth-wise convolution
        if self.stride > 1:
            x = self.conv_dw(x)
            x = self.bn_dw(x)

        # Squeeze-and-excitation
        if self.se is not None:
            x = self.se(x)

        # 2nd ghost bottleneck
        x = self.ghost2(x)
        
        x += self.shortcut(residual)
        return x

总结

模型的推理速度不仅和模型相关，也与内存的访存量相关。深度卷积通常具有非常低的理论复杂度，但很难在低功耗的移动设备上有效地实现，因为其计算/内存访问比较差。

总之，一个高效的网络架构应该具备下列特点或设计网络在结合平台特性，如内存操作，代码优化的同时需要注意的点：

卷积尽可能具有相等的输入/输出通道

分组卷积不易过大的分组数目

不应具有大量的多路径结构

减少元素操作

有时候使用简单线性操作来生成更多的特征映射也是不错的办法。最后减少通道和输入尺寸也是有效的提速的措施。

致谢

欲尽善本文，因所视短浅，怎奈所书皆是瞽言蒭议。行文至此，诚向予助与余者致以谢意。

参考

CNN的参数量、计算量（FLOPs、MACs）与运行速度
How fast is my model?
GPU内存(显存)的理解与基本使用
Zhang X, Zhou X, Lin M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6848-6856.
Ma N, Zhang X, Zheng H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 116-131.
Han K, Wang Y, Tian Q, et al. Ghostnet: More features from cheap operations[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 1580-1589.

你可能感兴趣的:(#,论文学习,学习记录,#,深度学习,论文阅读,论文笔记,学习)

焱老师带你学习MYSQL系列第一篇 (MYSQL 整体架构) weixin_44669461 MYSQL mysql 学习架构
相关系列链接焱老师带你学习MYSQL系列第六篇(MYSQL是如何实现锁的)焱老师带你学习MYSQL系列第五篇(MYSQL事务隔离级别是如何实现的)焱老师带你学习MYSQL系列第四篇(MYSQL优化器详解)焱老师带你学习MYSQL系列第三篇(MYSQL单表访问方法)焱老师带你学习MYSQL系列第二篇(MYSQL数据结构)焱老师带你学习MYSQL系列第一篇(MYSQL整体架构)前记我很多年前曾经面试各
Python入门教程丨3.5 正则表达式凌小添 Python教程 python 正则表达式 mysql
今天我们来学习Python里超实用的字符串匹配和正则表达式。这是处理文本数据的神器，无论是爬虫、数据清洗还是文本分析，都离不开它，我们从基础语法讲起，再到实战场景，深入体会正则的妙用。1.re库正则表达式（RegularExpression，简称regex或regexp）是一种用来匹配字符串的强大工具。它由一串字符和特殊符号组成，用于描述或匹配一系列符合某种模式的字符串。正则表达式广泛应用于文本搜
联邦学习与边缘模型优化赋能医疗诊断新路径智能计算研究中心其他
内容概要在医疗诊断智能化进程中，数据隐私保护与模型效能提升的双重需求催生出技术创新范式。联邦学习框架通过分布式模型训练机制，有效破解医疗机构间的数据壁垒，使跨机构的医学影像、病理数据在不离开本地服务器的前提下完成知识共享。与此同时，边缘计算节点部署将模型推理能力延伸至诊疗终端，CT影像实时分析响应时间缩短62%，显著提升急诊场景下的决策效率。建议医疗机构在部署联邦学习系统时，优先采用差分隐私与同态
RTX 3090图形处理巅峰性能解析智能计算研究中心其他
内容概要作为NVIDIA面向专业创作者与发烧级玩家的旗舰产品，RTX3090重新定义了图形处理的性能边界。本文将以Ampere架构的技术演进为切入点，系统性解构该显卡在显存配置、运算单元协作及图像处理技术方面的创新设计。通过对比测试数据与工程原理分析，重点探讨24GBGDDR6X显存在8K分辨率场景下的带宽利用率，以及10496个CUDA核心在光线追踪与深度学习超采样（DLSS）任务中的动态负载分
联邦学习优化驱动医疗诊断新突破智能计算研究中心其他
内容概要医疗人工智能的发展长期面临数据孤岛与隐私合规的双重挑战，传统集中式训练模式难以满足多机构协作需求。联邦学习技术通过构建分布式训练框架，使医疗机构在不共享原始数据的前提下，实现跨域模型的协同优化。这一技术突破为医学影像识别、病理特征分析等场景提供了新的技术路径，特别是在肿瘤筛查领域，通过迁移学习实现跨病种知识迁移，配合超参数自动调优机制，可使模型在有限标注数据下达到95%以上的病灶识别准确率
人工智能的崛起与未来发展趋势分析智能计算研究中心其他
内容概要人工智能作为一项颠覆性技术，近年来发展迅猛，正逐渐渗透到我们生活的每个角落。它不仅改变了人类的工作方式，还在医疗、金融、教育、交通等多个领域展现了巨大的应用潜力。通过理解人工智能的现状，我们可以更清晰地识别当前技术进展和市场需求，以及面临的挑战。领域应用实例发展现状医疗智能诊断、药物研发提高诊断准确率，缩短研发周期金融风险评估、智能投顾实现个性化服务与高效决策教育自适应学习系统提供个性化学
勇敢尝鲜之Springboot3大坑-集成Mybatisplus报错：ddlApplicationRunner 青花锁项目实战 Java微服务 ddlAppRunner Springboot mybatisplus
作者主页：青花锁简介：Java领域优质创作者、Java微服务架构公号作者简历模板、学习资料、面试题库、技术互助文末获取联系方式往期热门专栏回顾专栏描述Java项目实战介绍Java组件安装、使用；手写框架等Aws服务器实战AwsLinux服务器上操作nginx、git、JDK、VueJava微服务实战
Mybatisplus的学习 Agnoni 学习笔记学习 java tomcat idea mybatis
一、条件查询部分在引入mybatisplus的依赖以后，我们不需要再引入mybatis的依赖，因为mybatisplus中已经包含mybatis的依赖。1自动映射规则变量名称：privateStringname属性名：publicStringgetName(){returnname;}这个getName中的name就是属性名称表名和实体类名的映射：表名user实体类名User字段名和实体类属性名映
Ascend Extension for PyTorch是个what？机器学习人工智能深度学习
1AscendExtensionforPyTorchAscendExtensionforPyTorch插件是基于昇腾的深度学习适配框架，使昇腾NPU可以支持PyTorch框架，为PyTorch框架的使用者提供昇腾AI处理器的超强算力。项目源码地址请参见Ascend/Pytorch。昇腾为基于昇腾处理器和软件的行业应用及服务提供全栈AI计算基础设施。您可以通过访问昇腾社区，了解关于昇腾的更多信息。2
正则表达式常用语法一只夏风呀编程正则表达式搜索引擎
学习正则表达式正则表达式概念常用语法字符转义字符类分支条件分组反义后向引用零宽断言贪婪与懒惰贪婪匹配懒惰匹配正则表达式在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。概念正则表达式，又称规则表达式,（RegularExpression，在代码中常简写为regex、regexp或RE），是一
Html 5简介(学习笔记) Warren98 html 学习笔记 java 前端 html5 css
基本标签1.换行标签2.链接标签网站href：指定链接地址。target：_blank：在新标签页打开。_self（默认）：当前页面打开。可以把图像做成一个超链接(把img标签嵌套在链接标签里即可)3.图像标签alt：图片加载失败时显示的文本。title：鼠标悬浮时显示的文字。width/height：设置宽高（像素）。4.段落标签这是一个段落。注意：不能直接使用color属性设置文本颜色。5.水
2024-2025最新软考系统架构设计师的复习资料教材，解决如何快速高效通过该考试，试题的重点和难点在哪里？案例分析题和论文题的要点和踩坑点分析九张算数数字工匠系统架构学习方法职场和发展运维开发 pat考试考研面试
目录引言考试概述考试结构考试内容复习策略制定复习计划学习资源知识点详解系统架构基础设计原则与模式系统分析与设计软件开发过程项目管理系统集成性能与优化安全性设计新兴技术试题解析选择题案例分析题论文题重点与难点分析模拟试题与答案参考资料总结引言系统架构设计师考试是软考高级资格考试之一，旨在考察考生在系统架构设计领域的综合能力和专业知识。通过该考试可以获得系统架构设计师资格认证，对职业发展有重要意义。本
神经网络与深度学习入门：理解ANN、CNN和RNN shandianfk_com ChatGPT AI 神经网络深度学习 cnn
在现代科技日新月异的今天，人工智能已经成为了我们生活中的重要组成部分。无论是智能手机的语音助手，还是推荐系统，背后都有一项核心技术在支撑，那就是神经网络与深度学习。今天，我们就来聊一聊这个听起来高大上的话题，其实它也没那么难懂！什么是神经网络？首先，我们要了解什么是神经网络。神经网络（ArtificialNeuralNetwork，简称ANN）是模拟人脑神经元连接方式的一种算法。它由一层层的“神经
【C#语言】Unity引擎计算机学长 C#c#开发语言
引言在当今的游戏开发领域，C#语言与Unity引擎犹如一对黄金搭档，携手塑造了无数令人瞩目的游戏作品。C#作为一种简洁、类型安全且面向对象的编程语言，以其强大的功能和易于学习的特性，深受开发者喜爱。而Unity引擎，凭借其跨平台性、丰富的资源和强大的图形渲染能力，成为了游戏开发的首选平台之一。无论是小型独立游戏的灵动创意，还是大型3A游戏的震撼呈现，都能看到C#语言与Unity引擎的身影。它们的结
学习PostgreSQL专家认证 leegong23111 postgresql 学习数据库
认证途径：由PostgreSQL联盟分会授权机构提供的认证考试，出的相关认证。这些认证考试通常具有较高的权威性和认可度，能够证明考生在PostgreSQL领域的专业能力。厂商认证：一些数据库厂商或培训机构也会提供自己的PostgreSQL认证课程和考试，如重庆思庄数据库认证（初级认证专员，中级认证专家，高级认证大师）认证等。这些认证结合了厂商自身的技术特点和实践经验，对于在特定厂商平台上使用Pos
鸿蒙5.0实战案例：基于webView的嵌套滚动敢嗣先锋鸿蒙开发移动开发 HarmonyOS harmonyos 鸿蒙开发移动开发 ArkUI 组件化 WebView Web组件
往期推文全新看点（文中附带全新鸿蒙5.0全栈学习笔录）✏️鸿蒙（HarmonyOS）北向开发知识点记录~✏️鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~✏️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✏️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✏️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✏️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✏️记录一场鸿蒙开发岗位面
鸿蒙5.0实战案例：基于原生的水印添加能力敢嗣先锋移动开发鸿蒙开发 HarmonyOS harmonyos c++鸿蒙开发 ArkUI 移动开发
往期推文全新看点（文中附带全新鸿蒙5.0全栈学习笔录）✏️鸿蒙（HarmonyOS）北向开发知识点记录~✏️鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~✏️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✏️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✏️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✏️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✏️记录一场鸿蒙开发岗位面
侯捷 C++ 课程学习笔记：STL 标准库与泛型编程的实战指南孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《STL标准库与泛型编程》这门课程让我对C++的强大工具——标准模板库（STL）有了全新的认识。STL是现代C++编程的核心，它提供了丰富的数据结构、算法和迭代器，极大地简化了开发工作。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何高效使用STL来解决实际问题。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：STL的三大组成部分侯捷老师的课程详细讲解了S
python数据分析基础002 -使用matplotlib绘图（散点图，条形图，直方图） 2401_84139192 程序员 python 数据分析 matplotlib
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
JavaWeb学习日结陳奕迅所長. java mybatis spring boot
在实现分页操作的过程中，可以在SQL语句中不写两条SQL来统计总查询数、不限制分页条件，将这些功能在service层用PageHelper实现。引入依赖com.github.pagehelperpagehelper-spring-boot-starter1.4.7在service层实现类中重写方法@OverridepublicPageResultpage(Integerpage,Integerpa
鸿蒙5.0实战案例：基于原生能力的深色模式适配敢嗣先锋鸿蒙开发移动开发 HarmonyOS harmonyos 组件化移动开发 ui ArkUI 鸿蒙开发
往期推文全新看点（文中附带全新鸿蒙5.0全栈学习笔录）✏️鸿蒙（HarmonyOS）北向开发知识点记录~✏️鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~✏️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✏️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✏️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✏️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✏️记录一场鸿蒙开发岗位面
44、深度学习-自学之路-自己搭建深度学习框架-6、自动优化，就是把原来的权重更新的部分用面向对象的方式再写一次小宇爱深度学习-自学之路深度学习人工智能
importnumpyasnpnp.random.seed(1)data=np.array([[0,0],[0,1],[1,0],[1,1]])target=np.array([[0],[1],[0],[1]])#weights_0_1=np.random.rand(2,3)#weights_1_2=np.random.rand(3,1)weights_0_1=np.array([[0.1,0.2
DPVS_dpvs学习笔记: 2 启动流程熊勒个猫 DPVS
整个工程量其实不大，截止到现在dpvs代码量只有不到2w行，相当轻量级了，和当年redis开源时体量相当。整体架构先看架构图，对外交互层controlplane比较像lvs，不会陌生。LoadBalancer模块根据lvs翻译而来，支持大家常用的几种转发模式。和lvs差别最大的地方就是，dpvs自己实现了轻量级的tcp协义栈，并且在用户层模拟了网卡，就是最下面的NetDevices层。为什么要自己
Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用 mosquito_lover1 python 深度学习 pytorch cnn
人脸识别技术是一种基于人脸特征进行身份识别的生物识别技术，其核心原理包括人脸检测、人脸对齐、特征提取、特征匹配、身份识别。一、应用场景安防：门禁、监控。金融：刷脸支付、身份验证。社交：自动标注、美颜。医疗：患者身份确认、情绪分析。二、关键技术深度学习：CNN在人脸检测、特征提取中表现优异。大数据：大规模数据集（如LFW、MegaFace）提升模型泛化能力。硬件加速：GPU、TPU等加速计算，提升实
深度学习与搜索引擎优化的结合：DeepSeek的创新与探索 m0_74825634 面试学习路线阿里巴巴深度学习搜索引擎人工智能
目录引言1.传统搜索引擎的局限性2.深度学习在搜索引擎中的作用3.DeepSeek实现搜索引擎优化的关键技术3.1神经网络与搜索引擎优化3.2自然语言处理与查询理解3.3深度强化学习与搜索结果排序4.DeepSeek的深度学习架构4.1?查询解析与语义理解4.2?搜索排名与相关性排序4.3?个性化推荐与用户行为分析5、总结引言随着人工智能（AI）技术的迅速发展，深度学习（DeepLearning）
IDEA安装包（绿色版） IntelliJ全家桶（Min，Mac，Linux）吃汤圆的抹香鲸 intellij-idea java ide idea
目录一、核心价值定位1.1开发者选择逻辑1.2竞品对比优势二、环境配置规范2.1硬件基准要求2.2多版本管理方案三、效率革命性功能3.1智能编码体系3.2重构安全机制四、企业级开发适配4.1SpringBoot深度支持4.2微服务调试方案五、质量保障体系5.1静态检测配置5.2代码审查流程六、学习路径规划6.130天成长路线下载链接：https://pan.baidu.com/s/1cfkJf6Z
PYTHON机器学习小项目教程：预测鸢尾花种类 jackispy python 机器学习人工智能
我们将使用经典的鸢尾花数据集来构建一个分类模型，该数据集包含150个样本，每个样本有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。目标是根据这些特征预测鸢尾花的种类（山鸢尾、变色鸢尾或维吉尼亚鸢尾）。一、环境配置首先，确保你已经安装了必要的库。如：pandas、numpy等，命令如下所示pipinstallnumpypandasscikit-learnmatplotlib[-i镜像源网站]二、
使用 DeepSeek 和 Streamlit 构建 AI 驱动的 SQL 查询应用程序知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 sql 数据库
介绍随着数据继续呈指数级增长，高效查询大型数据集仍然是一项挑战。如果您只需用简单的英语提出问题并自动生成SQL查询，会怎么样？在本博客中，我们将介绍如何使用DeepSeekAI、Streamlit、AWSGlue和AWSAthena构建由AI驱动的SQL查询应用程序，以从基于S3的Delta表中检索见解。推荐文章《10个DeepSeekAI提示助您学习任何语言》权重1，提示词《24GBGPU中的D
深度学习笔记——常见的Transformer位置编码好评笔记深度学习笔记深度学习 transformer 人工智能
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍3种常见的Transformer位置编码——正弦/余弦位置编码（sin/cos）、基于频率的二维位置编码（2DFrequencyEmbeddings）、旋转式位置编码（RoPE）文章目录Transformer中常见的编码方式正弦/余弦位置编码（SinusoidalPositionalEncoding）基于频率的
DeepSeek 15天指导手册——从入门到精通 PDF(附下载) d3soft pdf deepseek AI 教程
DeepSeek使用教程系列--DeepSeek15天指导手册——从入门到精通pdf下载：https://pan.baidu.com/s/1PrIo0Xo0h5s6Plcc_smS8w?pwd=1234提取码:1234或https://pan.quark.cn/s/2e8de75027d3《DeepSeek15天指导手册——从入门到精通》以系统化学习路径为核心，通过六大模块帮助用户逐步掌握AI工具
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu