AI浩

DCNv4：对视觉应用的动态和稀疏算子的重新思考

摘要

https://arxiv.org/pdf/2401.06197.pdf
我们介绍了可变形卷积v4（DCNv4），这是一种高效且有效的运算符，专为广泛的视觉应用而设计。DCNv4解决了其前身DCNv3的局限性，通过两个关键改进：1. 去除空间聚合中的softmax归一化，以增强其动态属性和表达力；2. 优化内存访问以最小化冗余操作以提高速度。这些改进导致与DCNv3相比，收敛速度显著加快，处理速度大幅提升，DCNv4的前向速度提高了三倍以上。DCNv4在各种任务中表现出色，包括图像分类、实例和语义分割，尤其是图像生成。当将其集成到诸如U-Net之类的潜在扩散模型中的生成模型中时，DCNv4超过了其基线，突显了其增强生成模型的潜力。在实践应用中，将DCNv3替换为DCNv4在InternImage模型中创建FlashInternImage，可实现高达80％的速度提升和性能改进而无需进一步修改。DCNv4在速度和效率方面的进步，以及其在各种视觉任务中稳健的性能表现，表明其作为未来视觉模型的基础构建块的潜力。

1、简介

在计算机视觉领域，关于卷积网络（ConvNets）和Transformer哪个性能更优越的争论一直在进行。近年来，具有注意力机制的大型视觉模型中的Transformer模型[12、25、44]取得了显著成果，显示出超越ConvNets的潜力。然而，诸如InternImage [38]和ConvNeXt [26]等最新研究工作表明，基于ConvNet的视觉模型在各种下游任务中仍保持稳健的性能、效率和简单性，并具有适当的归纳偏差[15、41]。值得注意的是，在图像生成等领域[29、31]，卷积仍然是首选方法。这一情况突显了基于卷积的方法的持久价值。

基于卷积的优势，先进的ConvNet模型InternImage的核心操作符Deformable Convolution v3（DCNv3）创新地将稀疏注意力机制与卷积相结合：它以滑动窗口的方式处理每个输出位置，使用小窗口大小（例如3×3=9），这类似于局部稀疏操作符如卷积，同时动态地采样点并具有适应性的范围，并使用输入相关的注意力权重聚合空间特征。由于其小窗口大小和ConvNet的归纳偏差，DCNv3有望实现更快的收敛速度和更低的推理延迟，尤其是在与密集的全局[12]或局部窗口式[25]的注意力方法相比时。

尽管有这些优势，DCN尚未成为视觉主干模型的优选解决方案。这一观察结果促使我们对DCN操作符的持久限制进行调查。我们首先注意到的是运行速度。DCN的慢速已知是一个长期存在的问题[1]，因为它在采样非附近位置时引入了额外的开销，使其不适合现代卷积算法。我们在图1a中进行的比较分析揭示了DCNv3可能比经过适当优化的密集全局注意力[9]慢，这突显了进一步优化的必要性。此外，我们发现DCNv3在初始主干训练阶段甚至比全局注意力收敛得更慢，如图1b所示，这有点出乎意料，因为DCNv3配备了ConvNet的归纳偏差。

为了克服这些挑战，我们提出了Deformable Convolution v4（DCNv4），这是对稀疏DCN操作符进行实际效率优化的创新改进。DCNv4具有更快的实现和改进的操作符设计，以提高性能，我们将对其进行详细阐述：

首先，我们对现有实现进行指令级内核分析，发现DCNv3已经相当轻量级。计算成本不到1%，而内存访问成本占99%。这促使我们重新审视操作符实现，并发现DCN正向过程中的许多内存访问是多余的，因此可以进行优化，从而获得更快的DCNv4实现。

其次，受到卷积无界权重范围的启发，我们发现空间聚合中的softmax归一化在DCNv3中是不必要的，因为对于每个位置具有专用聚合窗口的操作符来说，这并不是一个要求。直观地说，softmax将权重限制在0到1的值范围内，这将限制聚合权重的表达力。这一见解促使我们在DCNv4中移除了softmax，增强了其动态属性并提高了性能。

因此，DCNv4不仅比DCNv3快得多，而且前向速度提高了3倍以上。这一改进使DCNv4能够充分利用其稀疏属性，成为最快的常见核心视觉操作符之一。

我们进一步将DCNv3替换为DCNv4，创建了FlashInternImage。值得注意的是，与未进行任何额外修改的InternImage相比，FlashInternImage实现了 $50\~80%$ 的速度提升。这一改进使FlashInternImage成为最快的现代视觉主干网络之一，同时保持了卓越的性能。在DCNv4的帮助下，FlashInternImage显著提高了在ImageNet分类[10]和迁移学习设置中的收敛速度，并在下游任务中进一步证明了其性能的改进。

此外，DCNv4显示出作为各种架构和任务中的通用视觉操作符的潜力。我们将DCNv4集成到其他现代主干架构中，包括ConvNeXt [26]和ViT [12]，替换depthwise卷积[6]和密集自注意力层[35]。令人惊讶的是，这些精心设计的网络使用DCNv4时无需任何超参数调整即可表现出与原始网络相当的性能，同时速度更快，这表明动态、稀疏的DCNv4的高效性和有效性。此外，我们探索了DCNv4在生成模型中的潜力，将其作为新的应用领域。具体来说，我们将其应用于用于潜在扩散模型[29]的U-Net [30]架构中，用DCNv4替换常规卷积。实验结果表明， $\mathrm{DCNv} 4$ 在图像生成方面比基线表现更好，这表明使用DCNv4改进生成模型的巨大潜力。

我们将发布我们的DCNv4实现，并希望这个高效的运算符能够促进视觉社区的未来研究。

2、相关工作

视觉模型中的核心操作符：标准卷积[17]是最普遍和最有影响力的操作符，构成了大多数计算机视觉架构的支柱[14, 16, 32]。然而，许多具有独特特征的操作符在计算机视觉的发展中共同发挥着至关重要的作用。Depthwise separable convolution（DWConv）[6]将空间和通道操作分离，在开发轻量级和高效的模型方面具有重要作用[26,27]。RepLKNet [11]表明，利用大型内核深度卷积的纯卷积网络可以在效率和效果方面取得有竞争力的性能。Deformable Convolution（DCN）系列[7, 38, 47]通过向卷积核添加可学习的偏移量，显著提高了卷积的适应性。与卷积相反，注意力机制[35]具有建模长距离依赖的能力，并已成功应用于各种计算机视觉任务[3, 12, 24, 33]。窗口注意力[25,36]通过将注意力操作限制在固定大小的窗口中，减少了普通注意力所固有的计算复杂性。为了减轻普通注意力所涉及的高计算复杂性，可变形注意力[48]使每个查询集中于一定数量的关键采样点，这些采样点的位置和权重都是动态确定的。这种高效的方法在后续的艺术感知方法中得到广泛应用[4,19,21,22,43,45]。DynamicConv [40]和dynamicDWNet [13]通过整合动态权重增强了Depthwise卷积（DWConv），从而能够使用实例特定的动态适应权重。对于非网格结构化数据，稀疏操作符[34, 37, 42]利用双线性插值或参数化方式获得的动态权重。

视觉主干中的内存访问成本（MAC）：如之前的研究[18, 27]所强调的，尽管浮点运算次数（FLOPs）是衡量模型复杂性的常用指标，但它并不能准确地表示模型的运行速度或延迟。在实际情况中，模型的运行速度受到多种因素的影响，而不仅仅是FLOPs。内存访问成本（MAC）在这方面起着特别重要的作用。[27]。通过减少对高带宽内存（HBM）的访问次数，Flash-Attention [9]在实践中实现了显著更快的速度，尽管与普通注意力相比，其浮点运算次数更高。虽然DCN操作在FLOPs方面没有劣势，但在相同的FLOPs预算下，与DW-Conv相比，它们的延迟要长得多，这主要是由于大量的内存访问成本。在本工作中，我们对与DCN操作相关的内存访问成本进行了深入分析和优化，显著加快了DCN的运行速度。

3、方法

3.1、重新思考可变形卷积的动态属性

重新审视DCNv3：给定一个输入 $\mathbf{x} \in \mathbb{R}^{H \times W \times C}$ ，其中高度为 H ，宽度为 W ，通道数为 C ，每个点 $p_{0}$ 的DCNv3操作由式 (2) 定义。
$\mathbf{y}_{g} = \sum_{k=1}^{K} \mathbf{m}_{g k} \mathbf{x}_{g}\left(p_{0}+p_{k}+\Delta p_{g k}\right), \tag{1}$
$\begin{aligned} \mathbf{y} & =\operatorname{concat}\left(\left[\mathbf{y}_{1}, \mathbf{y}_{2}, \ldots, \mathbf{y}_{G}\right], \text { axis=-1 }\right), \end{aligned} \tag{2}$
其中 G 表示空间聚合组的数量。对于第 g 组， $\mathbf{x}_{g}, \mathbf{y}_{g} \in \mathbb{R}^{H \times W \times C^{\prime}}$ 表示切片的输入/输出特征图，其中 $C^{\prime}=C / G$ 表示组维度； $\mathbf{m}_{g k} \in \mathbb{R}$ 表示第 g 组中第 k 个采样点的空间聚合权重（也称为调制标量），条件是输入 $\mathbf{x}$ 并按 K 维度进行 softmax 归一化； $p_{k}$ 表示预定义的网格采样点 $\ldots,(0,+1), \ldots,(+1,+1)}$ 中的第 k 个位置，与常规卷积中的采样位置相同，而 $\Delta p_{g k}$ 是对应于第 g 组中网格采样位置 $p_{k}$ 的偏移量。在 DCNv3 操作符之前和之后，可以在 $\mathbf{x} 和 \mathbf{y}$ 上应用 $\times 1$ 的点对点卷积，以增强模型的表达能力，遵循可分离卷积 [6]。DCNv3 是卷积和注意力机制的组合：一方面，它以滑动窗口的方式处理输入数据，遵循卷积并具有其固有的偏置；另一方面，采样偏移量 $\Delta p$ 和空间聚合权重 $\mathbf{m}$ 是从输入特征动态预测的，这显示了其动态属性，并使其更像是一种注意力机制。我们比较了具有各自属性的不同操作符，如图 2 所示。

softmax归一化：卷积和DCNv3之间的一个关键区别在于，DCNv3使用softmax函数对空间聚合权重 $\mathbf{m}$ 进行归一化，遵循缩放点积自注意力机制的惯例。相反，卷积在其权重上并不使用softmax，并且仍然工作得很好。为什么注意力需要softmax的原因很简单：对于 $\mathbf{Q}， \mathbf{K}， \mathbf{V} \in \mathbb{R}^{N \times d}$ 的缩放点积自注意力机制，其定义如下：

$\operatorname{softmax}\left(\frac{1}{\sqrt{d}} Q K^{\top}\right) V \tag{3}$

其中 N 是同一注意力窗口中的点数（可以是全局 [12] 或局部 [25]），d 是隐藏维度，Q，K，V 是从输入计算得出的查询、键和值矩阵。在式 (3) 中需要使用 softmax 操作进行注意力计算；如果没有 softmax，可以先计算 $K^{\top} V \in \mathbb{R}^{d \times d}$ ，对于同一注意力窗口中的所有查询，这将退化为线性投影，导致性能下降。然而，对于像深度卷积和 DCNv3 这样的卷积算子，每个点都有自己专用的聚合窗口，每个聚合窗口中的值已经不同，并且没有“键”的概念，因此这种退化问题不再存在，归一化也变得不必要。事实上，使用 softmax 将固定在 0-1 范围内的卷积权重归一化，可能会对操作的可表达性造成很大限制，并使学习速度变慢。

为了证实这一假设，我们训练了一个 ConvNeXt 模型，并在卷积前对深度卷积权重的 $\times 7$ 窗口应用了 softmax。我们从表 1 中的结果观察到，模型的性能和收敛速度都显著下降。这表明，对于每个位置有专用的聚合窗口的算子，如卷积或 DCN，与经过 softmax 归一化、范围有限的权重相比，范围不受限制的聚合权重提供了更好的表达能力。

增强动态属性：受到这一观察的启发，我们移除了 $\mathrm{DCNv}3$ 中的 softmax 归一化，将范围从 0 到 1 的调制标量转换为类似于卷积的不受限制的动态权重。如图 2 所示，这一改变进一步增强了 DCN 的动态属性，而其他算子具有某些限制，例如值范围有限（注意力/DCNv3）或具有与输入无关的聚合权重的固定聚合窗口（卷积）。图1b 显示，通过进行此更改，DCNv4 的收敛速度显著快于 DCNv3 和其他常见算子，包括卷积和注意力。第 4 节中的结果进一步表明，DCNv4 在预训练和迁移学习设置中均表现良好。

3.2、加速 DCN

理论上，DCN 作为一个具有 $\times 3$ 窗口的稀疏算子，其运行速度应该快于其他采用更大窗口大小的常见算子，例如密集注意力或 $\times 7$ 的深度卷积。然而，我们发现情况并非如此，如图 1a 所示。在本小节中，我们首先对 GPU 效率进行理论分析，指出内存访问成本会因读取内存的方式而产生很大的差异。我们根据观察结果进行优化，通过节省额外的内存指令，显著提高了 DCN 的速度，使稀疏算子的速度优势成为现实。

GPU 效率的理论分析我们从对 DCNv3 算子的计算行为的理论检查开始研究。我们采用 roofline 模型来评估其性能，重点关注理论浮点运算和内存访问成本（MAC）。对于形状为 (H, W, C) 的输入和输出张量，DCNv3 算子需要 $36 H W CF L OP s$ ，其中 $\times 3$ 表示卷积核的空间维度，因子 4 用于每个采样点的双线性插值。

按照[27]中概述的框架，DCNv3的MAC计算为 $2 H W C + 27 H W G$ 。第一项对应于输入/输出特征图的大小，第二项对应于DCNv3的偏移量和聚合权重，其中 G 组。假设组维度为 16，我们近似 G 为 $C /16$ ，得到大约 $3.7 H W CM A C$ 。然而，这是在假设无限缓存和每个值只进行一次内存读取的理想情况下得出的，这在并行计算环境中常常是不现实的，因为并发线程执行需要同时进行数据访问。

为了估计最大的内存访问需求，我们考虑一个没有缓存的场景，其中每个输出位置都需要进行新的内存读取，双线性插值涉及 36 次读取，偏移/聚合权重涉及 27 次读取，并有一次写入操作，导致 MAC 为 $64 H W C$ 。这比理想情况大 17 倍。

这一分析揭示了计算与内存访问之间的比率存在巨大差距（范围从 0.6 到 9.7 ），突显出内存访问优化的巨大潜力。值得注意的是，尽管 DCNv3 使用输入依赖的动态偏移量导致非确定性内存访问，但同一组内的通道共享偏移值这一事实是确定的。这促使我们提出一种特定的优化策略来提高 DCNv3 的速度。

消除冗余工作负载：在之前对 DCN 内核的 CUDA 实现中，对于形状为 $H, W, C)^{1}$ 的输入、偏移 ( $K^{2} \times 2$ ) 和聚合权重 ( $H, W, G, K^{2}$ ) ，我们将创建总计 $\times W \times C$ 个线程以最大限度地提高并行性，其中每个线程处理一个通道的输出位置。值得注意的是，每个组内的 $D = C / G$ 个通道对于每个输出位置共享相同的采样偏移和聚合权重值。使用多个线程在相同输出位置上处理这些 D 个通道是浪费的，因为不同线程会多次从 GPU 内存中读取相同的采样偏移和聚合权重值，这对于内存受限的操作来说是至关重要的。在每个输出位置使用一个线程处理同一组内的多个通道可以消除这些冗余的内存读取请求，大大减少内存带宽的使用。由于采样位置相同，我们也可以只计算一次 DCN 中使用的双线性插值系数。具体来说，如果每个线程处理 $D^{\prime}$ 个通道，读取偏移和聚合权重的内存访问成本以及计算双线性插值系数的计算成本都可以降低 $D^{\prime}$ 倍。

消除冗余内存指令：实际上，仅仅重复使用线程处理多个通道并不会看到速度上的提升。原因是当 $D^{\prime}$ 增加时，我们创建的线程数减少，现在每个线程的工作负载增加了 $D^{\prime}$ 倍。这实质上降低了 CUDA 内核的并行度。幸运的是，由于双线性插值只需要对所有 $D^{\prime}$ 个通道执行一次，DCN 内核的计算量现在变得很轻，并且大部分工作负载是读取不同通道的输入值的内存指令。当内存布局为通道最后时，所有 $D^{\prime}$ 个通道的值都是连续的，我们可以利用向量化的加载：例如，从内存中读取四个 32 位浮点值，而不是使用四个指令四次读取一个 32 位浮点值，我们可以使用单个指令一次性加载一个 128 位打包的值，从而减少每个线程的指令数和执行时间。当将最终结果写入 GPU 内存时，我们可以应用类似的技巧，以最小化内存访问时间并提高内存带宽利用率。此外，现代的半精度数据格式（ $f l o a t 16/ b f l o a t 16$ ）将需要加载的字节数减半，这意味着在相同的内存带宽下，使用半精度格式时的内存效率可以提高一倍。然而，在原始的 DCNv3 实现中，我们没有看到使用半精度数据带来的速度提升，这可能是由于数据访问和计算的开销过大，而在我们的新实现中，速度提升是显著的。值得注意的是，上述优化技术也可以应用于 DCNv1/v2 和可变形注意力 [48]，因为它们具有相似的性能瓶颈和问题。

DCNv3 模块中的微设计：DCNv3 模块引入了多种微设计；随着核心内核的优化，它们对速度的影响变得不可忽视。我们确定了 DCNv3 设计中可以进一步优化的两点：首先，在移除 softmax 并将调制标量转换为动态聚合权重之后（如前文所述）。用于计算偏移和动态权重的线性层实际上可以合并为一个线性层。这减少了网络碎片化，消除了额外的开销，例如内核启动和同步，提高了 GPU 上的运行时效率；其次，在原始的 DCNv3 模块设计中，使用了一个由 $depthwise3 \times 3 conv$ 、层归一化（LN）、GELU 和线性层组成的复杂子网络来计算偏移和动态权重。遵循 Xception [6] 中的设计，我们删除了额外的 LN-GELU 层，并使用了原始的分离卷积结构，进一步减少了运行时间。我们通过经验发现，如果延迟是更高的优先级，也可以只进行微小的性能牺牲而删除 depthwise 卷积。

4、实验

本节中，我们将从速度和性能两个角度验证我们提出的 DCNv4 模块的有效性。我们首先对操作级别速度进行基准测试，并将 DCNv4 集成到主干模型中以进一步测试系统级别性能。所有速度测试结果均使用 NVIDIA A100 80G SXM GPU 获得。由于篇幅限制，我们将其他实验结果和实现细节（包括其他超参数设置和硬件/软件环境）放在补充文件中。

4.1、操作级别速度基准测试

设置：我们通过仅测量构建最先进视觉主干模型的几个代表性操作的时间来进行 op 级别的基准测试，包括使用 PyTorch 实现的完整注意力 [35] 和先进的 FlashAttention-2 [8] 实现、窗口大小为 $\times 7$ 的窗口注意力 [25]、使用 cuDNN [5] 和 PyTorch 的 ATen 库 [28] 实现的深度卷积（窗口大小为 $\times 7$ ）。为了简化，我们只对空间聚合的核心操作进行基准测试，并且排除了附加的线性层，例如 qkv 投影和输出投影层，这些不包括在运行时测量中。请参阅补充文件以获得更全面的模块级别比较。对于输入规模，我们首先考虑使用 $\times$ 下采样率的通用分层 ConvNet/transformer 主干所使用的标准 $224 \times 224$ 输入分辨率生成的特征图形状；我们还添加了像 ViT 这样具有下采样率 16 和更大隐藏维度的各向同性主干中的特征图形状。对于分层特征图和各向同性特征图，我们将输入形状分别设置为 $800 \times 1280$ 和 $1024 \times 1024$ ，这是目标检测中的常见做法 [15,20]。对于这两种输入集，批量大小分别为 64 和 1。对于具有头/组概念的运算符，我们将每个头/组的维度设置为 32，并在隐藏维度变化时更改头/组的数量。

结果：我们分别在表 2 和表 3 中展示了标准分辨率和高分辨率输入的基准测试结果。我们报告了使用 FP32 和 FP16 数据格式的结果，但 FlashAttention 没有 FP32 实现。使用 PyTorch 实现的密集全局注意力在输入分辨率较大时显著变慢，甚至超出内存。FlashAttention 显著提高了注意力的速度，在某些情况下甚至比 $\times 7$ 窗口注意力更快，这表明适当的优化非常重要。然而，它并没有改变注意力的二次复杂性；当输入分辨率较高时，它仍然落后于本地/稀疏运算符，如窗口注意力或卷积。虽然 DCNv3 可以比使用纯实现方式的 DWConv 更快，但它比经过大量优化的 cuDNN 版本慢。相反，我们的 DCNv4 可以提供比 DCNv3 快 3 倍以上的速度提升，大大节省了运行时间。此外，DCNv4 可以成功利用使用 $\times 3$ 稀疏窗口的优势，在各种设置下显著快于其他基线。

4.2、图像分类

设置：我们评估了 DCNv4 在 ImageNet 分类任务上的有效性。我们从强大的基准模型 InternImage [38] 开始，因为它在基于 ConvNet 的模型中表现出最佳性能。我们将 InternImage 中的原始 DCNv3 替换为 DCNv4，并创建了 FlashInternImage。所有其他实现细节，包括网络架构和超参数，均与 [38] 保持一致。我们还比较了 Swin-Transformer 和 ConvNeXt，它们是 Transformer 和 ConvNet 模型中的两个代表性基准。我们遵循常见的做法 [25,26,38]，在 $\mathrm{~K}$ 上对 FlashInternImage-Tiny/Small/Base 进行 300 个 epoch 的训练。首先在 ImageNet-22K 上对 FlashInternImage-Large 进行 90 个 epoch 的训练，然后在 $\mathrm{~K}$ 上进行 20 个 epoch 的微调。其他基准模型采用相同的设置以进行公平比较。

结果：表 4 显示了不同规模的模型结果。除了模型大小和训练/推理分辨率外，我们还报告了每个模型在 FP32/FP16 数据格式下的整体吞吐量（每秒处理的图像数）。为了公平比较，我们使用 timm [39] 对 ConvNeXt 和 Swin Transformer 进行实现，这实际上比原始实现更快。配备 DCNv4 的 FlashInternImage 显著提高了 InternImage 的吞吐量，提高了 $\% \sim 80 \%$ ，并略微提高了模型性能。FlashInternImage 现在以更高的准确率与 ConvNeXt 的速度相匹配。值得注意的是，FlashInternImage-S 可以优于 ConvNeXt-B（ $\% vs. 83.8 \%$ ）的同时还比它更快，这表明速度和准确率之间的权衡更佳。此外，FlashInternImage-L 甚至可以超过 ConvNeXt-XL 和 InternImage-XL，并比它们快 $\% \sim 130 \%$ （401 vs. 174），这表明我们的 DCNv4 模块非常有效。

4.3、高分辨率输入的下游任务

我们进一步评估了 DCNv4 在具有高分辨率输入的代表性下游感知任务中的性能，包括实例分割、语义分割和 3D 目标检测。我们保持与 InternImage 相同的所有实现细节，并仅更改主干模型以进行公平比较。在训练下游模型时，主干模型使用 ImageNet 的预训练权重进行初始化。

实例分割：我们使用两个代表性的实例分割框架（Mask R-CNN [15] 和 Cascade Mask-RCNN [2]）在 COCO 数据集 [23] 上对 FlashInternImage 进行训练，训练计划为 $\times (12 个 epochs)$ 和 $\times (36 个 epochs)$ 。结果在表5 中展示。我们还报告了批量大小为 16 的 FPS，包括 FP32/FP16 数据格式。FlashInternImage 在所有模型规模和训练计划上都表现出优越的结果，实现了更高的速度与准确率的权衡。例如，FlashInternImage-T/S 在与相同规模的模型相比时表现出色，并且与更大的 InternImage-S/B 相当，但速度要快 $\%-90 \%$ 。

语义分割：我们使用 UperNet [41] 在 ADE20K [46] 数据集上对 FlashInternImage 进行 $\mathrm{~K}$ 次迭代训练进行语义分割。从表6 中的结果可以得出与实例分割相似的结论，我们还报告了批量大小为 16 的 FP32/FP16 数据格式的 FPS。配备 DCNv4 的 FlashInternImage 可以显著提高速度，并在不同模型规模上进一步改进 InternImage 的性能，从而实现了新的最佳性能。

3D 检测：我们进一步在自动驾驶场景中的基于相机的 3D 物体检测任务上测试 DCNv4。我们使用 FlashInternImageSmall 和 Base 主干模型在 nuScenes 数据集上对 BEVFormer v2 [43] 进行 24 个 epoch 的训练，BEVFormer v2 是一个最先进的基于多相机的 3D 物体检测器。我们在表7 中报告了 nuScenes 测试集上的结果，并报告了每个模型的 FPS。我们注意到 BEVFormer v2 中的头部分，如 BEV 编码器和对象解码器，还有待优化，运行时间超过 $\%$ （随着更快的骨干网络，这一比例甚至更高）。因此，我们还报告了骨干网络的 FPS，以便更清楚地说明。我们的结果表明，仅考虑骨干网络时，FlashInternImage 的速度是 InternImage 的两倍甚至三倍，同时性能相当，大大提高了模型效率。

4.4、DCNv4 作为通用运算符

在其他视觉骨干网络中的直接替换：我们验证 DCNv4 是否可以在使用其他运算符设计的架构中正常工作，例如 ConvNeXt 和 Vision Transformer (ViT)。为了实现这一目标，我们将在 ViT 和 ConvNeXt 中用 DCNv4 替换注意力模块和深度卷积层，并在 ImageNet-1K 上进行有监督学习，同时不改变任何其他架构和超参数，类似于 FlashInternImage 和 InternImage。结果在表4 中展示。我们可以看到，在这些针对特定运算符进行精心调整的架构中，我们的 DCNv4 同样表现出色。由于 DCNv4 的速度快，新模型甚至可以实现更高的吞吐量，展现了 DCNv4 的卓越性能。

在扩散模型中进行直接替换：DCN 已被公认为感知任务的有效的运算符。随着生成模型成为 AI 生成内容 (AIGC) 的基本工具，我们也很好奇 DCNv4 是否能在基于扩散的生成模型上很好地完成生成任务。具体来说，我们选择 Stable Diffusion [29] 中使用的 U-Net [30] 作为基准，并用 DCNv4 替换 U-Net 中的注意力模块和常规 3x3 卷积。我们使用 U-ViT 的代码库，遵循其训练计划，并根据 Stable Diffusion 提供的图像自编码器提取的图像潜在值训练一个潜在扩散模型。我们将在表9中展示结果。我们可以看到，DCNv4 在生成建模中同样表现良好，与 U-Net 中的常规卷积相比，它在 FID/吞吐量方面取得了更好的结果，同时参数更少。请注意，架构/超参数可能不是为 DCNv4 优化的，重新设计模型或为 DCNv4 搜索新超参数可能会得到更好的结果。

4.5、消融实验

我们在第 3.2 节中描述的优化选择中进行了消融实验。结果在表10 中展示。表中的时间是在 56x56x128 的输入、批量大小为 64 和 4 组（每组 32 个通道）的条件下获得的。我们首先移除了 softmax 操作并改进了微观设计，这意味着我们将两个线性层合并为一个，并删除了在偏移/聚合权重计算中代价高昂的层归一化和 GELU 激活函数，简化了整体模块并提高了速度。然后，我们开始修改内核实现。首先，我们改变了并行执行模式，让每个线程处理 8 个通道而不是 1 个通道，从而可以节省从 GPU 内存中加载采样偏移和聚合权重值的无谓内存访问。正如我们所预期的那样，仅应用此更改不会增加速度，因为并行度降低，现在每个线程的工作负载增加了 8 倍。延迟反而增加了。通过重用双线性插值系数（第 4 行）消除冗余计算可以节省一些时间，但效果并不明显。通过向量化加载/存储消除冗余内存指令可以大大减少每个线程的工作负载，并大大加速 GPU 内核速度（第 5 行）。使用半精度数据类型（减少内核读取/写入所需字节数的一半）进一步增加了数据吞吐量，如第 6 行所示。最后，我们达到了最终的 DCNv4 设计，其效率是原始实现的 3 倍。

5、结论

我们提出了可变形卷积 v4 (DCNv4)，一种高效的动态和稀疏运算符。通过重新思考可变形卷积中的动态属性并简化内存访问，DCNv4 成为比其前身 DCNv3 更快、更有效的运算符。配备 DCNv4 的 FlashInternImage 骨干网络不仅提高了速度，还改善了各种视觉任务的表现。我们进一步展示了 DCNv4 作为通用运算符的多功能性和有效性，通过将其集成到 ConvNeXt 和 ViT 等最先进的架构中，提高了吞吐量和准确性；它还适用于潜在扩散模型，显示出增强生成模型的潜力。

A、实现细节

环境：我们使用 A100 80GB SXM GPU 对所有实验进行吞吐量基准测试。软件环境是 PyTorch 1.13、CUDA 11.7、cuDNN 8.5。当测试 Flash Attention [8] 时，我们使用 Flash Attention 2.3.1。当测试 Swin Transformer 中的窗口注意力时，我们使用 timm 0.9.7 [39] 中的 PyTorch 实现。

COCO 的 2D 目标检测：为了验证我们方法在 2D 目标检测中的有效性，我们采用了两种目标检测方法：Mask R-CNN 和 Cascade Mask R-CNN，主要参考了 Internimage 的设置。按照常规做法，我们使用了两个训练计划：1x（12 个周期）和 3x（36 个周期），以分别评估模型的收敛速度和最终性能。对于 1x 计划，我们将图像的短边调整为 800 像素，长边不超过 1333 像素。在评估阶段，输入图像的短边始终设置为 800 像素。对于 3x 计划，短边调整为介于 480 和 800 像素之间的范围，而长边仍限制在 1333 像素。基础学习率设为每个批次 16 的 $\mathrm{e}^{-4}$ 。我们采用 AdamW 优化器，并加入权重衰减为 0.05 。骨干网络的初始化是预训练的分类权重。

ADE20K 的 2D 语义分割：我们采用了 UperNet 来验证我们方法在 ADE20K 数据集上的 2D 语义分割的有效性。我们的实验设置主要基于 InternImage。对于 FlashInternImage-T/S/B 和 FlashInternImage-L，我们分别使用学习率为 $\mathrm{e}^{-5}$ 和 $\mathrm{e}^{-5}$ 的 AdamW 优化器。FlashInternimage T/S/B 的裁剪大小设置为 512，而 FlashInternImage-L 的裁剪大小设置为 640。我们使用批量大小为 16 的所有模型进行 160k 次迭代，以确保与之前的方法进行公平比较。骨干网络的初始化也是预训练的分类权重。

nuScenes 的 3D 目标检测：我们采用了 BEVFormerV2 来验证我们方法在 nuScenes 数据集上的 3D 目标检测的有效性。遵循 BEVFormerV2 的设置，骨干网络的初始化是在 COCO 数据集上预训练的。与 BEVFormerV2 一致，我们使用了总共 8 秒的数据，包括过去和未来的信息。我们使用批量大小为 16、学习率为 $\mathrm{e}^{-4}$ 的 AdamW 优化器。我们训练模型 24 个周期。

B、其他实验结果

具有高级头部的下游结果：我们采用了更高级的 DINO [45] 和 Mask2Former [4] 来进一步验证我们的 FlashInternImage 的有效性，如表1 和表3 中所示。对于 COCO 的 2D 目标检测与 DINO 头部，我们使用 12 个周期训练我们的模型。在训练阶段，我们采用与上面介绍相同的多种尺度训练策略。其他设置，包括优化器、权重衰减和学习率，与 Mask-RCNN 中使用的设置相同。对于 ADE20K 的 2D 语义分割，我们将学习率设置为 1e-4，批量大小为 16 。对于 Base 和 Large scale，我们使用裁剪大小为 640 。其他设置与 UperNet 中使用的设置相同。

在更高级任务头部的应用下，我们的方法在准确度方面仍保持显著优势，同时在推理速度方面也具有竞争力。

其他骨干网络的下游结果：如表4 中所示，我们评估了 “ConvNext+DCNv4” 和 “ViT+DCNv4” 在下游任务中的性能，特别是使用 UperNet 头部的语义分割任务。我们的观察结果表明，将以前使用的 DWConv 或 Attention 替换为我们的 DCNv4 可以提高推理速度。对于 ConvNext，使用 DCNv4 而非 DWConv 可以获得更高的性能。

图像生成的可视化：为了更好地说明，我们在图1中展示了我们的潜在扩散模型与DCNv4的定性结果。DCNv4也可以很好地应用于这个生成任务。

模块级速度基准：我们在表2和5中展示了模块级速度基准结果，其中还考虑了每个操作中的附加线性投影层。我们还包括了一个混合通道信息的3x3窗口常规卷积。对于DCNv4，我们展示了两种变体：第一种实现移除了模块内部的输入/输出投影层（标记为轻量级）。我们在"ConvNeXt + DCNv4"实验中使用这个实现，因为它具有与原始深度卷积在ConvNeXt中相似的属性（仅执行空间聚合）和计算量/参数数量。第二种实现包括输入/输出线性投影，并在本文中描述的其他模型中使用。

你可能感兴趣的:(深度学习,目标检测,计算机视觉,人工智能,神经网络)

[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
VS2019+QT4.15+openCV4.5.1+CUDA加速小小秀峰哥 python 人工智能深度学习
文章目录前言一、软件安转以及注意事项二、CMake编译总结前言`最近公司有一个关于使用海康威视网络摄像头的目标检测的项目，发现使用openCV显示时，出现很大的延时，因此，只能使用cuda进行加速才能使显示达到实时，在进行编译时我发现很多问题，解决了好几天才完成编译一、软件安转以及注意事项1、Windows10系统2、VisualStudio2019与QT4.15（先安装）3、CUDA11.8、c
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
AI绘画能取代设计师吗？网络安全我来了 IT技术 AI作画
AI绘画能取代设计师吗？在日益数字化的时代，人工智能（AI）正在快速渗透我们的生活和工作中。特别是在设计领域，AI绘画这一新兴技术引发了热烈讨论。你是否也曾好奇，AI绘画是否有可能取代设计师的工作？让我们一同探讨这个引人深思的话题。1.AI绘画的现状1.1AI绘画技术的形成与发展AI绘画的背后，离不开图像风格迁移、图文预训练模型和扩散模型这三大技术的共同推动。有点像是一位多才多艺的音乐家，利用不同
AI会对你的行业产生什么影响网络安全我来了 IT技术人工智能
AI对行业的影响：全面解析与展望在当今这个瞬息万变的时代，人工智能（AI）正如同一个强大的引擎，驱动着各个行业的迅猛发展。这不仅仅是一种技术的崛起，更是全球经济和社会结构的深刻变革。今天，让我们深入解析AI，尤其是生成式AI，如何影响我们的工作与生活，以及我们可以期待的未来。生成式AI的迅猛崛起生成式AI的定义与特点生成式AI，简单来说，就是机器学习的一个分支，通过学习大量数据，生成新的内容。这就
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
cursor软件的chat和composer分别是什么 hunter206206 人工智能 python
Cursor是一款基于人工智能的代码编辑器，集成了类似ChatGPT的功能，旨在帮助开发者更高效地编写代码。以下是Cursor中Chat和Composer的具体功能：1.ChatCursor中的Chat是一个基于AI的聊天功能，类似于ChatGPT，但专门为编程场景优化。它的主要用途包括：代码解释：帮助你理解代码的功能或逻辑。代码生成：根据自然语言描述生成代码片段。代码优化：提供代码优化建议或重构
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
AI人工智能代理工作流AI Agent WorkFlow：面向服务计算中的代理工作流管理 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：面向服务计算中的代理工作流管理关键词：人工智能，代理工作流，服务计算，自动执行，智能调度，协同处理，流程管理1.背景介绍1.1问题的由来随着互联网和云计算的快速发展，服务计算作为一种分布式计算模式，已经成为企业信息化建设的重要方向。在服务计算中，工作流技术被广泛应用于业务流程的建模、执行和管理。然而，传统的基于BPM（业务流程管理）的工作流管理
Python 实现文本摘要功能热爱技术的小胡 python
互联网时代信息爆炸式增长，人们面对越来越多的信息无法一一阅读，而文本自动摘要技术可以一定程度上缓解这个问题。摘要就是一篇文章的核心部分信息，文本自动摘要技术分抽取式摘要和生成式摘要，前者是在原文中挑选一定比例的句子拼凑成一个摘要，后者更接近人为的总结式简写一篇文章。目前越来越多的研究者使用深度神经网络来研究生成式摘要技术，但是难度也挺大，效果有限。本文的方法是使用基于启发式规则的算法实现了一个抽取
OpenAI 函数调用功能入门 AI火箭 chatgpt openai
Javascript版Langchain入门作者：AI小火箭的HB我是AI小火箭的HB，我探索和写作人工智能和语言交叉点的所有事物，范围从LLM，聊天机器人，语音机器人，开发框架，以数据为中心的潜在空间等。介绍LangChain是一个开源Python库，用于构建由大型语言模型（LLM）支持的应用程序。它提供了一个框架，将LLM与其他数据源（如互联网或个人文件）连接起来，允许开发人员将多个命令链接在
Deepseek 对种猪市场会带来哪些影响？百态老人笔记大数据人工智能
DeepSeek对种猪市场的影响可以从以下几个方面进行分析：1.提高生产效率与降低成本根据，DeepSeek已经被用于养猪场中分析饲料配比，从而将猪的育肥周期从6个月缩短至5个月，并降低了15%的成本。这表明DeepSeek在优化养殖流程和提高生产效率方面具有显著作用，能够帮助养猪场降低运营成本，提升经济效益。2.推动智能化养殖技术的应用和提到，深度学习技术（如YOLOv5模型）已经被应用于生猪的
基于CNN-GRU-Attention混合神经网络的负荷预测方法（Python代码实现）宇哥预测优化代码学习神经网络 cnn gru
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、引言二、模型结构三、数据预处理四、模型训练与评估五、实验结果与分析六、结论与展望2运行结果3参考文献4Python代码实现及数据1概述基于CNN-GRU(convolutionalneuralnetworks-gaterecurrentunit)神经网络的电
CVPR‘24开源 | ADA-Track：端到端3D多目标跟踪最新SOTA！计算机视觉工坊 3D视觉从入门到精通 3d 目标跟踪人工智能
编辑：计算机视觉工坊添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、3DGS系列、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
OpenCV中的图像处理函数详解 Luzem0319 opencv 图像处理人工智能
在OpenCV中，图像处理函数是实现图像处理和计算机视觉任务的基础。下面将详细介绍六个重要的图像处理函数：二值化函数、自适应二值化函数、腐蚀函数、膨胀函数、仿射变换函数和透视变换函数。一、二值化函数功能二值化函数（cv2.threshold()）用于将灰度图像转换为二值图像。二值图像中，每个像素只有两种可能的值（通常是0和255），分别代表黑色和白色。参数src：输入图像，应为灰度图像。thres
OpenCV中的边缘检测和轮廓处理 Luzem0319 opencv 人工智能计算机视觉
在图像处理和计算机视觉任务中，边缘检测和轮廓处理是非常重要的步骤。OpenCV库提供了多种函数来实现这些功能，包括Sobel算子、Laplacian算子、Canny算子、findContours函数、drawContours函数以及透视变换函数等。本文将详细介绍这些函数的功能、参数、返回值和应用。1.Sobel算子函数功能：Sobel算子用于计算图像灰度的近似梯度，梯度越大越有可能是边缘。参数：s
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite