AnZhiJiaShu

Accelerating DETR Convergence via Semantic-Aligned Matching 笔记

Accelerating DETR Convergence via Semantic-Aligned Matching 论文学习笔记

论文链接：https://arxiv.org/abs/2203.06883

语义对齐就是在描绘同一类别对象的两幅图像中,建立稠密的语义对应关系。语义在语音识别中指的是语音的意思，在图像领域，语义指的是图像的内容，对图片意思的理解

摘要： DETR (DEtection TRansformer) 通过消除手工组件（例如anchor）建立了一种新的目标检测框架。然而，DETR的收敛速度非常慢，大大增加了训练成本。我们观察到，在不同的特征嵌入空间(feature embedding spaces) 中，object query 与目标特征之间匹配的复杂性是导致收敛缓慢的主要原因。本文提出 SAM-DETR，一种语义对齐匹配 (Semantic-Aligned-Matching) DETR，能在不牺牲精度的情况下极大加快 DETR 的收敛速度。SAM-DETR从两个方面解决了 DETR 收敛速度慢的问题：

首先，它将 object query 投影到与编码图像特征相同的嵌入空间(embedding space)，通过对齐语义有效地完成匹配。
它显式地搜索最具辨别力特征的显著点进行语义对齐匹配，这进一步加快了收敛速度并提高了检测精度。

SAM-DETR 是一个即插即用的解决方案，在只引入少量计算开销的前提下很好地补充了现有的收敛解决方案。大量实验表明，SAM-DETR 不仅具有很好的收敛性，而且具有很高的检测精度。

文章目录

Accelerating DETR Convergence via Semantic-Aligned Matching 论文学习笔记
1. Introduction
2. Related Work
3. Proposed Method
- 3.1 A Review of DETR
- 3.2 SAM-DETR
- - 3.2.1 Semantic-Aligned Matching
  - 3.2.2 Matching with Salient Point Features
  - 3.2.3 Reweighting by Previous Query Embeddings
- 3.3 Compatibility with SMCA-DETR
- 3.4 Visualization and Analysis
4. Experiments
- 4.1 Experiment Results
- 4.2 Ablation Study
- 4.2 Limitation
5. 总结

1. Introduction

大多数目标检测方法由于过度依赖手工制作的组件，例如 anchor、rule-based 目标分配和非最大抑制（NMS），通常具有复杂的 pipeline和次优性能。DETR 消除了对此类手工设计组件的需求，并为目标检测建立了一个完整的端到端框架。DETR 最显著的缺点是收敛速度极慢，在COCO数据集上需要500个epoch，而Faster R-CNN 只需要12~36个epoch。缓慢的收敛问题显著增加了 DETR 的训练成本，阻碍其推广。
DETR 在 decoder 中使用一组 object query 来检测不同空间位置的目标对象。如图2所示，在 cross-attention 模块中，使用基于集合的 global loss 对 object query 进行训练，以匹配目标对象，并从匹配的区域提取相应的特征以进行后续预测。

图 2 DETR decoder 中的 cross-attention 模块可以解释为“匹配和特征提取”过程。每个 object query 首先匹配 encoded image features 中自己的相关区域，然后从匹配区域中提取特征，生成用于后续预测的输出。

然而，在初始化时，每个object query 几乎与所有空间位置相匹配，因此需要繁琐的训练迭代来学习关注相关区域。 object query 和相应的目标特征之间的匹配困难是DETR收敛缓慢的主要原因。
最近一些方法也致力于解决DETR的收敛缓慢问题。例如，Deformable DETR用只关注一小部分特征的可变形 attention 取代了原来的 global dense attention，以降低复杂性并加快收敛速度。Conditional DETR 和SMCA-DETR 将 cross-attention 模块修改为空间条件性。相比之下，我们的方法并不改变注意力机制。
我们的核心思想是简化 object query 与其对应的目标特征之间的匹配过程。 Siamese-based 架构定义了一个非常好的匹配方法，该架构通过两个相同的子网络将匹配双方的语义对齐，以将它们投射到相同的嵌入空间。基于这一动机，我们提出了语义对齐匹配 DETR（SAM-DETR），它在cross-attention 模块之前附加了一个即插即用的模块，以便在语义上将 object query 与编码的图像特征 (encoded image features) 对齐，从而促进它们之间的后续匹配。这为object query 提供了一个强大的先验知识，使其能够关注编码图像特征中语义相似的区域。此外，基于物体的关键点和末端在识别和定位中的重要性，我们提出显式搜索多个显著点，并使用它们进行语义匹配，这自然符合原始DETR的多头注意力机制。我们的方法只在原始DETR中引入了一个即插即用模块，而保持大多数其他操作不变。
总之，我们有4项贡献：

首先，我们提出语义对齐匹配DETR（SAM-DETR），它创新性地将cross-attention 解释为一个“匹配和蒸馏(提取)”过程，并在语义上将object query 与编码图像特征对齐以促进匹配，从而显著加快 DETR 的收敛。
第二，我们显式地搜索具有最具辨别力特征的 objects 的显著点 salient point ，并将其提供给 cross-attention 模块进行语义匹配，这进一步提高了检测精度，加快了模型的收敛速度。
第三，实验证明 SAM-DETR 比 DETR 具有更快的收敛速度。
第四，由于我们的方法只在原始 DETR 中添加一个即插即用模块，而保持其他操作不变，因此 SAM-DETR 可以很容易地与现有其他解决方案（这些解决方案修改了注意力机制来提高 DETR 的收敛速度）集成。SAM-DETR甚至能在12个训练 epoch 内，与 Faster R-CNN 的收敛速度相当。

2. Related Work

Object Detection. 现代目标检测方法可分 one-stage 和 two-stage两类。two-stage detector 主要包括 Faster R-CNN 及其变体，它们使用 Region Proposal Network（RPN）生成 region proposals，然后对每个区域进行预测。One-stage detetors 跳过 proposal 生成，直接在密集的滑动窗口(anchor) 或 object 中心上执行 object 分类和定位。然而，这些方法大多数仍然依赖于许多手工制作的组件，例如anchor的生成、rule-based 训练目标分配和非最大抑制（NMS）后处理，因此不是完全端到端的。
DETR 不同于上述的检测器，建立了一种新的目标检测范式。它采用Transformer encoder-decoder 体系结构和一个 set-based global loss 替换手工制作的组件，实现了第一个完全端到端的object detector。然而，与two-stage 和 one-stage 检测器相比，DETR的收敛慢，需要额外的长时间训练才能达到良好的性能。最近一些方法被提出来解决此问题：Deformable DETR用 sparse deformable attention 取代原来的密集注意力；Conditional DETR和SMCA-DETR分别提出了Conditional cross-attention 和空间调制共注意力（Spatially Modulated Co-Attention (SMCA)）来取代DETR decoder 中的cross-attention 模块，旨在对原始的 cross-attention 施加空间约束，以更好地聚焦显著区域。我们的目标也是改善 DETR 的收敛性，但从不同的角度出发。我们的方法没有改变 DETR 中原有的注意力机制，因此可以与现有方法互补。
Siamese-based Architecture for Matching. 匹配是视觉任务中的一个常见概念，尤其是在对比任务中，如人脸识别、再识别目标跟踪、少量镜头few-shot识别等。匹配的核心思想是预测两个输入之间的相似性。实验证明，Siamese-based 体系结构将匹配双方投影到同一嵌入空间，在涉及匹配的任务中表现得格外出色。我们基于这一观察结果，将 DETR 的 cross-attention 解释为一个“匹配和特征提取”过程。实现快速收敛的关键是要确保 object query 和编码图像特征之间的语义一致，即它们都被投影到同一个嵌入空间中。

3. Proposed Method

本节先回顾DETR的基本架构，然后介绍语义对齐匹配 DETR（SAM-DETR）架构，并展示如何将 ours 与现有的加快收敛的解决方案相结合，进一步提高 DETR 的收敛性。最后通过几个例子的可视化，说明 ours 的机制并证明其有效性。

3.1 A Review of DETR

DETR 将目标检测任务表示为一组预测问题，并使用 Transformer 编码器-解码器体系结构解决该问题。给定一张输入图像 $I\in\mathbb{R}^{H_0\times W_0\times3}$ ，backbone 和 Transformer encoder 生成编码的图像特征(encoded image features) $F\in\mathbb{R}^{HW\times d}$ (二维的)，d是特征的维度。 $H_0$ 、 $W_0$ 和 $H$ 、 $W$ 分别表示图像和特征的空间大小。然后，编码图像特征 $F$ 和一小组 object query $Q\in\mathbb{R}^{N\times d}$ 被送到Transformer解码器以产生检测结果，其中 $N$ 是 object query的数量，通常为100∼300。
在 Transformer decoder 中，object query 由一个 self-attention 模块、一个cross-attention模块，和一个前馈网络 feed-forward network (FFN) 顺序处理，产生输出，输出再进一步经过多层感知器（MLP）来生成预测结果。该过程可解释为：object query 表示不同空间位置的潜在 object ；self-attention 模块在不同的 object query 之间进行消息传递；在cross-attention 模块中，object query 首先搜索要匹配的对应区域，然后从匹配区域中提取相关特征，用于后续预测。 cross attention 机制的表述如下：

其中，其中 $W_q、W_k和W_v$ 是注意力机制中 query、key 和 value 的线性projection。理想情况下，交叉注意力模块的输出 $Q\in\mathbb{R}^{N\times d}$ 应该包含从编码图像特征中提取的相关信息，以预测 object 的类别和位置。然而，object query 与编码图像特征中的所有空间位置都相等匹配，因此对于 object query 来说，如何正确地聚焦于特定区域是一个非常具有挑战性的问题。导致DETR收敛速度慢的关键因素是匹配困难。

3.2 SAM-DETR

SAM-DETR 旨在通过将 object query 和编码图像特征语义对齐到相同的嵌入空间，从而加快DETR的收敛，缓解等式1中的匹配困难。SAM-DETR 与 DETR 的主要区别 在 Transformer decoder 层。如图3（a）所示， SAM-DETR在 cross-attention 模块之前附加了语义对齐模块 (Semantics Aligner module) ，通过对可学习的 reference boxes 进行建模来促进匹配过程。与DETR相同，解码器层重复六次，第一层的输入为零，后续层的输入为前一层的输出。

图 3. SAM-DETR 将语义对齐附加到Transformer解码器层。
(a) SAM-DETR中一个解码器层的结构。 它为每个 object query 建模一个可学习的 reference box，reference box 的中心位置用于生成相应的 position embedding。在reference box 的指导下，语义对齐器 Semantics Aligner 生成新的 object query，这些 query 在语义上与编码的图像特征对齐，从而促进它们的后续匹配。

可学习的 refrence box $R_{box} \in\mathbb{R}^{N\times 4}$ 在第一个 decoder 层建模，表示相应 object query 的初始位置。在这些 refrence box 的定位指导下，语义对齐器 Semantics Aligner 将先前的 object query embeddings $Q$ 和编码的图像特征 $F$ 作为输入，生成 new object query embeddings $Q^{new}$ 及其 position embeddings $Q^{new}_{pos}$ ，并反馈给后续的 cross attention 模块。生成的 $Q^{new}$ 被强制与编码图像特征 $F$ 位于相同的嵌入空间中，这有助于它们之间的后续匹配，使 object query 能快速且正确地关注编码图像特征中的相关区域。

3.2.1 Semantic-Aligned Matching

如 eq.1和图2所示，cross-attention 模块将点积应用于 object query 和编码图像特征，生成注意力权重图，指示 object query 和目标区域之间的匹配。点积能测量两个向量之间的相似性，使 object query 对更相似的区域具有更高的注意力权重。然而，DETR并没有强制执行object query 和编码图像特征语义对齐（即投影到相同的嵌入空间）。因此，在初始化时，object query embedding 被随机投影到嵌入空间，与编码图像特征的所有空间位置同等匹配。因此，需要长时间训练，才能学会它们之间有意义的匹配。
基于上述观察，语义对齐器设计了一种语义对齐机制，确保 object query embeding 与编码图像特征位于同一嵌入空间，从而保证它们之间的点积能度量相似性。这基于 reference box 对编码图像特征中的 object query 进行重采样来实现，如图3(b)所示。

图 3. SAM-DETR 将语义对齐附加到Transformer解码器层。
(b) 语义对齐器 Semantics Aligner pipeline 。为简单起见，只演示一个object query。它首先利用 Reference Boxes，通过RoIAlign从相应区域提取特征。然后使用 region feature 预测显著点的坐标。之后用 Previous Query Embeddings 重加权这些显著点的特征，以合并有用信息。最后将显著点的特征提取为具有对齐语义的 New Query Embeddings

给定编码图像特征 (Encoded Image Features) $F$ 和 object query 的 Reference Boxes $R_{box}$ 。语义对齐器 Semantics Aligner 首先将编码图像特征 $F$ 的空间维度从 1D sequences $H W \times d$ reshape 为 2D maps $H \times W \times d$ ，然后使用 RoIAlign 从编码图像特征 $F$ 中提取 region-level 特征 $F_R\in\mathbb{R}^{N\times 7\times 7\times d}$ ，之后通过从 $F_R$ 中 重采样 获得 new Query Embeddings $Q^{new}$ 和 new Query Pos. Embeddings $Q^{new}_{pos}$ 。上述过程可通过 eq. 2，eq. 3进行描述：

由于重采样过程不涉及任何投影，因此 new Query Embeding $Q^{new}$ 与编码图像特征 $F$ 共享完全相同的嵌入空间，从而为 object query 聚焦于语义相似区域提供了强大的先验知识。

3.2.2 Matching with Salient Point Features

Multi-head attention 在DETR中发挥不可或缺的作用，多头注意力允许每个头部专注于不同的部位，从而显著增强其建模能力。此外，之前很多工作确定了目标检测中 Salient Point 的重要性。受这些观察结果的启发，我们提出显式搜索多个Salient Point，并利用它们的特征进行上述语义对齐匹配，而不是通过平均池或最大池进行重采样。显式搜索多个Salient Point的设计适合于多头注意机制，无需任何修改。
$M$ （通常取 8 ）表示多头注意力的 head 数量，如图3(b)所示，在通过RoIAlign检索 region-level 特征 $F$ 后，我们应用 ConvNet 和 MLP 来为每个区域预测 $M$ 个坐标 $R_{SP}\in\mathbb{R}^{N\times M\times 2}$ ，表示对识别和定位 object 至关重要的 Salient Point 。
Note：我们将预测坐标限制在 reference boxes 内。然后通过双线性插值从 $F_R$ 中采样显著点的特征。最后，将 $M$ 个特征向量与 $M$ 个搜索到的显著点相对应，作为新的 object query embedding，使每个注意力头都能聚焦于一个 Salient Point 的特征。

以 salient points 的 image-scale 坐标作为输入，通过正弦函数生成new query pos. embedding。连接与 $M$ 个 salient points 相对应的位置嵌入以提供给后续的 multi-head cross-attention 模块。

3.2.3 Reweighting by Previous Query Embeddings

语义对齐器 Semantics Aligner 可以有效地生成新的 object query，这些 query 在语义上与编码的图像特征保持一致，但也带来了一个问题：在 cross-attention 模块中根本没有利用包含有价值检测信息的previous query embeddings $Q$ 。为解决此问题，语义对齐器将previous query embeddings $Q$ 作为输入，通过线性投影和 sigmoid 函数生成重加权系数。通过元素相乘和重加权系数，new object query embeddings $Q^{new}$ 及其 position embeddings $Q^{new}_{pos}$ ，都被重加权，以突出重要特征，因此，可以有效地利用 previous query embeddings $Q$ 中的有用信息。这个过程可以用以下公式表述：

$W_{RW1}$ 和 $W_{RW2}$ 表示线性映射， $\sigma(.)$ 表示sigmoid函数， $\otimes$ 表示元素乘法。

3.3 Compatibility with SMCA-DETR

本节介绍 SAM-DETR 对 SMCA-DETR 的兼容性。SAM-DETR 没有改变DETR 中的注意力机制以及大多数操作，只添加了一个即插即用模块，计算开销很小，因此可以与现有的收敛解决方案以互补的方式工作，从而进一步促进DETR的收敛。通过将其与现有的加速 DETR 的 sota 方法：SMCA-DETR相结合，展示了 ours 良好兼容性。
SMCA-DETR 用Spatially Modulated Co-Attention（SMCA）取代了原来的cross-attention，SMCA估计 object query 的空间位置，并应用 2D-Gaussian weight maps 来约束注意力响应。在SMCA-DETR 中，2D-Gaussian weight maps 的中心位置和比例都是通过 object query embedding 来预测的。为了将 SAM-DETR与SMCA相结合，我们做了一些轻微的修改：我们采用语义对齐器预测的 $M$ 个显著点的坐标作为 2D-Gaussian weight maps 的中心位置，同时根据 pooled RoI features 预测 weight maps的比例。实验结果证明了 ours 和 SMCA-DETR 之间的互补效应。

3.4 Visualization and Analysis

图4可视化了语义对齐器 Semantics Aligner 搜索的显著点Salient Points ，以及从多头交叉注意模块生成的注意力权重图。我们还将其与原始DETR的注意力权重图进行了比较，两模型以ResNet-50为backbone，训练了12个epoch。

图 4. SAM-DETR搜索的显著点及其注意力权重图的可视化结果。
搜索到的显著点大多位于目标对象内，并精确地指示具有最具识别性特征的位置，用于目标识别和定位。与原始 DETR 相比，SAM-DETR的注意力权重图更精确，表明我们的方法有效地缩小了匹配的搜索空间，并有利于收敛。相比之下，原始DETR的注意力权重图更加分散，这表明它在匹配相关区域和提取显著特征方面效率低下。

从图中可以看出，搜索的显著点大多位于目标对象内，通常是对对象识别和定位至关重要的最独特的位置。这说明了 ours 在为后续匹配过程搜索显著特征方面的有效性。此外，如不同头部的注意力权重图所示，每个显著点的采样特征可以有效地匹配目标区域，缩小注意力区域图的搜索范围。相比之下，由原始DETR生成的注意力图更加分散，无法高效准确地定位肢体。这种观察符合我们的动机，即 object query 与目标特征匹配的复杂性是 DETR 收敛缓慢的主要原因。可视化结果也证明了通过语义对齐匹配和显式搜索显著特征来缓解匹配困难的有效性。

4. Experiments

4.1 Experiment Results

表1 在COCO 2017 val set 上 SAM-DETR、其他类似 DETR ，以及 Faster RCNN 的对比结果。

4.2 Ablation Study

表2 在 COCO val 2017上对我们提出的设计选择进行了研究。
”SAM“ 表示语义对齐匹配。
”RW“ 表示通过 previous query embeddings 重加权。
实验研究了 SAM 的不同重采样策略，包括平均池（Avg）、最大池（max）、一个显著点（SP x1）和八个显著点（SP x8）。

表3 在COCO val 2017上显著点搜索范围的消融实验。

4.2 Limitation

与 FASTER R-CNN相比，SAM-DETR 继承了 DETR 在大对象上的优越精度，在小对象上的性能下降。提高小物体精度的一种方法是利用多尺度特征，我们将在未来对此进行探索。

5. 总结

本文提出 SAM-DETR 来加速 DETR 的收敛。SAM-DETR 的核心是一个即插即用模块，该模块在语义上对齐 object query 和编码图像特征，以促进它们之间的匹配。它还显式搜索语义匹配的显著点特征。SAM-DETR可以轻松地与现有的收敛解决方案集成，以进一步提高性能，从而在12个训练周期内获得与 Fatser R-CNN相当的精度。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
928、在新冠的日子里（2）隔离天使小鱼儿
昨天YD全部人员核酸检测阴性。但是也都不能回家，要隔离14天，按规定执行。小红也是其中之一，今天是第三天，第二夜，门把手的源头还没有通报，在排查中。隔离措施是对的。是人？是物？是相似病毒？希望是虚惊一场。昨天，单位排长队，做核酸检测。我们都统一做了检测。现在出去做事，核酸检测是必须的。我今天也要外出做事，所以核酸检测也要提供。给小红准备了简单的替换衣服。我们也按规定执行。问闺蜜你们也都不回家吗？回
乡愁誰家今夜扁舟子
从前乡愁是一张张火车票我在这头故乡在那头而现在乡愁是一张张核算检测证明我在这头故乡说：你就在那头吧，别回这头！
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
国庆节的一天安心雨
昨晚朋友间就转发国庆阅兵时间安排细节。今早，六点起床，到公园散步，一路上国旗招展，浓浓喜庆味。图片发自App准时坐到电脑前，拉上窗帘，关了房门，一个人静静感受，视觉和心灵的震撼。怕大脑内存不足，想要永远留存住那些属于这个时代，属于这个国家的骄傲。于是，拿出手机，对着屏幕拍了一张一张又一张。下午，朋友圈各种关于国庆的想法、评论、图片刷屏，翻了一遍一遍又一遍，每一遍都是骄傲和自豪。为生在这个伟大的时代
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
idea使用自定义checkstyle.xml配置文件 Gemkey
1.下载插件image.png2.插件安装完后,找到设置中的checkstyle,点击"+",新增自定义规则image.png3.输入描述信息,点击Browse找到对应的文件image.pngimage.png4.可以把active勾上,则使用默认校验规则,点击OK,则可以开始使用自定义规则检测单个文件了image.png
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
2022-07-06 榜一大哥啊
非洲猪瘟检测流程要点1、进入实验室按照要求穿好装备进入实验室，病原稀释及制备，将实验用假阳性按照倍数稀释，最高稀释到一万倍。所有操作流程都在生物安全柜进行，按照流程进行编号，编写检测编号。在每个实验室都要将白大褂以及手套进行更换。2、到试剂准备区进行试剂准备，按照样品数量加阴阳对照进行配备，该项目在超净工作台进行。将制备好的试剂放入传递窗，进入核酸提取环节。3、核酸提取区，进行核酸提纯，用磁吸法核
你会读书吗阿杰说澄长
一上学那会，朋友W报名了一个快速阅读培训课。出于好奇，我拿着他的培训资料进行了一个月的自我训练，并一度深陷其中。材料主要是无规则的符号以及横跨A4纸的连线，通过视线快速移动，扩大视幅来提升信息的接受速度，又通过图案和符号锻炼大脑的视觉记忆，摆脱音读习惯。那一个月，我沉溺其中，每天用很多的时间练习。一个月后，我确实做到了快速阅读，以句群接受信息，一目一行。只是速度虽快，却读过无痕，该知道的全忘记了。
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
228.第一个错误的版本 vbuer
你是产品经理，目前正在带领一个团队开发新的产品。不幸的是，你的产品的最新版本没有通过质量检测。由于每个版本都是基于之前的版本开发的，所以错误的版本之后的所有版本都是错的。假设你有n个版本[1,2,...,n]，你想找出导致之后所有版本出错的第一个错误的版本。你可以通过调用boolisBadVersion(version)接口来判断版本号version是否在单元测试中出错。实现一个函数来查找第一个错
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
Cut, Paste and Learn方法解读 wangxinwei2000 深度学习人工智能
Abstract问题背景：标注数据的缺乏：在实例检测任务中，部署物体检测模型的一个主要障碍是缺乏大量标注数据。例如，在一个特定的厨房环境中找到包含实例的大型标注数据集是不太可能的。每当面对新的环境和新的物体实例时，都需要进行昂贵的数据收集和标注工作。研究贡献：解决方法：本文提出了一种简单的方法，可以以最小的努力生成大量标注的实例数据集。关键洞察：研究者的关键洞察是，仅仅确保“局部真实感”（patc
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Java【泛型】 SkyrimCitadelValinor Java基础 java
Java泛型的概述不同类的数据如果封装方法相同，不必为每一种类单独定义一个类，只需定义一个泛型类，减少类的声明，提高编程效率。通过准确定义泛型类，可避免对象类型转换时产生的错误。泛型又提供了一种类型安全检测机制，只有数据类型相匹配的变量才能正常的赋值，否则编译器就不通过。Java中的泛型与C++类模板的作用相同，但是编译方式不同，Java泛型类只会生成一部分目标代码，牺牲运行速度，而C++的类模板
什么是接口测试？做接口测试的意义是什么？白码会说软件测试接口测试软件测试
Timewilltell.1、什么是接口测试？为什么要做接口测试？接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过程，以及系统间的相互逻辑依赖关系等。由于如今的系统复杂度不断上升，传统的测试方法成本急剧增加且测试效率大幅下降，所以就要做接口测试。同时，接口测试相对容易实现自动化持续集成，且相
Python和MATLAB及C++信噪比导图(算法模型) 亚图跨际算法交叉知识 Python 视频图像修复模数转换信号链噪音频谱计算量化周期性视觉刺激高斯噪声的矩形脉冲心率失常检测算法
要点视频图像修复模数转换中混合信号链噪音测量频谱计算和量化周期性视觉刺激脑电图高斯噪声的矩形脉冲总谐波失真周期图功率谱密度各种心率失常检测算法胶体悬浮液跟踪检测计算交通监控摄像头图像噪音计算Python信噪比信噪比是科学和工程中使用的一种测量方法，用于比较所需信号水平与背景噪声水平。信噪比定义为信号功率与噪声功率之比，通常以分贝表示。高于1:1（大于0dB）的比率表示信号大于噪声。信噪比是影响处理
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
七绝理想（新韵）清风8351
看图作诗七绝理想（新韵）未出旭日朝霞美，碧水青山秀彩妆。努力拼搏为理想，扬帆破浪奔前方。平平仄仄平平仄，仄仄平平仄仄平。仄仄平平平仄仄，平平仄仄仄平平。----作品----未出旭日朝霞美碧水青山秀彩妆【妆：十唐】押韵努力拼搏为理想扬帆破浪奔前方【方：十唐】押韵---检测结果(中华新韵)---存在多音字：为奔，请根据词意判断平仄平仄符合要求，请留意多音字！
题解 | #完全数计算#不知道为什么没超时的暴力解法 huaxinjiayou java
兄弟们，坚持就是胜利啊，找工作从去年秋招就开始找，到五月底才收到第一个offer星环的，然后六月初t咋六月了还有面试啊，有兄弟了解这个部门吗面完了家人们，纯纯kpi啊，上来就是一道题是打印多个字符串的华为接头人话术指南：欲投华为，必看此贴!引流华为招聘提前批【奖】这个夏天，和牛牛一起打卡刷题~Java面试实战项目25届本科找暑期实习的历程飞猪旅行运营岗面经百度视觉算法一面面经感谢牛友们，腾子pcg
深圳疫情最新情况—龙岗坂田全员核酸检测苌疏
一早上就看到群消息关于疫情的事，我工作的附近出现了一起病历，消息一出来，工作群都炸了，都在议论纷纷，没过多久，又出现了坂田地区全员核酸检测的消息。一时之间，人心惶惶，居家隔离的隔离，在辖区上班的我也开始一出小区门口就带上了口罩。像往常一样去上班坐地铁，依旧拥挤，没有异常，但是在小区路过时，看见排着的长队，突然意识到疫情离我这么近，有点慌，他就像一只蟑螂，突然就出现你面前，让你猝不及防。发此文没有别
七绝油菜花清风8351
看图作诗油菜花开遍地黄，文人墨客赛诗章。他言色彩太单调，我道纯洁蕊更香。仄仄平平仄仄平，平平仄仄仄平平。平平仄仄平平仄，仄仄平平仄仄平。----作品----油菜花开遍地黄【黄：十唐】押韵文人墨客赛诗章【章：十唐】押韵他言色彩太单调我道纯洁蕊更香【香：十唐】押韵---检测结果(中华新韵)---存在多音字：单调更，请根据词意判断平仄平仄符合要求，请留意多音字！
【STM32系统】基于STM32设计的锂电池电量/电压检测报警器系统——文末完整资料下载（程序源码/电路原理图/电路PCB/设计文档/模块资料/元器件清单/实物图/答辩问题技巧/PPT模版等）阿齐Archie 单片机嵌入式项目 stm32 嵌入式硬件单片机
基于STM32设计的锂电池电量/电压检测报警器系统系统视频：摘要：本设计旨在研究一个基于STM32F103C8T6微控制器的锂电池电量/电压检测报警器系统，应用于便携式电子设备电池管理。系统通过STM32的ADC模块对锂电池电压进行采集，利用LCD1602显示模块实时显示电池电压，当检测到电池电量不足或电压异常时，蜂鸣器报警模块会发出警报提醒用户。系统采用简单的硬件结构和优化的软件架构，通过对实际
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla