酉意铭

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）

DETR 是Facebook AI 研究院于2020年提出的一种端到端的目标检测新方法，它省略了大量人工设计的组件并且不需要NMS后处理。

论文地址：https://arxiv.org/pdf/2005.12872.pdf

对于DETR 的改进Deformable DETR 可以阅读：https://blog.csdn.net/weixin_40671425/article/details/121453942

摘要

我们提出了一种将目标检测视为直接集预测(set prediction)问题的新方法。我们的方法简化了检测pipeline，有效地消除了对许多手工设计组件的需求，例如非最大抑制程序(NMS)或anchor生成（anchor generation），这些组件明确地编码了我们关于任务的先验知识。新框架的主要成分称为 DEtection TRansformer 或 DETR，是基于集合的全局损失(set-based global loss)，通过二分匹配强制进行唯一预测，以及转transformer encoder-decoder架构。给定一组固定的学习目标查询（objects queries）集，DETR 会推理目标和全局图像上下文的关系，以直接并行输出最终的预测集。与许多其他现代检测器不同，新模型在概念上很简单，不需要专门的库。 DETR 在具有挑战性的 COCO 目标检测数据集上展示了与完善且高度优化的 Faster RCNN 基线相当的准确性和运行时性能。此外，DETR 可以很容易地推广到以统一的方式产生全景分割。我们表明它显着优于竞争基准。训练代码和预训练模型可在 https://github.com/facebookresearch/detr 获得。

1 引言

目标检测的目标是为每个感兴趣的目标预测一组边界框和类别标签。现代检测器通过在大量proposals [37,5]、anchor [23] 或窗口中心 [53,46] 上定义代理回归和分类问题，以间接方式解决此集合预测任务。它们的性能受到后处理步骤的显着影响，以折叠近似重复的预测，acnhor sets的设计以及将目标框分配给anchofrr的启发式 [52]。为了简化这些pipeline，我们提出了一种直接集预测(set prediction)方法来绕过代理任务。这种端到端的理念在复杂的结构化预测任务（例如机器翻译或语音识别）方面取得了重大进展，但尚未在目标检测方面取得重大进展：之前的尝试 [43,16,4,39] 要么添加其他形式的先验知识，或者尚未证明在具有挑战性的基准测试中具有强大的基线竞争力。本文旨在弥合这一差距。

我们通过将对目标检测视为直接集预测问题来简化训练pipeline。我们采用基于transformer [47] 的encoder-decoder架构，这是一种流行的sequence预测架构。 Transformers 的自注意力(self attention)机制明确地对序列(sequence)中元素之间的所有成对交互进行建模，使这些架构特别适用于集合预测的特定约束，例如删除重复预测。

我们的DEtection TRansformer（DETR，参见图 1）一次预测所有目标，并使用一组损失函数进行端到端训练，该函数在预测目标和GT目标之间执行二分匹配。 DETR 通过删除编码先验知识的多个手工设计的组件（如空间anchor或NMS）来简化检测流程。与大多数现有检测方法不同，DETR 不需要任何自定义层，因此可以在包含标准 CNN 和transformer类的任何框架中轻松复现。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第1张图片

图 1：DETR 通过将常见的 CNN 与transformer架构相结合，直接预测（并行）最终检测集。在训练期间，二分匹配使用GT框唯一地分配预测。没有匹配的预测应该产生“no object”（空集）类预测。

与之前关于直接集预测的大多数工作相比，DETR 的主要特征是二分匹配loss和tranaformer（非自回归）并行解码的结合 [29,12,10,8]。相比之下，之前的工作侧重于使用 RNN 进行自回归解码 [43,41,30,36,42]。我们的匹配损失函数唯一地将预测分配给GT目标，并且对预测目标的排列是不变的，因此我们可以并行检测目标。

我们在最流行的目标检测数据集 COCO [24] 上评估 DETR，与非常有竞争力的 Faster R-CNN 基线 [37] 相比。 Faster RCNN 经历了多次设计迭代，其性能自最初发布以来得到了极大的提升。我们的实验表明，我们的新模型实现了可比的性能。更准确地说，DETR 在大型目标上表现出明显更好的性能，这一结果可能是由transformer的非局部计算实现的（使用全局context）。然而，它在小物体上的性能较低。我们预计未来的工作将以与 FPN [22] 为 Faster R-CNN 所做的开发相同的方式改进这方面。

DETR 的训练设置与标准物体检测器有多种不同。 新模型需要超长的训练scheduler，并受益于transformer的辅助解码损失（auxiliary decoding losses）。我们彻底探索了哪些组件对展示的性能至关重要。

DETR 的设计理念很容易扩展到更复杂的任务。在我们的实验中，我们发现在预训练的 DETR 之上训练的简单分割head在全景分割 [19] 上优于竞争基线，这是一项最近流行的具有挑战性的像素级识别任务。

2 相关工作

我们的工作建立在多个领域的先前工作之上：用于集合预测的二分匹配损失、基于transformer的编encoder-decoder架构、并行解码和目标检测方法。

2.1 集预测

没有规范的深度学习模型可以直接预测集合。基本的集合预测任务是多标签分类（参见例如 [40,33] 以获取计算机视觉背景下的参考），其中基线方法，one-vs-rest（一对多），不适用于检测等问题，其中存在潜在的元素之间的结构（即几乎相同的框）。这些任务的第一个困难是避免接近重复。大多数当前的检测器使用非极大值抑制等后处理来解决这个问题，但直接集预测是无后处理的。他们（集预测）需要对所有预测元素之间的交互进行建模以避免冗余的全局推理方案。对于恒定大小的集预测，密集的全连接网络 [9] 就足够了，但成本很高。一般的方法是使用自回归序列模型，例如循环神经网络 [48]。在所有情况下，损失函数应该通过预测的排列保持不变。通常的解决方案是基于匈牙利算法[20]设计一个损失，以找到真实和预测之间的二分匹配。这强制排列不变性，并保证每个目标元素都有唯一的匹配。我们遵循二分匹配损失方法。然而，与大多数先前的工作相比，我们远离自回归模型并使用具有并行解码的transformer，我们将在下面描述。

2.2 transformer 和并行解码

Vaswani 等人引入了transformer [47] 作为机器翻译的新方法，他是的基于注意力的构建块。注意机制 [2] 是从整个输入序列聚合信息的神经网络层。 Transformers 引入了自注意力层，类似于非局部神经网络 [49]，它扫描序列的每个元素并通过聚合整个序列的信息来更新它。基于注意力的模型的主要优点之一是它们的全局计算和完美的记忆，这使得它们比 RNN 更适合长序列。 Transformer 现在正在自然语言处理、语音处理和计算机视觉中的许多问题中取代 RNN [8,27,45,34,31]。

Transformers 最初用于自回归模型，继早期的sequence-to-sequence模型 [44] 之后，一一生成输出标记(tokens)。然而，在音频[29]、机器翻译[12,10]、单词表示学习[8]、以及最近的语音识别 [6]。我们还将transformer和并行解码结合起来，以在计算成本和执行集合预测所需的全局计算的能力之间进行适当的权衡。

2.3 目标检测

大多数现代目标检测方法都会根据一些初始猜测进行预测。两阶段检测器 [37,5] 预测框 w.r.t.proposals，而单阶段方法进行预测 w.r.t. anchor [23] 或可能的目标中心网格 [53,46]。最近的工作 [52] 表明这些系统的最终性能在很大程度上取决于设置这些初始猜测的确切方式（很依赖初始超参设置）。在我们的模型中，我们能够通过使用绝对框预测w.r.t. 直接预测检测集来移除这种手工制作的过程并简化检测过程。输入图像而不是anchor。

set-based loss：几个目标检测器 [9,25,35] 使用了二分匹配损失。然而，在这些早期的深度学习模型中，不同预测之间的关系仅用卷积层或全连接层建模，手工设计的 NMS 后处理可以提高它们的性能。最近的检测器 [37,23,53] 与 NMS 一起使用GT和预测之间的非唯一分配规则。

可学习的 NMS 方法 [16,4] 和关系网络 [17] 明确地对不同预测之间的关系进行建模。使用直接set losses，它们不需要任何后处理步骤。然而，这些方法使用额外的手工制作的上下文特征，如proposal框坐标来有效地建模检测之间的关系，同时我们寻找减少模型中编码的先验知识的解决方案。

循环检测器：与我们的方法最接近的是用于目标检测 [43] 和实例分割 [41,30,36,42] 的端到端集预测。与我们类似，他们使用基于 CNN 激活的encoder-decoder架构的二分匹配损失来直接生成一组边界框。然而，这些方法仅在小数据集上进行评估，而不是根据现代基线进行评估。特别是，它们基于自回归模型（更准确地说是 RNN），因此它们不会利用最近的具有并行解码功能的transformer。

3 DETR 模型

检测中的直接集合预测有两个要素是必不可少的：（1）强制预测框和GT框之间唯一匹配的集合预测损失； (2) 一种预测（在一次传递中）一组目标并对其关系建模的架构。我们在图 2 中详细描述了我们的架构。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第2张图片

图 2：DETR 使用传统的 CNN backbone来学习输入图像的 2D 表示。该模型将其展平并在将其传递到transformer encoder之前用位置编码对其进行补充（简单说就是送入transformer encoder层之前，需要把backbone学习到的feature map先进行1x1卷积进行通道压缩，然后把压缩后的feature map 拍平为一个vector和位置编码这个vector相加后再送入）。然后，transformer decoder将少量固定数量的学习位置embeddings作为输入，我们称之为目标查询（object queries），并且另外注意编码器输出。我们将decoder的每个输出embedding传递给一个共享的前馈网络 (FFN)，该网络预测检测目标（类和边界框）或“无目标”类。

3.1 目标检测集合预测损失

DETR 在通过解码器的单次传递中推断出一组固定大小的 N 个预测，其中 N 设置为显着大于图像中的典型目标数量（N是预先设置的一个数，这个数远大于图像中要检测的目标）。训练的主要困难之一是根据GT对预测目标（类别、位置、大小）进行评分。我们的loss在预测目标和GT目标之间产生最佳二分匹配，然后优化特定于目标（边界框）的loss。

我们用 y 表示目标的GT集合，表示 N 个预测集合。假设 N 大于图像中目标的数量（所以一般N默认设置为一个比较大的数），我们也将 y 视为一组大小为 N 的集合，用空集（，没有目标）填充的【简单说y是GT集合用空集填充到大小为N，和预测集大小一样】。为了找到这两个集合之间的二分匹配，我们以最低代价搜索 N 个元素的排列：

其中是GT 和具有索引的预测之间的成对匹配成本(matching cost)。根据先前的工作（例如[43]），使用匈牙利算法有效地计算了这个最佳分配。

匹配成本同时考虑了类别预测以及预测框和GT框的相似性。 GT集的每个元素 i 可以看作是一个其中是目标类标签（可能是空，因为GT集会用空元素填充到和预测相同的大小N）和是一个向量，它定义了GT框中心坐标及其相对于图像大小的高度和宽度。对于索引为的预测，我们将类别的概率定义为，将预测框定义为。使用这些符号，我们将定义为

这种寻找匹配的过程与用于将proposal [37] 或anchor[22] 匹配到现代检测器中的GT目标的启发式分配规则起着相同的作用。 主要区别在于我们需要找到一对一匹配的直接集合预测，而没有重复。

第二步是计算损失函数，即上一步中匹配的所有对（pairs）的匈牙利损失。我们定义的损失类似于常见物体检测器的损失，即类预测的负对数似然和框损失的线性组合：

其中是第一步 (1) 中计算的最佳分配（即代价最小的预测）。在实践中，我们在时，降低对数概率项的权重。以因子 10 来解释类别不平衡。这类似于 Faster R-CNN 训练过程如何通过二次采样来平衡正/负proposals [37]。请注意，目标和空集不依赖于预测，这意味着在这种情况下cost是一个常数。在匹配cost中，我们使用概率而不是对数概率。这使得类预测项与（如下所述）相称，并且我们观察到了更好的经验表现。

3.2 DETR 架构

整个 DETR 架构非常简单，如图 2 所示。它包含三个主要组件，我们将在下面进行描述：用于提取紧凑特征表示的 CNN backbone、一个encoder-decoder transformer和简单的前馈网络 (FFN) 进行最终的检测预测。

与许多现代检测器不同，DETR 可以在任何提供通用 CNN backbone和transformer架构的深度学习框架中实现，只需几百行代码。在 PyTorch [32] 中，DETR 的推理代码可以用不到 50 行代码。我们希望我们方法的简单性将吸引新的研究人员加入检测社区。

Backbone： 从初始图像（具有3个颜色通道）开始，传统的 CNN backbone生成较低分辨率的激活图。我们使用的典型值是 C = 2048 和。

Transformer encoder：首先，1x1 卷积将高层激活图 f 的通道维度从 C 减少到更小的维度 d。创建一个新的特征图（先对backbone 提取的feature map采用1x1的卷积进行通道压缩）。 encoder需要一个sequence作为输入，因此我们将 z0 的空间维度折叠为一维，从而得到 d×HW的特征图（dxHxW -》 dxHW）。每个encoder层都有一个标准架构，由一个multi-head self-attention模块和一个前馈网络（FFN）组成。由于transformer架构是排列不变的（即与顺序无关），我们用固定位置编码 [31,3] 补充它，这些编码被添加到每个注意力层的输入中。我们遵循补充材料架构的详细定义，其遵循 [47] 中描述的定义。

Transformer decoder：decoder遵循transformer的标准架构，使用multi-head self-attention机制和encoder-decoder 注意力机制转换大小为 d 的 N 个embeddings。与原始transformer的不同之处在于，我们的模型在每个decoder层并行解码 N 个目标，而 Vaswani 等人 [47] 使用自回归模型一次预测一个元素的输出序列。我们建议不熟悉这些概念的读者参考补充材料。由于decoder也是排列不变的（与顺序无关），因此 N 个输入embeddings必须不同才能产生不同的结果。这些输入embeddings是被位置编码学习到的，我们称作目标查询（object queries），与encoder类似，我们将它们添加到每个注意力层的输入中。 N 个目标查询（object queries）被decoder转换为输出embeddings。然后通过前馈网络FFN（在下一小节中描述）将它们独立解码为框坐标和类标签，从而产生 N 个最终预测。在这些embeddings上使用self-attention和encoder-decoder attention，模型使用它们之间的成对关系将所有目标一起全局推理，同时能够使用整个图像作为上下文（context）。

预测前馈网络（FFNs）：最终预测由具有 ReLU 激活函数和隐藏维度为 d 的 3 层感知器和线性投影层计算。 FFN 预测输入图像 w.r.t. box的归一化中心坐标、高度和宽度。线性层使用 softmax 函数预测类标签。由于我们预测了一组固定大小的 N 个边界框，其中 N 通常远大于图像中感兴趣目标的实际数量，因此额外的特殊类标签 “空集” 用于表示槽内（slot）没有检测到物体。此类在标准目标检测方法中扮演着与 “background” 类相似的角色。

辅助解码loss：我们发现在训练期间在decoder中使用辅助损失 [1] 很有帮助，尤其是帮助模型输出每个类别的正确目标数量。我们在每个decoder层之后添加预测 FFN 和匈牙利损失（hungarian loss）。所有预测 FFN 共享它们的参数。我们使用额外的共享层范数(shared layer-norm)来规范化来自不同decoder层预测的 FFNs 输入。

4 实验

我们表明，与 Faster R-CNN 相比，DETR 在 COCO 的定量评估中取得了有竞争力的结果。然后，我们提供了架构和loss的详细消融研究，给出了insights和定性结果。最后，为了表明 DETR 是一种通用且可扩展的模型，我们展示了全景分割的结果，仅在固定的 DETR 模型上训练了一个小的扩展。我们在 https://github.com/facebookresearch/detr 提供代码和预训练模型来重现我们的实验。

Datasets：我们在 COCO 2017 检测和全景分割数据集 [24,18] 上进行实验，其中包含 118k 训练图像和 5k 验证图像。每个图像都用边界框和全景分割进行标注。每张图像平均有 7 个实例，训练集中的单个图像最多有 63 个实例，在相同的图像上从小到大。如果未指定，我们将 AP 报告为 bbox AP，即多个阈值的积分指标。为了与 Faster R-CNN 进行比较，我们报告了最后一个训练epoch的验证 AP，对于消融实验，我们报告了最后 10 个epoch的验证结果的中位数。

技术细节：我们用 AdamW [26] 训练 DETR，将初始transformer的学习率设置为 10-4，backbone 的学习率设置为 10-5，权重衰减设置为10-4。所有transformer权重都使用 Xavier init [11] 初始化，backbone使用来自 Torchvision 的 ImageNet 预训练 ResNet 模型 [15]，并冻结的BN层。我们使用两种不同的backbone报告结果：ResNet-50 和 ResNet-101。相应的模型分别称为DETR和DETR-R101。following [21] ，我们还通过向backbone的最后阶段添加 dilation 并从该阶段的第一个卷积中移除stride来提高特征分辨率。相应模型分别称为DETR-DC5和DETR-DC5-R101（dilated C5 stage）。这种修改将分辨率提高了两倍，从而提高了小物体的性能，代价是encoder的self-attention成本增加了 16 倍，导致计算成本总体增加了 2 倍。表 1 中给出了这些模型和 Faster R-CNN 的 FLOP 的完整比较。

表1：用ResNet50和ResNet101 backbone在COCO验证集上和Faster RCNN比较。上面部分展示了在Detectron2上训练的Faster RCNN结果，中间部分展示了采用了GIoU，random crop 训练时增强和长达9倍训练schedule 的Faster RCNN结果，DETR 模型实现了与经过大量调整的 Faster R-CNN baseline相当的结果，具有较低的但大大提高了（DETR对大目标的检测效果更好，应该是采用了全局上下文信息带来的收益）。我们使用 torchscript Faster R-CNN 和 DETR 模型来测量 FLOPS 和 FPS。名称中没有 R101 的结果对应于 ResNet-50。

我们使用缩放增强(scale augmentation)，调整输入图像的大小，使最短边至少为 480 像素，最多为 800 像素，而最长边最多为 1333 个pixel[50]。为了通过encoder的self-attention来帮助学习全局关系，我们还在训练期间应用了随机裁剪（random crop）增强，将性能提高了大约 1 个 AP。具体来说，将训练图像以 0.5 的概率裁剪为随机矩形块，然后再次将其大小调整为 800-1333。transformer 使用默认的 dropout 0.1 进行训练。在推理时，一些槽（slots）预测为空类。为了针对 AP 进行优化，我们使用相应的置信度用第二高的评分类别覆盖这些槽（slots）的预测（简单说，当一个slot预测为“空类”时，取该slot预测得分第二高的类别作为结果覆盖）。与过滤空槽（slot）相比，这将 AP 提高了 2 个点。其他训练超参数可以在 A.4 节中找到。对于我们的消融实验，我们使用 300 个 epoch 的训练scheduler，200 个 epoch 后学习率下降了 10 倍，其中单个 epoch 是一次遍历所有训练图像。在 16 个 V100 GPU 上训练 300 个 epoch 的baseline模型需要 3 天，每个 GPU 有 4 个图像（因此总batch size为 64）。为了与 Faster R-CNN 进行比较，我们训练了更长的scheduler，我们训练了 500 个 epoch，400 个 epoch 后学习率下降。与较短的scheduler相比，此scheduler增加了 1.5 个 AP。（缺点：训练epoch 从300涨到500，提升1.5个AP，表明DETR收敛很慢）。

4.1 和Faster RCNN比较

Transformer 通常使用 Adam 或 Adagrad 优化器进行训练，训练时间很长，并且采用 dropout，这对于 DETR 也是如此。然而，Faster R-CNN 是用 SGD 训练的，采用最少的数据增强，我们不知道 Adam 或 dropout 的成功应用。尽管存在这些差异，我们仍试图使 Faster R-CNN 基线更强大。为了使其与 DETR 保持一致，我们将广义 IoU [38]（GIoU）添加到box loss、相同的随机裁剪增强和已知可改善结果的长期训练 [13]。结果如表 1 所示。在顶部，我们展示了来自 Detectron2 Model Zoo [50] 的 Faster R-CNN 结果，用于使用 3x scheduler训练的模型。在中间部分，我们展示了相同模型的结果（带有 "+"），但使用 9x scheduler（109 个ecpoch）和所描述的增强功能进行训练，总共增加了 1-2 个 AP。在表 1 的最后一部分，我们显示多个 DETR 模型的结果。为了在参数数量上具有可比性，我们选择了一个具有 6 个transformer和 6 个宽度为 256 的decoder层和 8 个attention head的模型。像具有 FPN 的 Faster R-CNN 这个模型有 41.3M 参数，输出其中 23.5M在 ResNet-50 中，17.8M在transformer中。尽管 Faster R-CNN 和 DETR 仍有可能通过更长时间的训练进一步提高，但我们可以得出结论，DETR 可以与 Faster R CNN 竞争相同数量的参数，在 COCO val 子集上实现了 42 AP。DETR 实现这一点的方式是通过提高（+7.8），但是请注意，该模型在（-5.5）上仍然落后。DETR-DC5 与相同数量的参数和相似的 FLOP 计数具有更高的 AP，但在上仍显着落后。 Faster R-CNN 和带有 ResNet-101backbone的 DETR 也显示了类似的结果。

4.2 消融

transformer decoder中的注意力机制是对不同检测的特征表示之间的关系建模的关键组件。在我们的消融分析中，我们探索了我们架构的其他组件和loss如何影响最终性能。在研究中，我们选择了基于 ResNet-50 的 DETR 模型，具有 6 个encoder、6 个decoder层和 256 层宽度。该模型有 41.3M 参数，在短时间和长时间训练scheduler上分别达到 40.6 和 42.0 AP，并以 28 FPS 运行，类似于具有相同backbone的 Faster R-CNN-FPN。

encoder 层数：我们通过改变transformer层数来评估全局图像级self-attention的重要性（表 2）。在没有encoder层的情况下，整体 AP 下降了 3.9 个点，在大型物体上下降了 6.0 个更显着的 AP。我们假设，通过使用全局场景推理，encoder对于解开（disentangling）目标很重要。在图 3 中，我们将训练模型的最后一个encoder层的注意力图（attentione maps）可视化，重点关注图像中的几个点。encoder似乎已经分离了实例，这可能会简化decoder的目标提取和定位。

表2：encoder尺寸的影响。每行对应一个具有不同数量的encoder层和固定数量的decoder层的模型。随着更多的encoder层，性能逐渐提高。

图3：一组参考点的encoder self-attention。 encoder能够分离单个实例。在验证集图像上使用baseline DETR 模型进行预测。

decoder层数：我们在每个decoding层之后应用辅助损失(auxiliart losses)（参见第 3.2 节），因此，预测 FFN 设计训练从每个decoder层的输出中预测目标。我们通过评估将在decoding的每个阶段预测的目标来分析每个decoder层的重要性（图 4）。每一层后AP和AP50都有提升，在第一层和最后一层之间有非常显着的 AP提升 +8.2/9.5。由于其基于集合的损失（set-based loss），DETR 在设计上不需要 NMS。为了验证这一点，我们为每个decoder之后的输出运行了一个标准的 NMS 程序，其中包含默认参数 [50]。 NMS 提高了第一个decoder的预测性能。这可以解释为transformer的单个decoding层无法计算输出元素之间的任何互相关，因此容易对同一目标进行多次预测。在第二层和后续层中，激活上的自注意力机制允许模型抑制重复预测。我们观察到 NMS 带来的改进随着深度的增加而减少。在最后一层，我们观察到 AP 中的一个小损失，因为 NMS 错误地删除了正确的预测。

图4：每个decoder层后的 AP 和 AP50 性能。评估单个长schedule baseline模型。 DETR 在设计上不需要 NMS，此图验证了这一点。 NMS 降低了最后几层的 AP，去除了 TP 预测，但提高了第一层解码器的 AP，去除了双重预测，因为第一层没有通信，并且略微提高了 AP50。

与可视化encoder attention类似，我们在图 6 中可视化decoder attention，用不同颜色为每个预测目标着色attention maps。 我们观察到decoder attention是相当局部(local)的，这意味着它主要关注目标的四肢，例如头部或腿部。我们假设在encoder通过全局注意力分离实例后，decoder只需要注意四肢来提取类和目标边界。

图 6：可视化每个预测目标的decoder attention（来自 COCO val 集的图像）。使用 DETR-DC5 模型进行预测。对于不同的目标，注意力分数用不同的颜色编码。 decoder通常关注目标的四肢，例如腿和头。

FFN的重要性：transformer内部的 FFN 可以被视为 1 × 1 卷积层，使encoder类似于注意力增强卷积网络 [3]。我们试图完全移除它，只在transformer层留下注意力。通过将网络参数数量从 41.3M 减少到 28.7M，仅在transformer中留下 10.8M，性能下降了 2.3 个 AP，因此我们得出结论，FFN 对于获得良好的结果很重要。

位置编码的重要性：我们的模型中有两种位置编码：空间位置编码和输出位置编码（object queries）。我们试验了固定编码和可学习编码的各种组合，结果见表 3。输出位置编码是必需的并且不能被删除，因此我们实验要么在decoder输入处传递一次它们，要么在每个decoder注意力层添加到queries中。在第一个实验中，我们完全去除了空间位置编码并在输入处传递输出位置编码，有趣的是，该模型仍然实现了超过 32 个 AP，与baseline相比损失了 7.8 个 AP。然后，我们在输入时传递固定的正弦空间位置编码和输出编码，就像在原始transformer [47] 中一样，并发现与在注意力中直接传递位置编码相比，这导致 1.4 个 AP 下降。传递给注意力的学习空间编码给出了类似的结果。令人惊讶的是，我们发现在encoder中不传递任何空间编码只会导致下降 1.3 个AP。当我们将编码传递给注意力时，它们在所有层之间共享，并且总是学习输出编码（object queries）。

表3：与具有固定正弦位置的baseline（最后一行）相比，不同位置编码的结果。固定正弦位置编码是在encoder和decoder中的每个注意力层传递的编码。学习到的embeddings在所有层之间共享。 不使用空间位置编码会导致 AP 显着下降。有趣的是，在decoder中传递它们只会导致 AP 的轻微下降。所有这些模型都使用学习到的输出位置编码。

鉴于这些消融，我们得出结论，transformer组件：encoder中的全局self-attention、FFN、多个decoder层和位置编码，都对最终的目标检测性能有显着贡献。

loss 消融：为了评估匹配成本和loss的不同组成部分的重要性，我们训练了几个模型来打开和关闭它们。 loss包含三个组成部分：分类loss、L1 边界框距离loss和 GIoU loss[38]。分类loss对于训练是必不可少的，不能关闭，所以我们训练一个没有边界框距离loss的模型，一个没有 GIoU loss的模型，并与baseline比较，用所有三个loss训练。结果如表 4 所示。 GIoU loss本身占模型性能的大部分，仅比baseline的组合loss损失 0.7 个AP 。在没有 GIoU loss的情况下使用L1 loss显示出较差的结果。我们只研究了不同loss的简单消融（每次使用相同的权重），但其他组合它们的方法可能会得到不同的结果。

表4：loss组件对 AP 的影响。我们训练了两个模型，关闭了L1 loss和 GIoU 损loss，并观察只使用到L1 loss时的结果很差，但是当与 GIoU 结合使用时，APM 和 APL 得到了改善。我们的baseline （最后一行）结合了两种loss。

4.3 分析

decoder 输出slot分析：在图 7 中，我们可视化了 COCO 2017 验证集中所有图像的不同slot预测的框。 DETR 为每个query slot学习不同的specialization。 我们观察到每个slot都有几种操作模式，专注于不同的区域和框大小。特别是，所有slot都具有预测图像宽度boxes的模式（可见于图中间对齐的红点）。我们猜测这与 COCO 中目标的分布有关。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第9张图片

图7：对来自 COCO 2017 val 的所有图像的所有框预测的可视化，在 DETR decoder中总共 N = 100 个预测槽（slots）中的 20 个。每个框预测都表示为一个点，其中心坐标位于按每个图像尺寸归一化的 1×1 正方形中。这些点是用颜色编码的，所以绿色对应小框，红色对应大水平框，蓝色对应大垂直框。我们观察到每个槽(slot)都学会了专注于具有多种操作模式的某些区域和boxes大小。我们注意到几乎所有的槽(slot)都有一种预测大图像范围框的模式，这在 COCO 数据集中很常见。

泛化到未见数目的instancees：COCO 中的某些类在同一图像中不能用相同类的许多实例很好地表示。例如，训练集中没有超过 13 只长颈鹿的图像。我们创建了一个合成图像来验证 DETR 的泛化能力（见图 5）。我们的模型能够在图像上找到所有 24 只长颈鹿，这显然是超出分布的。这个实验证实在每个object queries中都没有很强的类专业化（class-specialization）。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第10张图片

图5：有类别的超分布泛化。即使训练集中的图像没有超过 13 只长颈鹿，DETR 也可以毫无困难地推广到 24 个或更多同一类的实例。

4.4 DETR 全景分割

全景分割 [19] 最近引起了计算机视觉社区的广泛关注。类似于 Faster R-CNN [37] 到 Mask R-CNN [14] 的扩展，DETR 可以通过在decoder输出的顶部添加一个mask head来自然地扩展。在本节中，我们展示了这样的head可以通过以统一的方式处理事物和事物类来产生全景分割 [19]。我们对 COCO 数据集的全景注释进行了实验，该数据集除了 80 个事物类别(things categories)外，还有 53 个事物类别(stuff categories)。

我们训练 DETR 来预测 COCO 上的stuff and things 类的boxes，使用相同的配方。训练需要预测框，因为匈牙利匹配是使用框之间的距离计算的。 我们还添加了一个mask head，它为每个预测框预测一个二进制mask，见图 8。它将transformer decoder输出的每个目标作为输入，并计算这个encoder输出embedding的multi-head（有 M 个头）attention 分数，以小分辨率为每个目标生成 M 个注意力热图。为了进行最终预测并提高分辨率，使用了类似 FPN 的架构。我们在补充中更详细地描述了架构。 masks的最终分辨率的stride为4，每个mask都使用 DICE/F-1 loss [28] 和focal loss [23] 独立监督。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第11张图片

图 8：全景head的图示。为每个检测到的目标并行生成二进制mask，然后使用像素级 argmax 合并make。

mask head可以联合训练，也可以分两步训练，我们只训练boxes 的 DETR，然后冻结所有的权重，只训练mask head 25 个epoch。实验上，这两种方法给出了相似的结果，我们使用后一种方法报告结果，因为它具有更短的总wall-clock训练时长。

为了预测最终的全景分割，我们只需在每个像素的mask分数上使用 argmax，并将相应的类别分配给生成的mask。这个过程保证最终的mask没有重叠，因此，DETR 不需要经常用于对齐不同掩码的启发式 [19]。

训练细节：我们按照边界框检测的方法训练 DETR、DETR-DC5 和 DETR-R101 模型，以预测 COCO 数据集中stuff and things类周围的框。新的mask head训练了 25 个epoch（详见补充）。在推理过程中，我们首先以低于 85% 的置信度过滤掉检测，然后计算每个像素的 argmax 以确定每个像素属于哪个mask。然后我们将同一材料类别的不同mask预测合二为一，并过滤空的mask（小于 4 个像素）。

主要结果：定性结果如图 9 所示。在表 5 中，我们将我们的统一全景分割方法与几种以不同方式处理things and stuff的既定方法进行了比较。我们报告全景质量 (PQ) 以及things的分解 (PQth) 和stuff (PQst)。我们还在任何全景后处理之前（在我们的例子中，在采用像素级 argmax 之前）报告；mask AP（在things classes上计算）。我们表明，DETR 在 COCO-val 2017 以及我们强大的 PanopticFPN baseline（使用与 DETR 相同的数据增强进行训练，以进行公平比较）上的已发布结果的表现优于已发表的结果。结果分解表明 DETR 在stuff classes中尤其占主导地位，我们假设encoder注意力允许的全局推理是该结果的关键因素。对于things class，尽管与mask AP 计算的baseling相比存在高达 8 mAP 的严重缺陷，但 DETR 获得了具有竞争力的 PQth。我们还在 COCO 数据集的测试集上评估了我们的方法，并获得了 46 个 PQ。我们希望我们的方法能在未来的工作中激发对全景分割的完全统一模型的探索。

DETR: End-to-End Object Detection with Transformers （论文阅读笔记）_第12张图片

图9：DETR-R101 生成的全景分割的定性结果。 DETR 以统一的方式为事物（things and stuff）生成对齐的掩码（aligned mask）预测。

表5：在 COCO val 数据集上与最先进的方法 UPSNet [51] 和 Panoptic FPN [18] 的比较我们使用相同的数据增强重新训练 PanopticFPN作为DETR，以 18 倍的时schedule进行公平比较。 UPSNet 使用 1x schedule，UPSNet-M 是具有多尺度测试时间增强的版本。

你可能感兴趣的:(目标检测,目标检测,transformer,人工智能,DETR)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
BART&BERT Ambition_LAO 深度学习
BART和BERT都是基于Transformer架构的预训练语言模型。模型架构：BERT(BidirectionalEncoderRepresentationsfromTransformers)主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
解决BERT模型bert-base-chinese报错（无法自动联网下载）搬砖修狗 bert 人工智能深度学习 python
一、下载问题hugging-face是访问BERT模型的最初网站，但是目前hugging-face在中国多地不可达，在代码中涉及到该网站的模型都会报错，本文我们就以bert-base-chinese报错为例，提供一个下载到本地的方法来解决问题。二、网站google-bert(BERTcommunity)Thisorganizationismaintainedbythetransformerstea
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name