旅途中的宽~

【计算机视觉】A Simple Framework for Open-Vocabulary Segmentation and Detection论文解读

上排：OpenSeeD对开放词汇的实例分割和检测、全景和语义分割、野外实例分割和给定参考框位置和概念的条件分割的可视化。

下一行：我们的OpenSeeD模型在零射击和特定任务传输设置的八个基准测试中优于以前最先进的方法(每个灰条下面列出)。

文章目录

一、导读
二、介绍
三、Related Work
- 3.1 Generic Segmentation and Detection
- 3.2 Open-Vocabulary Segmentation
- 3.3 Open-Vocabulary Detection
- 3.4 Weakly-Supervised Segmentation
- 3.5 Learning from Box and Mask
四、方法
- 4.1 基本损失公式
- 4.2 Bridge Task Gap: Decoupled Foreground and Background Decoding
- - 4.2.1 语言引导的前景查询选择
  - 4.2.2 Learnable background queries
- 4.3 Bridge Data Gap: Conditioned Mask Decoding
五、实验
六、总结

一、导读

我们提出了OpenSeeD，一个简单的开放词汇分割和检测框架，它可以从不同的分割和检测数据集中共同学习。为了弥补词汇量和标注粒度的差距，我们首先引入一个预训练的文本编码器，对两个任务中的所有视觉概念进行编码，并为它们学习一个共同的语义空间。与只在分割任务上训练的对手相比，这给了我们相当好的结果。为了进一步协调它们，我们找到了两个差异:1)任务差异——分割需要同时提取前景对象和背景对象的掩码，而检测只关心前者;Ii)数据差异框和掩码注释具有不同的空间粒度，因此不能直接互换。为了解决这些问题，我们提出了一种解耦解码来减少前景/背景之间的干扰，并提出了一种条件掩码解码来帮助生成给定盒子的掩码。

为此目的，我们开发了一个包含所有三种技术的简单编码器-解码器模型，并在COCO和Objects365上对其进行联合训练。经过预训练，我们的模型在分割和检测方面都表现出竞争性或更强的 zero shot 可转移性。具体来说，OpenSeeD在开放词汇实例和跨5个数据集的全视分割方面击败了最先进的方法，并且在类似设置下优于LVIS和ODinW上的开放词汇检测。当转移到特定任务时，我们的模型实现了新的SoTA，用于COCO和ADE20K的全景分割，以及ADE20K和cityscape的实例分割。图1中的下一行显示了OpenSeeD和以前的SoTA方法的性能比较。最后，我们注意到OpenSeeD是第一个探索分割和检测联合训练潜力的，并希望它可以作为在开放世界中为这两个任务开发单个模型的强大基线。

二、介绍

开发可转移到新概念或新领域的视觉系统已成为一个重要的研究课题。鉴于开创性工作CLIP中展示的强 zero shot 可转移性，许多研究人员试图通过利用大规模图像-文本对来构建高级开放词汇表模型，用于细粒度视觉任务，如检测和分割。

可以说，检测和分割等核心视觉任务在词汇量和监督的空间粒度上是相当不同的，如图2 (a)所示。例如，常用的公共检测数据集Objects365在大约1.7M的图像中包含365个概念的框注释，而COCO中的掩码注释在0.1M的图像中仅涵盖133个类别。

以前的工作已经探索了利用大量图像文本数据进行开放词汇检测或分割的不同方法，例如从多模态基础模型中提取视觉语义表示，设计细粒度或增强对比学习方法或利用伪标记技术。

据我们所知，大多数(如果不是全部的话)都集中在如何提高检测或分割的性能上。

此外，将弱图像级监督转移到细粒度任务通常需要复杂的设计来缓解巨大的粒度差距，并且容易受到图像-文本对中的噪声的影响。

这就引出了一个很自然的问题：我们能否将检测和分割连接起来，使两者之间的差距更小，从而获得一个良好的开放词汇表模型?

退一步说，将检测和分割结合起来的方法以前主要有两种。一方面，Mask R-CNN 是最早提出在COCO上联合学习检测和实例分割的作品之一。另一方面，研究表明，在Objects365上预训练的检测模型可以可行地转移到COCO全景分割中。然而，如图2 (b)所示，前一种方法需要在包含对齐框和掩码注释的同一数据集上训练模型，而后一种方法遵循预训练-然后微调协议，导致两个独立的闭集模型。

在这项工作中，我们首次提出了从检测和分割数据中共同学习，更重要的是为这两个任务提供了一个开放词汇表模型(图2 (b)底部)。实现这一目标需要回答两个关键问题:i)如何在检测和分割数据之间传递语义知识;二是如何弥合 box 监督与 mask 监督之间的差距。

首先，两个任务之间的词汇有共同之处，但也有很大的差异。我们需要适应这两种词汇表，并进一步走向开放词汇表。其次，语义和全景分割任务不仅需要分割前景对象(如“狗”和“猫”)，还需要分割背景概念(如“天空”和“建筑”)，而检测任务只关心前景对象。第三， box 监督本质上比 mask 监督粗糙。我们可以把 mask 变成 box，但反过来却很难。

最后，我们提出了OpenSeeD，这是一个简单的编码器-解码器框架，通过减轻上述问题来调和这两个任务。

具体来说，我们首先利用单个文本编码器对数据中出现的所有概念进行编码，并训练我们的模型将视觉标记与公共空间中的语义对齐。

其次，我们明确地将解码器中的 object queries 分为两个子类型：前景和背景 queries，其中第一组负责来自分割和检测的前景对象，而第二组仅负责分割中的背景对象。

第三，引入条件掩码解码，从分割数据的真值盒中学习解码掩码，并生成检测数据的掩码助手。因此，我们的OpenSeeD能够无缝地从单独的检测和分割数据中学习，并在各种任务/数据集中实现出色或具有竞争力的零射击和传输性能。图1显示了我们的模型在实例、全景和语义分割任务上的可视化。它还展示了在与我们的训练数据(如SeginW数据集)有很大差异的数据集上的分割结果，并展示了OpenSeeD的条件分割能力。鉴于这些令人鼓舞的结果，我们希望我们的工作可以作为为这两个任务开发单一开放词汇表模型的第一个强有力的基线。

总而言之，我们的主要贡献是：

我们是第一个提出一个强大的基线模型，它可以从检测和分割数据中共同学习，并为这两个任务建立一个开放词汇表模型。
我们定位了两个任务/数据集的差异，并提出了单独的技术，包括共享语义空间、解耦解码和条件掩码辅助来缓解问题。
通过在分割和检测数据上联合训练我们的模型，我们在各种数据集上实现了最先进的零射击和任务转移的分割性能，以及零射击目标检测的竞争性能。

(a)不同视觉任务/数据集的语义词汇量和空间粒度比较。“ITP”是指图像-文本对;“OD”表示目标检测，“SG”表示分割。我们的OpenSeeD是第一个在分割和检测(灰色区域)上共同学习的开放词汇模型。(b)不同类型的方法将目标检测和分割联系起来。

三、Related Work

3.1 Generic Segmentation and Detection

检测和分割一直是视觉界长期存在的问题。这两项任务都需要理解视觉概念是什么，在哪里，但具有不同的空间粒度。通用分割主要包括实例分割、语义分割和泛视分割，针对不同的语义。近年来，基于Transformer的Detection Transformer (DETR)在许多检测和分割模型上取得了重大进展。然而，所有这些方法都受限于有限的词汇表大小。

3.2 Open-Vocabulary Segmentation

许多开放词汇分割模型利用大型预训练的视觉语言模型(例如CLIP或ALIGN)来提取或转移视觉语义知识。

除了使用基础模型外，DenseCLIP和GroupViT表明，从基础模型进行微调或从头开始训练也可以产生优越的零射击性能。最近，X-Decoder提出将所有类型的分词任务和几种视觉语言任务统一起来进行开放词汇分词。在ODISE中，作者研究了一种使用文本到图像扩散模型作为开放词汇分词主干的新方法。与之前的工作不同，我们的模型探索将分割和检测连接起来，这两种方法的数据更清晰，彼此之间的差距更小。

3.3 Open-Vocabulary Detection

类似地，一些开放词汇表检测模型直接利用基础模型进行蒸馏或转移，如OV -DETR和VILD。最近，GLIP将检测作为一个特殊的接地问题来表述，以统一检测和短语接地任务。这些接地数据有助于改善短语和区域之间的对齐，以进行开放检测。

RegionCLIP和DetCLIP从图像-文本对生成伪框标签，用于更广泛的检测。

3.4 Weakly-Supervised Segmentation

弱监督分割通常只使用方框注释作为监督来生成分割。突出的方法是设计教师模型或弱监督损失，如BoxInst、Box2Mask、DiscoBox和Mask autoabelers。这些模型都是闭集的，通常不如有分割监督的模型。

相比之下，我们尝试从开放词汇表模型的分割和检测中尽可能多地利用监督。

3.5 Learning from Box and Mask

主要有两种方法来学习box和mask。第一种是在单个数据集上同时使用框和掩码注释进行训练。突出的方法有Mask R-CNN和HTC。然而，它们仅限于前景实例。第二种方法是只进行box监督预训练，然后再进行分割。例如，HTC和Mask DINO都可以从大规模的检测数据中学习，然后对特定的分割数据集进行微调。然而，这种预训练和微调协议导致两个单独的模型，它们只能检测或分割。此外，这两种模型都是闭集的，因此不能转移到新的概念中。

四、方法

给定分割和检测数据集，OpenSeeD旨在为这两项任务学习开放词汇表模型。

形式上，设 $D_m = \{I_i，(c_i, m_i)\}_{i=1}^M$ 表示大小为 M 的分割数据集， $D_b = \{I_j， (c_j, b_j)\}_{j=1}^N$ 表示大小为 N 的检测数据集，其中 c 为图像中的视觉概念，m 和 b 分别为对应的mask和框。假设 $\{c_1, \cdots, c_K\}$ 是 $D_m$ 和 $D_b$ 中出现的 $K$ 个独特视觉概念的词汇表。OpenSeeD的目标是学习检测和分割 $V$ 及以上的视觉概念。

为了实现这一目标，我们利用了一种通用的编解码器设计，并为OpenSeeD使用了一个文本编码器，如图3所示。我们的模型将图像和词汇 $V$ 作为输入，并输出一组预测，包括掩码 $P_m$ 、框 $P_b$ 和分类分数 $P_c$ 。

更具体地说，我们的模型由一个图像编码器，一个文本编码器和一个解码器组成。给定图像 $I$ 和词汇 $V$ ，我们首先分别用图像编码器和文本编码器对它们进行编码。

之后，解码器以 $L$ 查询为输入，交叉关注图像特征得到输出。
$p_m, p_b, p_s)=Dec(Q;O)\\ p_c=Sim(p_s, T)$
其中 $P_s$ 是解码后的语义。通过计算 $p$ 与 $T$ 之间的相似度得分，从 $Sim(P_s, T)$ 中得到视觉语义匹配分数 $P_c$ ，用于计算训练过程中的损失，并在推理过程中预测类别。

OpenSeeD的框架。该框架由一个图像编码器、一个文本编码器和我们设计的具有前景、背景和条件掩码解码能力的解码器组成。“GT”表示ground truth，“GT文本嵌入”是由文本编码器编码的嵌入。

4.1 基本损失公式

在这个基本公式中，我们试图通过促进共享的视觉语义空间来调和这两个任务，而不触及其他问题。对于多个任务和数据集，损失函数可以写成：

为了清楚起见，我们省略了每个损失项的权重。请注意，对于分割任务，我们可以从掩码m中得到准确的box b，并使用它们来计算项 $L_b(P_b, \hat{b})$ 中的盒损失。通过对所有术语求和，我们的模型可以获得相当好的开放词汇表性能。此外，它可以使用检测和分割数据进行端到端的预训练，允许它使用一组权重执行开放词汇的分割和检测。

尽管建立了一个强有力的基线，但我们必须考虑两个任务之间的内在差异，如前所述。语义分割和全视分割需要同时识别前景和背景，而检测只关注前景目标的定位。因此，对两个任务使用相同的查询会产生冲突，从而显著降低性能。此外，良好的框预测通常表明良好的掩模，反之亦然。在检测和分割数据上分别训练盒和掩码头会阻碍两个数据集空间监督的协同。

为了解决上述差异，我们为OpenSeeD引入了一种新的解码器设计。我们将查询Q分为三种类型： $L_f$ 前台查询 $Q_f$ , $L_b$ 后台查询 $Q_b$ 和 $L_d$ 条件查询 $Q_d$ ，并针对每种类型提出特定于查询的计算方法。

4.2 Bridge Task Gap: Decoupled Foreground and Background Decoding

在不失一般性的前提下，我们将出现在实例分割和检测中的视觉概念定义为前景，而将全景分割中的材料类别定义为背景。为了减轻任务差异，我们分别使用前台查询 $Q_f$ 和后台查询 $Q_b$ 执行前台和后台解码。

具体来说，对于这两种查询类型，我们的解码器预测两组输出: $P_f^m, P_f^b, P_f^c)$ 和 $P_b^f, P_b^b, P_b^c)$ 。我们还将分割数据集中的ground truth分为 $c_f, m_f)$ 和 $c_b, m_b)$ 两组，然后对这两组分别进行两次独立的Hungarian Matching处理，如图4 (a)所示。因此，分割时同时使用前景和背景解码，检测时只使用前景解码。

a)不同查询的标签分配。“灰色”是指未用于检测数据的无背景材料。最好以彩色观看。b) OpenSeeD中不同查询(前台、后台、条件查询)的查询交互。所有数据都有后台查询，包括检测数据。“暗”色意味着阻碍互动。

其中， $\hat{b_f}$ 和 $\hat{b_b}$ 分别由 $m_f$ 和 $m_b$ 推导而来。

基于这种显式解耦，我们的模型最大限度地提高了检测和分割数据集的前景监督合作，显著减少了前景和背景类别之间的干扰。虽然解耦，但我们注意到这两种类型的查询共享相同的解码器，并通过自关注相互交互，如图4 (b)所示。下面我们将解释如何确定前景和背景查询。

4.2.1 语言引导的前景查询选择

开放词汇表设置与传统的闭集设置的不同之处在于，模型需要定位远远超出训练词汇表的大量前景对象。然而，事实是我们的解码器包含有限数量的前景查询(通常是几百个)，这使得它很难处理图像中所有可能的概念。为了解决这个问题，我们提出了一种称为语言引导的前景查询选择的方法，可以根据给定的文本概念自适应地选择查询，如图3左部分所示。给定图像特征O和文本特征T，我们使用轻量级模块来预测每个特征的框和得分。
$E^b=Head(O)\\ E^c=Sim(O, T)$
其中Head为 box 头。然后根据 $E^c$ 的分数从 $E^b$ 和 $O$ 中选出排名靠前的 $L_f$ 个条目。

然后将选定的 $L_f$ 图像特征和框作为前景查询(图3中的蓝色方块)馈送给解码器。通过仅选择与文本相关的令牌作为解码器查询，我们减轻了解码无关语义的问题，并提供了更好的查询初始化。这种提出前景查询的自适应方式使我们的模型能够在测试场景中有效地转换到新的词汇表。

4.2.2 Learnable background queries

与前台查询不同，我们在背景查询中使用可学习的查询嵌入有两个原因。首先，查询选择不能很好地工作，因为选择的参考点经常超出大的和非凸的背景区域，导致次优结果。其次，背景素材的分类数量相对较少，而且一张图片通常包含一些不同的素材(例如，“天空”，“建筑”)。因此，在我们的模型中使用可学习查询可以充分有效地处理背景材料类别，并很好地推广到开放词汇表设置。背景查询在图3中用绿色方块标记。

4.3 Bridge Data Gap: Conditioned Mask Decoding

我们的最终目标是通过使用单个损失函数来训练多个任务来弥合数据差距，从而得到以下损失函数：

其中，D表示分割和检测数据集的并集。然后，损失函数需要检测数据的mask注释和分割数据的box注释，导致两个任务在空间监督的粒度上存在差异。

正如我们前面所讨论的，我们可以很容易地将对象掩码转换为框，然而，对于检测数据，我们只给出了粗略的位置(框)和类别。那么一个有趣的问题就来了——我们能得到它的掩码吗?

为了解决这个问题，我们利用包含从label&box到mask的丰富映射的分割数据，即(c, b)→m，并提出条件掩码解码来学习映射，如图3最右侧所示。

给定真值概念和框 $(c, b)$ ，我们使用解码器对掩码进行解码:
$P_m = Dec ((t, b); O)$
其中 $t$ 为概念提取的文本特征。根据上式，问题就变成了，我们能否从分割数据中学习到一种很好的映射，这种映射可以很好地推广到不同类别的检测数据中?

五、实验

在我们的实验中，我们对两种类型的数据进行了联合预训练，包括全景分割和目标检测。对于全景分割，我们使用带有分割注释的COCO2017(大约110k张图像)。对于目标检测，我们使用Objects365(v1为660k图像，v2为1700k图像)。

我们使用Objects365v1来训练和消融我们的小模型，而Objects365v2只用于训练我们的大模型。我们在预训练涵盖的所有任务上评估我们的模型，包括语义、实例、全视分割和目标检测。特别是，我们对60多个数据集进行了基准测试，这些数据集涵盖了广泛的零采样分割和检测领域。

一种基于零采样方法的多数据集开放词汇分词权。我们的模型是在COCO和Objects365数据上预训练的。“SEG”表示分割数据(COCO)，“DET”表示检测数据(Objects365)，“ITP”表示图像-文本对/引用/字幕数据。灰色的值是监督结果。X-Decoder (L)不是开源的，所以我们无法评估它在LVIS上的性能。

我们涵盖了六种常用的分割数据集，包括室内场景(ADE20K)、室外场景(Cityscapes)和驾驶场景(BDD100K)。此外，我们还对lvis的分割和检测性能进行了评估。

我们首先比较了之前在分割任务上的工作。总的来说，我们的模型在实例分割上取得了更好的性能，在全景分割和语义分割上取得了相当的性能。与最先进的方法 ODISE 和 XDecoder 相比，OpenSeeD 在 ADE20K 上分别实现了1.1 和 1.9 个掩码 AP 改进。这个差距在cityscape 和 LVIS 上更大。我们的 OpenSeeD 在 cityscape 上的小模型和大模型的掩模 AP 分别比 X-Decoder 高出10.2 和 8.3。在 LVIS 上，我们用发布的 X-Decoder 微小模型对掩码 AP 进行了评估，与我们的 OpenSeeD 微小模型相比，掩码 AP 提高了 9.8。结果表明，联合学习方法可以有效地转移检测数据中的实例级知识进行实例分割。与实例分割相比，泛视分割和语义分割都需要分割背景内容，而背景内容在检测数据中是完全不存在的。尽管如此，我们的OpenSeeD在4个数据集中的3个(除了ADE20K)上仍然优于X-Decoder，并且实现了相当的语义分割性能。三个任务的结果表明，检测数据显著有利于实例级理解，而图像-文本对主要增强语义分割的语义理解。除了分割之外，OpenSeeD还产生了相当好的检测性能。与GLIP相比，我们的OpenSeeD (T)在lvis (21.8 vs . 18.5)上的零射击检测方面优于GLIP (T)(设置A)，其中两者仅使用Objects365作为预训练检测数据集。最后，我们强调了我们的模型是第一个可以同时使用分割和检测数据进行预训练并对这两个任务进行零射击转移的模型。

六、总结

我们提出了一个简单的开放词汇分词和检测框架OpenSeeD，该框架使用单一模型从不同的分词和检测数据集中共同学习。为了弥合前景对象和背景对象之间的任务差距，我们提出了一种语言引导的前景查询选择解耦解码方法。我们还共同训练了一个条件掩码解码任务，该任务在推理过程中提供了一个交互式分割接口，并有助于在训练过程中弥合检测数据的数据鸿沟。结果表明，我们的统一模型在保持合理检测性能的同时，显著改善了开放分割。联合预训练的模型也可以无缝转移，以提高密切词汇的表现。

在这项工作中，我们的目标是探索训练一个开放词汇模型的潜力，用于分割和检测。OpenSeeD不使用参考/基础数据或大规模图像-文本对来进一步丰富我们的训练数据和语义覆盖。我们把更大的联合训练留给未来的工作。

在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
推客系统小程序开发实战：2025年技术架构与实现细节 wx_qutudy java 推客小程序开发推客系统
引言在电商生态竞争日益激烈的2025年，推客系统作为私域流量运营的核心工具，其技术实现效率与合规性已成为企业增长的关键指标。本文基于实际开发经验，深度解析推客系统小程序的技术选型、架构设计与核心功能实现，旨在为开发者提供可复用的技术方案。一、技术选型：多端统一开发框架的深度实践1.1前端框架选型对比在2025年主流框架对比中，Taro3.6.31展现出显著优势：跨平台能力：支持微信/支付宝/百度小
RNA转染（entranster）与Cav3通过Wnt信号通路与骨质疏松大鼠模型骨形成研究实验小助手
骨质疏松症是一种以骨密度和骨强度降低为特征的疾病，常见于老年人。Caveolin-3（Cav3）是caveolae膜结构域的主要结构蛋白，已被报道可参与细胞信号传导和维持细胞结构。现分享一篇RNA转染（entranster）与Cav3通过Wnt信号通路对骨质疏松大鼠模型骨形成的影响研究的文献，以供参考。文献地址：https://www.engreen.com.cn/rna-transfection
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
HCL 三层知识总结
HCL三层知识总结一、网络层基础1.1网络层的核心功能网络层位于数据链路层之上，主要负责跨网络的数据包转发，实现不同网段（广播域）之间的通信。其核心功能包括：寻址与路由：通过IP地址标识网络中的主机，并选择最佳路径将数据包从源端发送到目的端。分段与重组：当数据包大小超过底层链路的MTU（最大传输单元）时，将其分割为更小的片段，到达目的端后重新组合。拥塞控制：通过流量调节避免网络因过载而瘫痪（HCL
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
白帽必备技术栏目一（javascript基础）
直接进入主题正好也在带学生会把笔记同步发送到csdn上后期不管是去就业还是在家里挖洞都都行javascript基础注意事项局部作用域里面给到的变量不加var就会变成全局变量数据类型boolean布尔类型boolean除了0和空字符串以及nullundefined其他的都是truevarbool=true;varbool=false;number类型varnum=10;//10varnum=0x23
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
基于 MySQL 8.0.40 MGR 与 ProxySQL 的高可用集群部署实践 derek2026 部署实践 mysql 数据库
构建高可用MySQL8.0.40集群：MGR+ProxySQL实战指南一、部署架构图流量路径：应用→ProxySQL（DNS解析ProxySQLIP）→MySQLMGR集群二、环境准备1.系统要求**操作系统:**CentOS7.x服务器配置3台节点（建议最小配置：4核CPU/8GB内存/100GB磁盘）网络互通（关闭防火墙或开放端口：3306,33081,6032,6033节点规划节点1:192
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
Centos7下搭建Gitlab服务器行远大于想工具篇 gitlab centos 阿里云
Centos7下搭建Gitlab服务器1简介2安装配置依赖2.1安装启动ssh服务2.2配置防火墙2.3安装邮件服务3安装配置gitlab3.1配置yum源3.2yum安装3.3配置访问地址3.4重新配置应用3.5启动gitlab3.6防火墙开放端口4登录gitlab4.1阿里云配置安全规则4.2修改密码5卸载Gitlab6Gitlab忘记root密码7Gitlab汉化8参考文献1简介gitlab
Spring 中的 Bean 作用域(Scope)有哪些？各自适用于什么场景？
面试考察重点Spring框架核心概念的理解深度Bean生命周期管理机制的掌握不同作用域的适用场景判断能力Web环境与非Web环境的差异认知Spring配置与使用的实际经验粉丝福利！需要全套2025最新Java面试笔记的【点击此处即可】即可免费获取！面试核心知识点详解Spring提供的标准作用域：singleton(单例)：默认作用域每个SpringIoC容器只存在一个Bean实例所有对该Bean的
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
AI如何塑造下一代网络安全防御体系 weishi122 web安全人工智能网络人工智能网络安全威胁检测行为分析漏洞挖掘
AI如何塑造下一代网络安全防御体系随着网络威胁日益复杂化，传统安全措施已难以应对。人工智能(AI)正通过创新解决方案重塑网络安全格局。本文将探讨AI如何推动网络安全革命，并分析实施过程中的关键挑战。日益严峻的威胁形势到2025年，网络犯罪预计将造成全球10.5万亿美元损失。传统防御手段已无法应对快速演变的威胁，这正是AI发挥关键作用的领域。人工智能：新一代数字卫士AI能实时分析海量数据，在威胁发生
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l