Morty徐同学

CVPR 2022 Oral 学习不分割的内容：关于小样本分割的新视角

论文题目：Learning What Not to Segment: A New Perspective on Few-Shot Segmentation

论文地址：https://arxiv.org/pdf/2203.07615.pdf

开源代码：https://github.com/chunbolang/BAM

近年来，小样本分割（Few-shot Segmentation, FSS） 得到了广泛的发展。以往的大多数工作都力求通过分类任务衍生出的元学习框架来实现泛化；然而，训练的模型偏重于所看到的类，而不是理想的类不可知论，从而阻碍了新概念的识别。本文提出了一个全新且直接的视角来缓解这一问题。具体地说，该文在传统的FSS模型（元学习器，即meta learner）上增加了一个分支（基学习器，即base learner）来显式地识别基类的目标，即不需要分割的区域。然后，对这两个学习器并行输出的粗结果进行自适应集成，以产生精确的分割预测。考虑到元学习器的敏感性，我们进一步引入了一个调整因子来估计输入图像对之间的场景差异，以促进模型集成预测。此外，鉴于所提方法的独特性，该文还将其推广到一个更现实但更具挑战性的场景，即广义FSS，即基类和新类都需要预测的任务。

01、引言

众所周知，人类可以很容易地从少数几个例子中识别出新的概念或模式。基于此，人们建立起小样本学习（Few-shot Learning, FSL） 的方法，它通过建立一个网络来用稀少的注释样本推广到未知的领域。小样本分割是小样本学习技术在密集预测任务中的自然应用，近年来受到越来越多的关注。以前的方法通常采用双分支结构：支持分支（Support branch）和查询分支（Query branch），来传递标注信息，并在提取的特征之间进行交互。然而，在具有大量标注样本的基数据集上进行元训练不可避免地引入了对已见类的偏见，而不是理想的类不可知论（class-agnostic），从而阻碍了对新类的识别。

对此，本文给出的解决方案是，在传统的FSS模型中引入了一个额外的分支来显式地预测基类的目标，这个额外分支被称为基学习器（图1）。本文中提出的模型被命名为BAM（Base and the Meta）。本文在元学习器中引入了基于扩张卷积的atrous空间金字塔池（ASPP） 模块^[1]，以扩大元学习器的接收域，并以PSPNet^[2]为基础学习器，预测基础类别中的干扰对象。

图1：本文提出的BAM与之前工作的比较。(a) 传统方法通常使用元学习框架来训练FSS模型，这不可避免地偏向于基类，而不是理想的类不可知论，因此阻碍了对新类的目标对象的识别。（b）我们的BAM引入了一个额外的分支，即基学习器，以显式地预测基类的区域。这样，在集成模块之后，可以显著地抑制查询图像中的分心对象。（c）在广义FSS设置下扩展了我们的BAM模型，其中需要确定基类和新类的像素。改进的结果再次与基学习器的输出合并，以生成综合预测。

受在图像风格迁移领域广泛采用的风格损失（style loss） 的启发，我们首先计算两幅输入图像的Gram矩阵之差，然后利用 Frobenius 范数得到指导调整过程的总体指标。

总之，本文的主要贡献可归纳如下：

提出了一种简单而有效的方法，通过引入一个额外的分支来显式地预测查询图像（Query image） 中基类的区域，从而解决了偏差问题，为以后的工作提供了指导。
提出通过 Gram 矩阵估计 Support-Query 图像对之间的场景差异，以减轻元学习器敏感性带来的不利影响。
即便使用了两个普通的学习器，本文提出的方法也在小样本分割领域中取得了 SOTA 的性能。
我们将所提出的方法扩展到一个更具挑战性的设置，即广义 FSS，它同时识别基类和新类的目标。

02、方法

为了解决现有 FSS 方法存在的偏差问题，本文提出建立一个额外的网络来显式预测查询图像中基类的区域，从而方便新对象的分割。在不失通用性的前提下，我们在 One-Shot 设置下给出了我们的模型的整体架构，如图2所示。

图2：BAM的总体结构，它由三个基本组成部分组成：基学习器，元学习器和集成模块。

BAM 由三个主要部分组成，包括两个互补学习者（即基学习器和元学习器）和一个集成模块。两个学习器共享网络主干，分别用于识别基类和新类。然后，集成模块接收它们的粗预测和一个调整因子来抑制基类的错误激活区域，进一步产生精确的分割。此外，本文还提出了在基于 $\psi$ 的K-Shot设置下学习不同支持度图像的融合权值，旨在为查询分支提供更好的指导。

2.1 基学习器（bace learner）

首先，给定一个查询图像 $\bold{x}^q \in \R^{3 \times H \times W}$ ，先应用编码器网络 $\varepsilon$ 和卷积块提取中间特征映射 $\bold{f}^q_b$ ，上述过程的公式表达如下：

$\bold{f}^q_b=\mathcal{F}_{conv}(\varepsilon(\bold{x}^q))\in\R^{c \times h \times w} \tag{1}$
其中， $\mathcal{F}_{conv}$ 表示连续的卷积操作， $c, h, w$ 分别为通道数、高和宽。

随后，解码器网络 $\mathcal{D}_b$ 会逐步扩大中间特征映射 $\bold{f}^q_b$ 的空间尺度，最后给出预测结果，公式表达如下：

$\bold{p}_b=\text{softmax}(\mathcal{D}_b(\bold{f}_b^q))\in\R^{(1+N_b) \times H\times W} \tag{2}$
其中， $\text{softmax}(·)$ 沿着通道逐维操作以产生概率映射 $\bold{p}_b$ ， $N_b$ 代表基类的种类数。

与小样本场景中，广泛采用的基于episodic learning的范式不同，本文遵循标准的监督学习范式来训练基学习器。这里使用交叉熵（CE） 损失来评估 $\bold{p}_b和ground-truth\bold{m}^q_b$ 在所有空间位置上的差异，其可以表示为：

$\mathcal{L}_{base}=\frac 1 n_{bs} \sum_{\substack{i=1}}^{\substack{n_{bs}}}\text{CE}(\bold{p}_{b;i},\bold{m}^q_{b;i}) \tag{3}$
其中， $n_{bs}$ 是每个batch中训练样本的数量。

为什么不将两个学习器一起训练呢？作者认为，先进的FSS方法通常在训练期间冻结骨干网络以增强泛化能力。这样的操作与标准分割模型的学习方法不一致，无疑会影响基学习器的学习性能。更重要的是，基于episodic learning的范式能否很好地训练基学习器尚不清楚，因此本文最终采用了两阶段的训练策略。

2.2 元学习器（meta learner）

给定一个支持集（Support Set） $\mathcal{S}=\{{\bold{x}^s,\bold{m}^s}\}$ 和一个查询图像\bold{x}^q，我们首先连接了 $b l oc k 2$ 和 $b l oc k 3$ 的特征。随后，我们使用了 $1\times1$ 的卷积以减少通道维数从而生成中间特征映射：

$\bold{f}^s_m=\mathcal{F}_{1\times1}(\varepsilon(\bold{x}^s))\in\R^{c \times h \times w} \tag{4}$

$\bold{f}^q_m=\mathcal{F}_{1\times1}(\varepsilon(\bold{x}^q))\in\R^{c \times h \times w} \tag{5}$

其中， $\varepsilon$ 是基学习器和元学习器共享的编码网络， $\mathcal{F}_{1 \times 1}$ 表示将输入特征编码到256维的 $1\times1$ 卷积。

此外，我们通过掩膜平均池化操作[3]（masked average pooling, MAP） 来提供关键的类相关提示：

$\bold{v}_s=\mathcal{F}_{\text{pool}}(\bold{f}_m^s \odot \mathcal{I}(\bold{m}^s))\in\R^c \tag{6}$
其中， $\mathcal{F}_{\text{pool}}$ 表示平均池化操作， $\odot$ 表示阿达玛乘积， $\mathcal{I}$ 是一个函数，它通过插值和扩展技术将 $\bold{m}^s$ 重塑为与 $\bold{f}_m^s$ 相同的形状，使 $\mathcal{I}：\R^{H \times W} \to \R^{c \times h \times w}$ 。之后，在 $\mathcal{v}_s$ 的引导下激活 $\bold{f}_m^q$ 中的目标区域，通过解码器网络生成最终的预测结果，上述过程可以概括为：
$\bold{p}_m=\text{softmax}(\mathcal{D}_m(\mathcal{F}_{\text{guidance}}(\bold{v}_s,\bold{f}^q_m))) \in \R^{2 \times H \times W} \tag{7}$
其中， $\mathcal{D}_m$ 表示元学习器的解码网络， $\mathcal{F}_{\text{guidance}}$ 是 FSS 的一个重要模块，它将注释信息从支持分支传递到查询分支，以提供特定的分割提示，在本文的工作中，它代表“扩展和连接”。与基学习器部分相似地，我们通过计算 $\bold{p}_m$ 和 $\bold{m}^q$ 之间的**二元交叉熵（BCE）**来更新元学习器的所有参数：
$\mathcal{L}_{\text{meta}}=\frac 1 n_e \sum^{\substack{n_{e}}}_{\substack{i=1}} \text{BCE}(\bold{p}_{m;i},\bold{m}_i^q) \tag{8}$
其中， $n_e$ 表示每个 batch 中训练 episode 的数量。

2.3 集成

考虑到元学习器对支持图像的质量非常敏感，我们进一步提出利用 Support-Query 图像对之间场景差异的评估结果来调整从元学习器得到的粗略预测。具体来说，我们首先整合基学习器生成的前景概率图，获得背景区域相对于少样本任务的预测：
$\bold{p}_b^f= \sum_{\substack{i=1}}^{\substack{N_b}}\bold{p}^i_b \tag{9}$
其中， $\bold{f}_b^f$ 的上标 $f$ 表示前景，下标 $b$ 表示基学习器。

然后，利用从固定骨干网中提取的低层特征 $\bold{f}_{low}^s,\bold{f}_{low}^q \in \R^{C_1 \times H_1 \times W_1}$ 分别计算支持图像和查询图像的Gram矩阵（如图3）。

图3：低层特征的计算过程

请注意，这两个输入图像的相关操作是相似的，其中一个的操作可以概括为：
$\bold{A}_s=\mathcal{F}_{\text{reshape}}(\bold{f}_{low}^s) \in \R^{C_1 \times N}\tag{10}$

$\bold{G}^s=\bold{A}_s \bold{A}_{s}^\mathsf{T}\in \R^{C_1 \times C_1}\tag{11}$

其中， $N=H_1 \times W_1，\mathcal{F}_{\text{reshape}}$ 将输入的张量重塑为 $C_1 \times N$ 利用计算出的Gram矩阵，使用Frobenius 范数来评价它们之间的差异，以获得指导调整过程的总体指标 $\psi$ ：
$\psi=\lVert \bold{G}^s-\bold{G}^q \rVert_F\tag{12}$
其中， $\lVert \cdot \rVert_F$ 表示对输入的矩阵求 Frobenius 范数。然后，在调整因子 $\psi$ 的指导下对两个学习器的粗预测结果进行整合，进一步得出最终的分割预测 $\bold{p}_f$ ：

$\bold{p}_f^0=\mathcal{F}_{\text{ensemble}}(\mathcal{F}_{\psi}(\bold{p}_m^0),\bold{p}_b^f)\tag{13}$

$\bold{p}_f=\bold{p}_f^0 \oplus \mathcal{F}_{\psi}(\bold{p}_m^1)\tag{14}$

其中， $\bold{p}_m$ 和 $\bold{p}_b$ 分别表示元学习器和基学习器的预测；上标“0”和“1”分别表示背景和前景； $\mathcal{F}_{\psi}和\mathcal{F}_{\text{ensemble}}$ 是具有特定初始参数的 $\times 1$ 卷积运算，前者的目标是调整元学习器的粗略结果，而后者的目标是整合两个学习器； $\oplus$ 表示逐通道的连接操作；最后，元训练阶段的总体损失可以通过以下方法来评估：

$\mathcal{L}=\mathcal{L}_{\text{final}}+\lambda\mathcal{L}_{\text{meta}}\tag{15}$

$\mathcal{L}_{\text{final}}= \frac 1 n_e \sum_{\substack{i=1}}^{\substack{n_e}}\text{BCE}(\bold{p}_i^q,\bold{m}_i^q)\tag{16}$

其中， $\lambda$ 在所有实验中都被设置成1.0， $\mathcal{L}_{\text{meta}}$ 在前述元学习器中已经定义。

2.4 K-Shot 情形下的设置

当任务扩展到K-shot(K>1)时，有多个标注（支持）图像可用。目前的FSS方法通常对从支持分支中提取的原型进行平均，然后利用平均后的特征来指导后续的分割过程，该过程假设每个样本的贡献是相同的^[4,5]。然而，这种方法可能不是最优的，因为这种方法在标注图像样本与查询图像之间有显著差异的情形下，前者无法提供更有针对性的指导。因此，我们进一步提出基于调整因子 $\psi$ 的自适应估计每个支持图像的权重，其中较小的值表示较大的贡献，反之亦然。

具体来说，在给定每个支持样本的调整因子 $\psi_i$ 的情况下，我们首先通过连接操作将它们合并为一个统一的向量 $\psi_t \in\R^K$ ，然后，应用两个全连接（FC）层来生成支持图像的融合权重 $\eta$ ：
$\eta=\text{softmax}(\bold{w}_2^{\mathsf{T}}\text{ReLU}(\bold{w}_1^\mathsf{T}\psi_t))\in\R^K\tag{17}$
其中， $\bold{w}_1\in\R^{K \times \frac K r}$ ， $\bold{w}_2\in\R^{\frac K r \times K}$ 是两个全连接层的权重， $r$ 表示降维因子。最后，我们做一个加权求和的操作，得到集成下最终的 $\psi$ 参数。

2.5 扩展至广义 FSS

本文所提出的的 BAM 模型最初是为标准的 FSS 任务设计的，但它可以很容易地扩展到更一般的设置，即需要确定查询图像中基类和新类的区域。在本文的工作中，作者简单地将基学习器的结果和集成后的最终结果按照预定义的阈值\tau进行融合，得到整体分割预测 $\hat{\bold{m}}_\text{g}$ ，其表达式为：
$\hat{\bold{m}}_\text{g}^{(x,y)}=\begin{cases} 1 & \bold{p}_{\text{f}}^{1;(x,y)}>\tau \\ \hat{\bold{m}}_\text{b}^{(x,y)} & \bold{p}_{\text{f}}^{1;(x,y)}\le\tau \,\text{and} \, \hat{\bold{m}}_\text{b}^{(x,y)} \ne 0 \\ 0 & \text{otherwise} \end{cases} \tag{18}$
其中， $(x ， y)$ 表示空间位置， $\hat{\bold{m}}_\text{b}$ 表示基学习器的分割掩码，其可以表示为：
$\hat{\bold{m}}_\text{b}=\text{arg max}(\bold{p}_b) \in \{0,1,...,N_b\}^{H \times W}\tag{19}$
其中， $\text{arg max}(\bold{·})$ 沿着通道逐维执行。

03、实验

3.1 Setup

本文使用了PASCAL-5ⁱ[6] 和COCO-20ⁱ[7]两种数据集来验证模型表现。两个数据集的对象类别平均分为四个 fold，以交叉验证的方式进行实验。对于每个折叠，本文随机抽样 1000 对支持和查询图像进行验证。

训练过程可分为预训练和元训练两个阶段。第一个阶段，采用标准监督学习范式在 FSS 数据集的每个折叠上训练基学习器，这里选用的是 PSPNet^[2]模型；对于第二阶段，以 episodic learning 的方式联合训练元学习器和集成模块，在此阶段基学习器的参数是固定的，本文采用 PFENet^[4]的一个变体作为元学习器，用 ASPP^[1]代替 FEM 模块，以降低复杂度。

3.2 实验对比

实验结果如图4、5、6所示，不难看出，无论是使用 mIoU 还是 FB-IoU，BAM模型都取得了与以往工作相比SOTA的性能。

图4：PASCAL-5ⁱ上mIoU的性能比较。“baseline”是指共享由基学习器预先训练的编码器网络的元学习器。

图5：COCO-20ⁱ在mIoU方面的性能比较。“baseline”是指在预先训练过的元学习器。

图6：PASCAL-5ⁱ上的平均FB-IoU。

3.3 定性结果

模型的可视化分割结果如图 7 所示。

图7：BAM 和 baseline 方法在One-shot设置下的定性结果。左侧来自PASCAL-5ⁱ，右侧来自COCO-20ⁱ。从上到下的每一行分别表示带有ground-truth(GT)掩码的支持图像（蓝色）、带有GT掩码的查询图像（绿色）、baseline 结果（红色）和本文结果（红色）。

04、结论

本文提出了一种新的方案来缓解 FSS 模型对已见概念的偏差问题。该方案的核心思想是利用基学习器来识别查询图像中的易混淆（基）区域，并进一步细化元学习器的预测。即使有两个普通学习者，本文的方案也在 FSS 基准上取得了 SOTA 的效果。此外，本文也将当前的任务扩展到更具挑战性的广义 FSS，并取得了较好的 baseline 结果。

参考文献

[1] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017.

[2] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881–2890, 2017.

[3] Xiaolin Zhang, Yunchao Wei, Yi Yang, and Thomas S Huang. Sg-one: Similarity guidance network for one-shot semantic segmentation. arXiv preprint arXiv:1810.09091, 2018. 2, 3, 4, 6.

[4] Zhuotao Tian, Hengshuang Zhao, Michelle Shu, Zhicheng Yang, Ruiyu Li, and Jiaya Jia. Prior guided feature enrichment network for few-shot segmentation. IEEE Transactions on Pattern Analysis & Machine Intelligence, (01):1–1, 2020.

[5] Kaixin Wang, Jun Hao Liew, Yingtian Zou, Daquan Zhou, and Jiashi Feng. Panet: Few-shot image semantic segmentation with prototype alignment. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9197–9206, 2019.

[6] Amirreza Shaban, Shray Bansal, Zhen Liu, Irfan Essa, and Byron Boots. One-shot learning for semantic segmentation. arXiv preprint arXiv:1709.03410, 2017.

[7] Khoi Nguyen and Sinisa Todorovic. Feature weighting and boosting for few-shot segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 622–631, 2019.

Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
UI/UX设计服务行业分析 LPiling ui ux
行业现状UI（用户界面）设计关注用户与产品交互的界面设计，包括软件、应用程序、网站或任何数字产品的视觉和操作元素的集合，旨在提供用户友好的界面，使用户能够轻松地使用产品并实现他们的目标。UX（用户体验）设计则更为宏观，关注用户与产品交互过程中的全部体验，包括使用前、使用中和使用后的感受，目标是优化产品的功能性、可用性、易用性，确保用户在使用产品的过程中有良好的体验。近年来，随着技术的不断进步和用户
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
194.HarmonyOS NEXT系列教程之图案锁交互反馈系统详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁交互反馈系统详解效果预览1.交互反馈系统概述1.1反馈类型//反馈类型定义interfaceFeedbackTypes{visual:boolean;//视觉反馈haptic:boolean;//触觉反馈message:
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【星闪开发连载】WS63E模块的雷达功能浅析神一样的老师星闪技术 OpenHarmony 物联网
目录引言功能简介程序分析操作步骤简单测试结语引言WS63E星闪模块有个特色功能就是雷达运动感知，检测物体是否有运动，作用距离不超过6米。hi3863芯片本身不带雷达功能，是模块提供的相关功能。海思还有个WS63星闪模块，没有雷达感知能力。功能简介从开发板的图片上可以看到，右下角有个安装雷达天线的地方，使用使用1代IPEX接口。润和的套件里面没有带天线，从我的测试看没有天线，其实雷达功能是不正常的。
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
基于NanoDet的无人机交通违规监控系统设计与实现深度学习&目标检测实战项目 NanoDet 无人机目标检测人工智能计算机视觉深度学习
1.引言随着无人机技术的发展，无人机在交通监控领域的应用逐渐增多。无人机能够提供空中视角，具有更高的视野覆盖范围，能够帮助交通管理部门实时监控交通违规行为。本博客将介绍如何使用NanoDet模型实现无人机交通违规监控系统，并结合PyQt5设计一个UI界面来实时展示检测结果。通过该系统，能够检测交通违规行为并做出实时预警，确保交通安全。本博客详细介绍了数据集的构建、模型的训练与推理、碰撞检测算法的实
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
大屏自适应终极方案：基于比例缩放的完美适配实践（Vue3版） FFF-X html5 javascript
需求背景在数据可视化大屏开发中，我们常面临这样的挑战：如何让1920*1080的设计稿在不同分辨率设备上完美呈现？传统的响应式布局难以应对复杂的大屏元素排布，本文介绍一种基于CSS3变换的终极适配方案实现思路本方案的核心是动态比例缩放，通过以下关键步骤实现：基准比例锁定：基于设计稿宽高比（16:9）建立基准比例视口实时检测：通过resize事件监听窗口变化智能比例判断：当视口更宽时：保持高度基准，
如何实现具备自动重连与心跳检测的WebSocket客户端 FFF-X websocket 网络协议网络
本文介绍如何通过原生WebSocketAPI封装一个具备自动重连、心跳检测、错误恢复等能力的稳健客户端。适用于需要长连接的实时通讯场景（如聊天室、实时数据监控等）。核心功能亮点自动重连机制-指数退避策略重连心跳保活-双向检测连接活性消息可靠性-失败消息自动重发异常处理-错误分类处理机制状态管理-精准控制连接生命周期关键优化点说明事件监听优化改用addEventListener替代onopen等属性
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
如何设计一个 RPC 框架？需要考虑哪些点？蒂法就是我 rpc 网络协议网络
设计一个完整的RPC框架需要覆盖以下核心模块及关键技术点：一、核心架构模块模块功能与实现要点服务注册与发现使用Zookeeper/Nacos等实现服务地址动态注册与订阅，支持心跳检测和节点变更通知网络通信层基于Netty或gRPC的HTTP/2实现异步非阻塞传输，优化连接池复用与零拷贝技术序列化协议支持Protobuf（高性能）、JSON（可读性）、Hessian（跨语言）等，需平衡性能与扩展性动
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
CSS动画：逐帧动画与steps()函数双囍菜菜前端随记 css 前端
逐帧动画与steps()函数：精准掌控动画节奏关键词：steps()函数、雪碧图、精灵动画、帧动画优化文章目录逐帧动画与steps()函数：精准掌控动画节奏一、逐帧动画的本质：时间函数的维度突破1.1线性动画的局限性1.2steps()函数数学解析二、视觉化解析：steps()工作原理2.1时间轴切片演示2.2与线性动画对比三、商业级案例：RPG游戏角色行走动画3.1雪碧图制作规范3.2完整实现代
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?