zzzyzh

SS-Model【6】：U2-Net

系列文章目录

U-Net语义分割系列（一）：
SS-Model【5】：U-Net
U-Net语义分割系列（二）：
SS-Model【6】：U2-Net

文章目录

系列文章目录
前言
1. Abstract & Introduction
- 1.1. Abstract
- 1.2. Introduction
2. Network Architecture
- 2.1. Residual U-blocks
- - 2.1.1. Comparison
  - 2.1.2. RSU - 7
  - 2.1.3. RSU - 4F
  - 2.1.4. RSU - 7 & residual block
- 2.2. Model Structure
- 2.3. Loss Function
- 2.4. Evaluation indicators
3. DUTS
总结

前言

U2Net 是基于 Unet 提出的一种新的网络结构，同样基于 encode-decode，作者参考 FPN 和 UNet，在此基础之上提出了一种新模块 RSU（ReSidual U-blocks)。经过测试，对于分割物体前、背景取得了惊人的效果。同样具有较好的实时性，经过测试在 P100 上前向时间仅为18ms（56fps）。

原论文链接：
U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection

1. Abstract & Introduction

1.1. Abstract

在本文中，作者设计了一个简单而强大的深度网络架构 -- U-Net，用于显著性物体检测（SOD）。我们的 U-Net 的结构是一个两级嵌套的 U 型结构。该设计有以下优点：

由于我们提出的 ReSidual U-block（RSU）中不同大小的感受野的混合，它能够从不同的尺度捕捉更多的上下文信息；
由于这些 RSU 块中使用的池化操作，它增加了整个架构的深度，而没有明显增加计算成本。

这种架构使我们能够从头开始训练一个深度网络，而不使用来自图像分类任务的 backbone。

1.2. Introduction

显著性目标检测（SOD）指的是将图像中最显著的物体进行分割，广泛用于视觉追踪和图像分割任务中。

显著性目标检测任务与语义分割任务非常相似，只不过显著性目标检测任务是二分类任务，它的任务是将图片中最吸引人的目标或区域分割出来（偏主观），故只有前景和背景两类。

下图是从 DUTS-TR 数据集中随便挑的几张图片，第一行是原图，第二行是对应的GT，其中白色区域对应前景（最吸引人的目标或区域）黑色区域对应背景：

目前现状：

大多数的 SOD 网络有一个共性，就是注重利用现有的主干提取深层特征，比如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。这些主干最终都是为图像分类任务而设计的，他们提取的特征代表语义，而不是局部细节和全局对比信息，但这对显著性检测至关重要。

他们需要在 ImageNet 数据集上进行预训练，如果目标数据与 ImageNet 具有不同的分布，则会比较低效。

SOD 模型中存在的问题：

网络结构复杂，这是由于在现有主干网络上添加特征聚合模块，从这些模型中提取多层显著性特征
现有主干网络通常通过牺牲高分辨率的特征映射来实现更深层次的体系结构

U2Net 网络的解决方法：

该网络是一个两层嵌套的U型结构，没有使用图像分类的预训练主干模型，可以从头训练
新的体系结构允许网络更深入、获得高分辨率，而不会显著增加内存和计算成本。
- 在底层，设计了一个新的 RSU，能够在不降低特征映射分辨率的情况下提取级内多尺度特征
- 在顶层，有一个类似于 U-Net 的结构，每一 stage 由一个 RSU 块填充

2. Network Architecture

2.1. Residual U-blocks

2.1.1. Comparison

对于显著目标检测和其他分割任务来说，局部和全局上下文信息都非常重要。在现代 CNN 设计中，如 VGG、ResNet、DenseNet 等，1×1 或 3×3 的小型卷积滤波器是最常用的特征提取元件，因为它们需要较少的存储空间并且计算效率高。

( a ) - ( c ) 显示了具有最小感受野的现有卷积块。由于 1x1 或 3x3 滤波器的感受野太小而无法捕捉全局信息，因此底层的输出特征图只包含局部特征。为了在高分辨率浅层特征图上获取更多的全局信息，最直接的想法是扩大感受野。
( d ) 显示了一个 inception like block，试图通过使用空洞卷积来扩大感受野以提取局部特征和非局部特征。然而，在原始分辨率的输入特征图上进行多次扩展卷积（尤其是初始阶段）需要大量的计算和内存资源

2.1.2. RSU - 7

受 U-Net 的启发，提出了一种新的 RSU 来捕捉阶段内多尺度特征。下图显示了 RSU-L(Cin, M, Cout) 结构，其中 L 是编码器层数， $C_{in}$ ， $C_{out}$ 表示输入和输出通道，M 表示 RSU 内部层中的通道数。

标出每个输出特征图的 shape 以及 concat 的位置后的重绘结构图如下所示：

RSU 主要由三个部分组成：

输入卷积层：它将输入特征图 $\times W \times C_{in}$ 转成一个具有 Cout 通道数的中间图 $F_1(x)$ ，这是提取局部特征的普通卷积层
以中间特征图 $F_1(x)$ 为输入，学习提取和编码多尺度上下文信息 $U(F_1(x))$
- U 表示如上图所示的 U-Net
  - L 越大，RSU 越深，池化操作越多，即更大的感受野以及更丰富的局部和全局特征
  - 配置此参数可以从具有任意空间分辨率的输入特征图中提取多尺度特征。从梯度降采样特征图中提取多尺度特征，并通过逐步上采样、合并和卷积等方法将其编码到高分辨率特征图中
- 这一过程减少了大尺度直接上采样造成的细节损失
通过求和： $F_1(x) + U(F_1(x))$ 融合局部特征和多尺度特征

2.1.3. RSU - 4F

与上述 RSU-L 结构不同的是，在 RSU-4F 中并没有进行下采样或上采样，而是将采样层全部替换成了膨胀卷积。作者解释说，到 En_5 时，特征图的分辨率已经很低了，如果接着下采样会丢失很多上下文信息，所以在 RSU-4F 中就不再进行下采样了。这意味着 RSU-4F 的所有中间特征图都与其输入的特征图具有相同的分辨率

上图中带参数 d 的卷积层全部是膨胀卷积，d 为膨胀系数

2.1.4. RSU - 7 & residual block

上图表示残差块与 RSU 对比，主要设计区别在于：

RSU 用 U-Net 代替了普通的单流卷积，并用一个权重层构成的局部特征代替了原始特征
- $H_{RSU}(x)=U(F_1(x)) + F_1(x)$ ，其中 U 代表前面图中所示的多层 U 型结构
这种设计变化使网络能够直接从每个残差块的多个尺度中提取特征
同时，U结构的计算开销很小，因为大多数操作都应用于下采样的特征映射

2.2. Model Structure

作者提出了一种嵌套的 UNet 结构，即在一个大的 UNet 当中，嵌套了一堆小的 UNet。理论上，可以将指数 n 设为任意正整数，实现单级或多级嵌套 U 型结构。但是，嵌套层太多的体系结构过于复杂，无法在实际中实现和应用。

本文所讲解的模型，就是指数为 2 时的一个 2 层嵌套结构，如下图所示。它的顶层是一个由11 stages（图中的立方体）组成的大 U 型结构，每一个 stage 由一个配置良好的 RSU 填充。因此，嵌套的U结构可以更有效的提取 stage 内的多尺度特征和聚集阶段的多层次特征。

在 Encoder 阶段，每通过一个 block 后都会下采样 2 倍（maxpool），在 Decoder 阶段，每通过一个 block 前都会上采样 2 倍（bilinear）

如上图所示，U2-Net网络由三部分构成：

六级编码器
- 编码器 En_1、En_2、En_3 和 En_4 阶段中，使用的是 2.1.2 小节中讲解的 RSU-L 结构，分别为 RSU-7、RSU-6、RSU-5 和 RSU-4
  - 区别在于，后一个编码器比前一个编码器上一步上采样过程和一步下采样过程，下采样倍数也会相应地减少
- 编码器 En_5、En_6 阶段中，使用的是 2.1.2 小节中讲解的 RSU-4F 结构
五级解码器
- 解码阶段具有与对称编码阶段相似的结构
- 每个解码器阶段将来自前一级的上采样特征映射和来自其对称编码器阶段的特征映射的级联作为输入
与解码器和最后一级编码器相连的显著图融合模型（saliency map fusion module）
- 通过该模块将不同尺度的 saliency map 进行融合并得到最终预测概率图
- U2-Net 网络首先通过大小为 $KaTeX parse error: Undefined control sequence: \tiems at position 3: 3 \̲t̲i̲e̲m̲s̲ ̲3$ 、kernel = 1 的卷积（输出的特征层的 channel 为 1）和 Sigmoid 函数从 En_6，De_5，De_4，De_3，De_2 和 De_1 生成 6 个输出显著概率图 $S_{side}^{(6)}$ ， $S_{side}^{(5)}$ ， $S_{side}^{(4)}$ ， $S_{side}^{(3)}$ ， $S_{side}^{(2)}$ ， $S_{side}^{(1)}$
- 将输出的显著图的逻辑图（卷积输出、Sigmoid 函数之前）向上采样至与输入图像大小一致，并通过级联操作（concat）相融合，然后通过 $\times 1$ 卷积层和一个 Sigmoid 函数，以生成最终的显著性概率映射图 $S_{fuse}$

2.3. Loss Function

在 U2Net 中损失计算公式如下所示：

$\displaystyle\sum_{m=l}^M w_{side}^{(m)}l_{side}^{(m)} + w_{fuse}l_{fuse}$

参数含义：

l 代表二值交叉熵损失
w 代表每个损失的权重

该损失函数可以看成两部分：

一部分是上述提到的 Sup1、Sup2、Sup3、Sup4、Sup5 和 Sup6 与 GT 之间的损失
- 注意，在计算损失前需要将 Sup1、Sup2、Sup3、Sup4、Sup5 和 Sup6 通过Sigmoid 激活函数得到对应的概率图)
另一部分是最终融合得到的概率图与 GT 之间的损失

标准二进制交叉熵计算公式如下所示：

$\displaystyle\sum_{(r, c)}^{(H, W)}[P_{G(r, c)}logP_{S(r, c)} + (1 - P_{G(r, c)})log(1 - P_{S(r, c)})]$

参数含义：

(r, c) 为像素坐标
(H, W) 为图像大小
$P_{G(r, c)}$ 表示 GT 像素值
$P_{S(r, c)}$ 表示预测的显著概率图

训练过程试图最小化整个损失。测试过程中，我们选择最后融合结果 $l_{fuse}$
作为最终的显著性图

2.4. Evaluation indicators

PR curve
weighted F-measure
S-measure
relax boundary F-measure
F-measure
$F_{\beta} = \frac{(1 + \beta^2 \times Precision \times Recall)}{\beta^2 \times Precision + Recall}$
- 参数含义
  - precision 即为预测为正确的数据中，真实值为正确的比例
  - recall 即为在所有的真实值为正确的数据中，有多少能预测正确
  - 在源代码中 $\beta^2 = 3$
- 计算得到的范围为： $(0, 1)$
- 数值越大，表示网络的分割效果越好
- 针对不同的概率阈值会得到一组不同的 precision 和 recall，所以计算得到的 $F_{\beta}$ 是一组数据，最终的指标，是这组数据中最大的值
MAE ( Mean Absolute Error )
$\frac{1}{H \times W} \sum_{r=1}^H\sum_{c=1}^W | P(r,c) - G(r,c) |$
- 参数含义
  - $P (r, c)$ 表示预测概率图
  - $G (r, c)$ 表示 GTboxes
- 计算得到的范围为： $(0, 1)$
- 数值越小，表示网络的分割效果越好

3. DUTS

DUTS 数据集包含了 10553 张训练图片，5019 张测试图片。其中所有的训练图片采集自ImageNet DET 训练 / 验证集，而所有的测试图片采集自 ImageNet DET 测试集以及 SUN 数据集

数据集结构如下所示：

├── DUTS-TR
│      ├── DUTS-TR-Image: 该文件夹存放所有训练集的图片
│      └── DUTS-TR-Mask: 该文件夹存放对应训练图片的GT标签（Mask蒙板形式）
│
└── DUTS-TE
       ├── DUTS-TE-Image: 该文件夹存放所有测试（验证）集的图片
       └── DUTS-TE-Mask: 该文件夹存放对应测试（验证）图片的GT标签（Mask蒙板形式）

总结

U2-Net 网络的设计允许具有丰富多尺度特性和相对较低的计算和内存成本de1深层架构。该结构只建立在 RSU 块上，没有使用任何特性分类的预训练主干网络，因此是灵活的，可适应不同的工作环境，性能损失很小。

本文中，使用不同的滤波器配置提供两种情况下的U2-Net

普通版本的 U2-Net（176.3MB）
较小版本的U2-Net†（4.7MB）

博文参考
视频资料

2020-12-09 幸福大黑鸭
IT1.LeetCode：汇总区间Java编写2020-12-09（228.汇总区间）2.《Java从入门到精通》明日科技：P351~355阅读记xmind笔记，并自己实现实例。知识点之前确实都学过，但还是再系统复习一下吧。3.《Semantic-awareWorkflowConstructionandAnalysisforDistributedDataAnalyticsSystems》：粗读关键
Flink 流处理的核心基石【时间语义、水位线、状态、检查点、反压】 csdn_tom_168 大数据 flink 核心时间语义水位线状态检查点反压
Flink流处理的核心基石【时间语义、水位线、状态、检查点、反压】，这些概念相互协作，构建了Flink高吞吐、低延迟、高容错的实时计算能力。以下是这些核心技术的深度解析及其内在联系：一、五大基石的内在联系驱动触发计算持久化保护恢复时间语义水位线状态管理检查点反压二、核心组件深度解析1.时间语义（TimeSemantics）核心作用：定义事件的时间维度//设置事件时间语义（关键配置）env.setS
Kafka如何做到消息不丢失野老杂谈全网最全IT公司面试宝典 kafka 分布式
一、三种消息传递语义（MessageDeliverySemantics）：核心是“消息被消费处理的次数”Kafka的三种传递语义本质上描述的是“一条消息从生产到最终被消费者处理完成，可能出现的次数”，这由生产者的消息写入可靠性和消费者的offset提交策略共同决定。1.Atmostonce（最多一次）定义：消息可能丢失，但绝不会被重复处理。触发场景：消费者先提交offset，再处理消息。流程：消费
Building Apps with AI Tools: ChatGPT, Semantic Kernel, and Langchain 项目推荐滕娴殉
BuildingAppswithAITools:ChatGPT,SemanticKernel,andLangchain项目推荐building-apps-with-ai-tools-chatgpt-semantic-kernel-langchain-4469616ThisisacoderepositoryfortheLinkedInLearningcourseBuildingAppswithAIT
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
ISBI 2023部分半监督学习论文汇总 xiongxyowo 划水
ISBI2023论文集：https://ieeexplore.ieee.org/xpl/conhome/10230311/proceeding[link]LeveragingInter-AnnotatorDisagreementforSemi-SupervisedSegmentation生物医学图像的信噪比通常较低，这往往导致专家们对GT分割存在分歧。现有的多重标注方法试图解决相互冲突的标注，而我
Rust 仿射类型（Affine Types）萧曵丶 Rust rust 仿射类型
在Rust中，仿射类型（AffineTypes）是所有权系统的理论基础，它规定了每个值有且仅有一次使用机会。这与线性类型（必须恰好使用一次）有所不同，允许值未被使用就被丢弃。Rust中的仿射类型核心特征移动语义（MoveSemantics）fnconsume(s:String){/*...*/}lets1=String::from("hello");consume(s1);//所有权转移给函数//
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
Python标准库The Python Standard Library GarfieldEr007 Python Python 标准库 Standard Library
WhileThePythonLanguageReferencedescribestheexactsyntaxandsemanticsofthePythonlanguage,thislibraryreferencemanualdescribesthestandardlibrarythatisdistributedwithPython.Italsodescribessomeoftheoptionalc
CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
《ChromaGAN》论文简读及demo运行（萌新手记） kkpeach 学习手记 python 机器学习计算机视觉
论文题目：《ChromaGAN:AdversarialPictureColorizationwithSemanticClassDistribution》《具有语义类别分布的对抗图片着色》论文地址：https://arxiv.org/pdf/1907.09837.pdf源码地址：https://github.com/pvitoria/ChromaGAN声明：仅学习用途。这是WACV2020收录的一篇
Distinguishing Look-Alike Innocent and Vulnerable Code by Subtle Semantic Representation Learning an XLYcmy 漏洞挖掘论文阅读网络安全论文笔记漏洞检测数据集深度学习论文分享 AI
今天分享的论文是《DistinguishingLook-AlikeInnocentandVulnerableCodebySubtleSemanticRepresentationLearningandExplanation》原文链接：[2308.11237]DistinguishingLook-AlikeInnocentandVulnerableCodebySubtleSemanticReprese
✨【CosyVoice2-0.5B 实战】Segmentation fault (core dumped) 终极解决方案（保姆级教程）杨靳言先语音识别语音生成 python 人工智能
【CosyVoice2-0.5B实战】Segmentationfault(coredumped)终极解决方案|torchaudio.save崩溃全流程排查与替代方案（保姆级教程）“运行没报错就是胜利，结果没崩溃就是奇迹。”——每一位搞TTS的开发者内心独白本文聚焦使用CosyVoice2-0.5B进行TTS推理过程中，常见的torchaudio.save()崩溃问题——Segmentationfa
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
PNAS顶刊：使用 GPT-4 揭示概念的语义
GaëlLeMens、BalázsKovács、MichaelT.HannanandGuillemPros合作的题为“UncoveringthesemanticsofconceptsusingGPT-4”的文章，发表于ProceedingsoftheNationalAcademyofSciences。摘要最近的大型语言模型（LLM），如GPT-3.5和GPT-4生成类似人类的文本的能力表明，社会科
[CVPR 2025] 高效无监督Prompt与偏好对齐驱动的半监督医学分割 alfred_torres prompt 医学图像分割
CVPR2025|优化SAM：高效无监督Prompt与偏好对齐驱动的半监督医学分割论文信息标题：EnhancingSAMwithEfficientPromptingandPreferenceOptimizationforSemi-supervisedMedicalImageSegmentation作者：AishikKonwer,ZhijianYang,ErhanBas,CaoXiao,Pratee
CVPR2025 摸鱼的肚子论文阅读深度学习
CVPR论文列表大论文相关，abstactSphereUFormer:AU-ShapedTransformerforSpherical360Perception对360rgb图的深度进行估计CroCoDL:Cross-deviceCollaborativeDatasetforLocalization(没有）SemAlign3D:SemanticCorrespondencebetweenRGB-Im
C++法则12：右值引用的核心目的：支持移动语义（Move Semantics）碧海蓝天2022 c++开发语言
C++法则12：右值引用的核心目的：支持移动语义（MoveSemantics）右值引用（RvalueReference）是C++11引入的最重要特性之一，其主要设计目的就是支持移动语义（MoveSemantics）。移动语义的核心思想移动语义允许资源（如动态内存、文件句柄等）从一个对象"移动"到另一个对象，而非传统的复制。这避免了不必要的深拷贝，显著提高了性能。右值引用语法右值引用使用双&&表示：
C++11 移动语义（Move Semantics）简介程序员乐逍遥 C++高手修炼营 C/C++多线程编程专题 C/C++网络编程专题 c++开发语言移动语义 move
C++11移动语义（MoveSemantics），它允许更高效地转移资源所有权，而不是复制资源。通过移动语义，C++程序可以避免不必要的深拷贝，从而提升性能，尤其是在处理大型对象或资源时。移动语义的核心概念资源转移而非复制：传统的拷贝操作会创建一个新的对象，并将原对象的所有数据复制到新对象中。而移动操作则是将资源从一个对象“转移”到另一个对象，原对象在转移后通常不再拥有这些资源。右值引用（Rval
SAM分割一切系列相关论文梳理 ↣life♚ 计算机视觉通用模型大模型深度学习计算机视觉通用分割 transformer SAM 自动标注
文章目录SAM相关论文SAM优化或功能拓展[MedicalImageAnalysis2025]UN-SAM:Domain-AdaptiveSelf-PromptSegmentationforUniversalNucleiImages-通过自动生成掩码prompt减轻标注工作，实现细胞通用分割[NIPS2023]SegmentEverythingEverywhereAllatOnce-比SAM交互能
多模态大语言模型arxiv论文略读（127）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文标题：WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文作者：YuliZhou,GuoleiS
医图论文 AAAI‘25 | VOILA: 基于体素与语言交互的复杂度感知CT图像通用分割方法小白学视觉医学图像处理论文解读人工智能计算机视觉医学图像处理论文解读深度学习 AAAI
论文信息题目：VOILA:Complexity-AwareUniversalSegmentationofCTimagesbyVoxelInteractingwithLanguageVOILA:基于体素与语言交互的复杂度感知CT图像通用分割方法作者：ZishuoWan,YuGao,WanyuanPang,DaweiDing论文创新点引入体素级对比学习：本文首次将体素级对比学习引入医学图像分割任务。通
HTML5 更新的功能 TE-茶叶蛋面试复习系列 html知识 html5 前端 html
文章目录前言**一、语义化标签（SemanticElements）****二、多媒体支持（Audio&Video）****三、图形与绘图（Canvas&SVG）****1.``****2.SVG内联支持****四、表单增强（FormFeatures）****1.新输入类型****2.新属性****五、本地存储（WebStorage）****六、地理定位（Geolocation）****七、拖放AP
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
医图论文 Arxiv‘24 | SEG-SAM：用于统一医学图像分割的语义引导SAM 小白学视觉医学图像处理论文解读医学图像处理医学图像顶会 Arxiv 论文解读深度学习
论文信息题目：SEG-SAM:Semantic-GuidedSAMforUnifiedMedicalImageSegmentationSEG-SAM：用于统一医学图像分割的语义引导SAM作者：ShuangpingHuang,HaoLiang,QingfengWang,ChulongZhong,ZijianZhou,MiaojingShi论文创新点语义感知解码器：作者提出了一个独立的语义感知解码器（
【Story】编译器的基础概念与类型分类 LuckiBit Story C语言 c++python java 编译器 gcc gnu
目录编译器详解1.编译器的工作流程1.1词法分析（LexicalAnalysis）词法分析的例子1.2语法分析（SyntaxAnalysis）语法分析的例子1.3语义分析（SemanticAnalysis）语义分析的例子1.4中间代码生成（IntermediateCodeGeneration）中间代码的例子1.5代码优化（CodeOptimization）代码优化的例子1.6目标代码生成（Code
2022-2023 ICCV、ECCV、CVPR关于有感自动驾驶的论文木寒夏自动驾驶人工智能机器学习
2022-2023ICCV、ECCV、CVPR关于有感自动驾驶的论文1全景分割【ECCV2022】|4D-STOP：基于时空对象方案生成和聚合的4DLiDAR全景分割|4D-StOP:PanopticSegmentationof4DLiDARUsingSpatio-TemporalObjectProposalGenerationandAggregation|论文链接|代码链接【ECCV2022】|
In PyTorch 2.6, we changed the default value of the weights_only argument in torch. 神笔馬良 pytorch 人工智能 python
问题描述：D:\anaconda\envs\yolov5_mogui\python.exeD:/Instance_Segmentation/yolov5_moguimianju/yolov5-seg-master/train.pytrain:weights=weights\yolov5s-seg.pt,cfg=models/yolov5s-seg.yaml,data=data\dc.yaml,hy
C语言中的段错误（Segmentation Fault）：底层原理及解决方法 woainizhongguo. C/C++c语言开发语言
在嵌入式单片机开发中，除了段错误外，还有许多其他常见的运行时错误，这些错误可能导致系统崩溃、功能异常或性能下降。以下是分类介绍及应对方法：一、硬件相关错误1.外设初始化失败原因：时钟未使能（如STM32未调用__HAL_RCC_GPIOx_CLK_ENABLE()）。引脚复用配置错误（如将USART_TX引脚配置为普通GPIO）。外设参数超出范围（如I2C速率设置过高）。表现：外设无响应，如串口无
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache