钱思惘

【记录】图像语义分割网络，FCN-SegNet-Unet-Enet-LinkNet-DenseNet~~~~

注：只为记录，知道网络架构

图像语义分割网络

1. FCN
2.SegNet
3.Unet
4.Enet
5. LinkNet
6.DenseNet
7.PixelNet
8.ICNet
9.RefineNet
10.PSPNet
11.HDC-DUC
12.ShelfNet和LadderNet
13.DANet
14.BiseNet
15. ESPNet
16.DenseASPP
17.Fast-SCNN

1. FCN

Paper：

Fully Convolutional Networks for Semantic Segmentation

网络：

FCN作为把深度学习应用于图像语义分割的开山之作，斩获CVPR2015的最佳论文。
网络图如下所示：

把一般用于分类网络的最后一层全连接层替换成卷积层，从而形成整个全卷积网络（Fully Convolutional Networks）。整个网络有三个要点：

卷积层（Convolution）：用于特征提取。
上采样（Upsampling）：FCN中的上采样选择的是反卷积操作（Deconvolution)
跳连层（Skip layer fusion）：由于直接将最后一层进行上采样比较粗糙，会丢失大量信息，所以将前面比较lower的feature-map与最后的输出进行融合（在FCN中，fusion采用的是逐像素相加）。所以，出于对选取feature-map的不同产生了FCN-32S,FCN-16S,FCN-8S。如下图所示：

FCN整个网络还是比较清晰的，作为开山之作，本篇的内容也由此展开！

2.SegNet

Paper：
SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

网络：

SegNet是语义分割中一种Encoder-Decoder模型的网络，网络图如下所示：

编码器（Encoder）部分有13个卷积层，与之相对应的解码器（Decoder)也有13个卷积层，整个流程就是卷积->下采样->->->上采样->卷积->->然后将最后一层的输出作为输入放入一个softmax-classifier（分类器），最终输出一个K（class的数量）个channel的概率图，从而得到分割图像。

值得一提的是SegNet在下采样池化的过程中记住了Pooling的位置信息，从而在进行上采样池化时即使不需要进行学习也能保留大量信息。下图描述了SegNet与FCN上采样的区别。

pytorch直接提供了这个pooling Indices的接口

#Encoder部分的下采样，x_01,x_10d为上一个卷积层的输出
import torch.nn.functional as F
x_0, indices_0 = F.max_pool2d(x_01, kernel_size=2, stride=2, return_indices=True)
#Decoder部分的上采样
x_0d = F.max_unpool2d(x_10d, indices_0, kernel_size=2, stride=2, output_size=dim_0)

3.Unet

Paper：

U-Net: Convolutional Networks for Biomedical Image Segmentation

网络

Unet是图像语义分割中的一个经典的网络，也是一个典型的Encoder-Decoder模型，因其网络模型呈现一个U字形而得名，其网络如下图所示：

根据网络图来看，整个架构还是很intuitive的，Encoder部分不断地进行卷积，下采样，然后Decoder部分进行卷积上采样。要注意的是在Decoder部分采用了一个跳连结构（Skip connection），这与FCN的Skip layer fusion有些类似。Unet将Encoder部分对应的low-level的feature-map与Decoder部分的feature-map相加然后进行卷积，这里的相加采用的concatenate，就是堆积木一样叠在一起。

Unet-family

Unet发表于2015的MICCAI，在医学图像领域有着卓越的表现。在Unet的基础上，大量学者及研究人员开发出了各种Unet的变体形式，如U-Net, R2U-Net, Attention U-Net, Attention R2U-Net，后续可能会记录部分Unet的变体。Github上有一个Unet-family的项目罗列了各种Unet
Unet-family

4.Enet

Paper：

ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

网络：

Enet是一种实时（也就是速度快）的语义分割网络，它的网络组成如下表显示（论文中没有结构图，QAQ我也比较懒就不画了…）

整个网络由七个部分组成，主要是由两个模块initial block和bottleneck module组成。下面先介绍这两个模块。

initial block
initial block的组成很简单，如下图所示，就是将input分别经过一3x3，stride=2的卷积以及一个MaxPooling，然后连接起来，这里的卷积操作所用的filter个书为13，再加上MaxPooling的三个通道，就是得到16个channel的输出，与网络表中的Section 1也对应上了。

bottleneck module
bottleneck module借鉴了ResNet的residual block，如下图所示

得到输入之后，有两个分支，一个分支直接做MaxPooling，另一个分支做convolution，这里采用了两个1*1的卷积块分别用来压缩和扩展通道数，目的是减少计算量，中间的卷积层可采用普通卷积，膨胀卷积（dilated convolution）或者非对称卷积（asymmetric convolution）。

再回到网络表看整个网络，首先经过Section 1的初始化模块，然后经过Section 2的下采样，接着进入Section 3的下采样，Section 3中的每个卷积层采用不同的卷积操作，然后重复Section 3 即进行Section 4，注意在Section 4中丢弃了bottleneck module2.0，即不再下采样，这就完成了Encoder部分，接着进入Decoder部分Section 5 和Section 6。论文中提到，在Section 6的上采样过程中不使用pooling indices，其原因是，第一次下采样是卷积和pooling同时进行的。最后经过一个full conv得到输出。
作者在论文中阐述了一些网络设计的细节，我在这里就不做赘述了，有兴趣的同学可以去看一下。

5. LinkNet

Paper：

LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation

网络：

“Unlike existing neural network architectures which are being used for segmentation, our novelty lies in the way we link each encoder with decoder.”LinkNet的创新点是将Encoder部分与Decoder部分的feature-map融合起来。网络结构如下图所示：

正如图中所看到的，解码的时候将Encoder部分的feature-map加进来然后输入下一个Decoder Block。其中的Encoder Block和Decoder Block分别如下图所示：

6.DenseNet

Paper:
Densely Connected Convolutional Networks

网络：

DenseNet有着与ResNet类似的结构，ResNet是每个层与前面的某层（一般是2~3层）短路连接在一起，连接方式是通过逐像素相加。而在DenseNet中，每个层都会与前面所有层在channel维度上连接（concat）在一起。如下图所示

下面根据论文来讲讲一些细节

Dense connectivity：将每一层的feature-map都直接连接到后面的所有层中 $x_l=H_l([x_0,x_1,...,x_(l-1)])$
Composite function：论文中把 $H_l(.)$ 定义为三个连续的操作：BN(Batch Normalization)层，Relu层和一个3x3的卷积层。
Pooling layers：因为前面的block产生feature-map在尺寸上会与后面的feature-map不同，所以在连接之前要做进行池化。论文中把这一步称为transition layers，包括一个BN层，1x1的卷积层和2x2的平均池化（average pooling layer）。
Growth rate：如果每一个 $H_l(.)$ 会产生 $k$ 个feature-maps，那么第 $l$ 层就会有 $k_0+k*(l-1)$ 个feature-maps作为输入，其中 $k_0$ 是最开始的输入通道数。把 $k$ 这个超参数称为网络的Growth rate
Bottleneck layers在每3×3卷积之前可以引入1×1卷积作为瓶颈层，以减少输入特征映射的数量，从而提高计算效率。这种设计对于DenseNet也有效，并将具有瓶颈层的网络称为DenseNet-B，即具有BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)版本的 $H_l$

7.PixelNet

Paper：

PixelNet: Towards a General Pixel-Level Architecture

网络

这篇论文没太看懂，但其核心思想在论文中是这么说的：作者通过实验论证了只需对每个图像采样一小部分的像素就足以进行学习，这是因为像素之间的空间相关性。这种采样也使得我们可以探索几种用于提高基于FCN的架构的效率和性能的方法。
论文中的结构图如下

看结构图好像还挺简单明了的，但是代码实现上有点搞不懂怎么处理的，论文中也没给代码…我太菜了。
（有机会再来看看这篇论文吧 /捂脸/捂脸/捂脸/）

8.ICNet

Paper：

ICNet for Real-Time Semantic Segmentationon High-Resolution Images

网络

ICNet是针对高分辨率图像的实时语义分割网络，其网络结构图如下

ICNet利用的多尺度的图片输入，分别为大，中，小的图片，逐级递减1/2。每一层可以看作是一个单独的语义分割任务
在第一层与第二层，也就是小中两层的权重是共享的以减少参数。
可以看到在第二层第三层有个CFF模块，来接收上一层的输出以及一个大小相同的label进行loss的计算，作为一个Guidence来更好地提取特征。在第三层的后面也有一个类似的操作，不过不再需要额外的featur-map输入。需要注意的是这些操作只在训练时进行。
在测试时，会有最后一步的4倍的上采样来输出与原图大小相同的预测图。
下面介绍CFF模块：
Cascade Feature Fusion：
内部结构图如下

F1是来自上一层输出的feature-map，F2是这一层前面卷积得到的feature-map，根据前面的网络图可以看到F1是比F2的尺寸要小的，所以要先通过一个双线性插值进行上采样，然后经过卷积层，BN层与F2相加，在此之前，要先将F2用一个1x1的卷积使得channel与F1相同。最终输出F2’。另外有一个分支是将上采样的F1与Label作loss，相当于一个监督作用，来加强F1的表征。

9.RefineNet

Paper：

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

网络
RefineNet是一个用于高分辨率图像的分割模型，我觉得也只能用于高分辨率，因为小图根本无法支持那么多下采样= =。
网络结构如下图所示

一开始就有四个路径，每个路径分辨率逐渐降低，并且每条路径都有一个RefineNet。低层次的RefineNet输出特征图加入到上一层中。
下面给出RefineNet的具体内部结构图

可以看到在每一个RefineNet内部又有多尺度- -。所以说低分辨率的图根本禁不住这么多下采样
如图所示RefineNet主要由三个模块组成，下面依次介绍这三个模块：

Residual convolution unit：是个简化版的ResNet Block，如图中所示，只有ReLU和Conv，移除了BN层。对于每一个输入，filter的数量在RefineNet-4,也就是最底部的RefineNet是512，其他RefineNet的filter数量为256
Multi-resolution fusion：来自RCU的输入都会先做一个自适应的卷积，然后上采样，使得每一个输入的维度相同，然后进行逐元素的相加。
Chained residual pooling：来自最前方的输入不断地进行池化、卷积然后以元素相加的形式跳连到后面的feature-map上

10.PSPNet

Paper：

Pyramid Scene Parsing Network

网络

整个网络一目了然，首先经过一个CNN得到feature-map，然后进行不同尺度的pooling，PSPNet的亮点就在于这个Pyramid Pooling Module，此后的很多网络都采用或这借鉴了这个模块，它将此前的feature-map进行不同尺度的池化，以不同（更大）的感受野获得context information，然后进行卷积。论文中分别采用了1x1,2x2,3x3,6x6四个level的feature-map。然后与先前的feature-map 融合之后再进行卷积得到Prediction。

11.HDC-DUC

Paper

Understanding Convolution for Semantic Segmentation

网络结构

如图所示

Encoder部分用多次不同rate的膨胀卷积。
Decoder部分：标准的双线性插值是没有参数需要学习的，对于像素级的分割任务，会造成部分细节信息丢失。DUC模块则是将最后的Prediction分成 $d^2$ 个通道去学习。假如原始图像大小为 $H * W$ ，卷积之后变为 $H / d * W / d$ ，用 $h * w$ 代替，具体为：先将原先的 $h * w * c$ 变成 $h∗w∗(d^2∗L)$ ，L为分割的类别数目，将此后的输出reshape为 $H * W * L$ ，以此引入多个学习的参数，提升对细节的分割效果。

12.ShelfNet和LadderNet

前后隔了一段阅读这两篇论文，发现网络结构惊人的相似，思路大致都是在不同大小的feature上进行多次的卷积。然后看了下两篇论文的作者，果不其然，是同一个人。
Paper：
LadderNet: Multi-path networks based on U-Net for medical image segmentation
ShelfNet for Fast Semantic Segmentation

网络结构
LadderNet如下图所示

ShelfNet结构如下图所示

可以看到两个结构的pipeline是及其相似的，区别在于LadderNet是以Unet的结构为基础的。两个网络都用了一个S-Block虽然在LadderNet中没有命名，但结构是一样的，即在residual block的基础上加了个参数共享。

13.DANet

Paper：

Dual Attention Network for Scene Segmentation

网络结构

网络如下图所示

DANet是一个全景分割网络，引入了自注意力机制，分为两个分支。这也是这篇论文的重点所在。看网络图还是很直观的，选取ResNet作为backbone，然后分别经过一个Position Attention Module和Channel Attention Module，最后做一个fusion然后得到Prediction。
下面就主要介绍一下Position Attention Module个Channel Attention Module

Position Attention Module
大体结构如下图

首先得到前面Backbone输出的local feature $A (C * H * W)$ ,然后把 $A$ 进行卷积得到两个相同大小的 $B$ 和 $C$ ，对 $B$ 和 $C$ 进行reshape之后的维度是 $C * N$ ,其中 $N = H * W$ ，然后把 $B$ 和 $C$ 进行矩阵相乘，得到的结果还要做一个softmax
，这样就得到了一个spatial attention map $S (N * N)$ 。可以用下面的公式来表达

在进行以上操作的同时， $A$ 还会经过一个分支进行卷积得到 $D (C * H * W)$ ，同样reshape成 $C * N$ 然后跟 $S$ 的转置进行矩阵相乘，把得到的结果reshape成 $C * H * W$ ,最后乘上一个系数α并与原来的feature $A$ 相加。用公式表达为
Channel Attention Module
大体结构如下图所示

还是由Backbone得到的feature $A (C * H * W)$ 开始，先把 $A$ reshape成 $C * H$ ，然后得到attention map $X=A*A^T$ , $X$ 维度为 $C * C$ ，同样的在经过一个softmax层，可以用公式表示为

类似的，对 $X$ 的转置和A进行矩阵相乘，再把结果reshape成 $C * H * W$ ,最后乘上一个系数β再最初的feature $A$ 相加得到output $E$ 。

最后将两个module的输出相加就完事了。

14.BiseNet

Paper：

BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

网络结构

BiseNet考虑到spatial information和context information，通过提取这种两种特征，然后融合，平衡了速度与精度，得到了更好的分割效果。
网络图如下：

如图所示，整个网络分为两部分，Spatial path和Context path，Context path中有个Attention Refinement Module，最后有个Feature Fusion Module来融合两部分的信息。下面分别介绍各个组件。

Spatial path
Spatial path有三层网络，每一层为步长为2的卷积+batch normalization+ReLu输出的feature-map尺寸下采样为原来的1/8
Context path
Context path先是利用轻量级网络来实现快速下采样，论文中采用的是Xception，可以看到Context path尾部有两个Attention Refinement Module
Attention Refinement Module
Attention Refinement Module组成很简单，将上层的feature-map先做global pooling，然后经过一个1x1卷积，紧跟着一个Batch Normalization和Sigmoid，得到结果再与下一层的feature-map相乘即可
Feature Fusion Module
Feature Fusion Module是用来融合Spatial path和Context path的特征，考虑到两个feature-map是不同level的，不能简单的直接融合，所以先将两个feature-map进行 concatenate，然后经过一层卷积，通过batch normalization来平衡尺度差异。记此时的feature-map为 $A$ ， $A$ 要先经过global pooling+1x1conv+relu+1x1conv+sigmoid得到 $A_1$ ， $A_1$ 再与 $A$ 相加得到最终的输出。

15. ESPNet

Paper：

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation

网络结构
ESPNet是轻量级网络中的佼佼者，充分利用了膨胀卷积，其核心为efficient spatial pyramid (ESP) module
主要分析下这个ESPmodule

假设输入的feature-map尺寸为 $M * W * H * M$ ，首先经过一个1x1卷积降维成 $M * W * H * N$ ，然后分成K个path进行膨胀卷积，每个path的卷积核个数为 $M / N$ ,且每个path的dilation rate是不同，形成一种金字塔结构，然后再将每个path的输出以上图所示的方式进行Sum Conact。

ESPNet中还结合了多尺度的输入，并且encoder层与对应的decoder层用通过卷积相结合。

16.DenseASPP

Paper：

DenseASPP for Semantic Segmentation in Street Scenes

网络结构

DenseNet+ASPP…就不多说了，一目了然。

17.Fast-SCNN

Paper：

Fast-SCNN: Fast Semantic Segmentation Network

网络结构
网络图如下：

这篇论文中的图真是一言难尽…属实有点丑。可以看到这篇论文的思想也是两个branch，一个Spatial information和一个Context information，网络中的卷积绝大多数都采用了depthwise separable convolution，从而提高了速度。
在Global Feature Extractor最后还采用了Pyramid Pooling来汇总基于不同区域的Context information。

这篇文章就到这里吧，其实还有很多网络没写，像经典的deeplab系列，Unet的一些变体啥的，那些准备另起炉灶了。其实写到这里可以感受到网络设计的技巧就那么些，当然，有些文章还是比较亮眼的。

CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
✨【CosyVoice2-0.5B 实战】Segmentation fault (core dumped) 终极解决方案（保姆级教程）杨靳言先语音识别语音生成 python 人工智能
【CosyVoice2-0.5B实战】Segmentationfault(coredumped)终极解决方案|torchaudio.save崩溃全流程排查与替代方案（保姆级教程）“运行没报错就是胜利，结果没崩溃就是奇迹。”——每一位搞TTS的开发者内心独白本文聚焦使用CosyVoice2-0.5B进行TTS推理过程中，常见的torchaudio.save()崩溃问题——Segmentationfa
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
[CVPR 2025] 高效无监督Prompt与偏好对齐驱动的半监督医学分割 alfred_torres prompt 医学图像分割
CVPR2025|优化SAM：高效无监督Prompt与偏好对齐驱动的半监督医学分割论文信息标题：EnhancingSAMwithEfficientPromptingandPreferenceOptimizationforSemi-supervisedMedicalImageSegmentation作者：AishikKonwer,ZhijianYang,ErhanBas,CaoXiao,Pratee
SAM分割一切系列相关论文梳理 ↣life♚ 计算机视觉通用模型大模型深度学习计算机视觉通用分割 transformer SAM 自动标注
文章目录SAM相关论文SAM优化或功能拓展[MedicalImageAnalysis2025]UN-SAM:Domain-AdaptiveSelf-PromptSegmentationforUniversalNucleiImages-通过自动生成掩码prompt减轻标注工作，实现细胞通用分割[NIPS2023]SegmentEverythingEverywhereAllatOnce-比SAM交互能
多模态大语言模型arxiv论文略读（127）胖头鱼爱算法 #mllm_arxiv 语言模型人工智能自然语言处理论文笔记论文阅读
WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文标题：WhenSAM2MeetsVideoCamouflagedObjectSegmentation:AComprehensiveEvaluationandAdaptation➡️论文作者：YuliZhou,GuoleiS
医图论文 AAAI‘25 | VOILA: 基于体素与语言交互的复杂度感知CT图像通用分割方法小白学视觉医学图像处理论文解读人工智能计算机视觉医学图像处理论文解读深度学习 AAAI
论文信息题目：VOILA:Complexity-AwareUniversalSegmentationofCTimagesbyVoxelInteractingwithLanguageVOILA:基于体素与语言交互的复杂度感知CT图像通用分割方法作者：ZishuoWan,YuGao,WanyuanPang,DaweiDing论文创新点引入体素级对比学习：本文首次将体素级对比学习引入医学图像分割任务。通
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
医图论文 Arxiv‘24 | SEG-SAM：用于统一医学图像分割的语义引导SAM 小白学视觉医学图像处理论文解读医学图像处理医学图像顶会 Arxiv 论文解读深度学习
论文信息题目：SEG-SAM:Semantic-GuidedSAMforUnifiedMedicalImageSegmentationSEG-SAM：用于统一医学图像分割的语义引导SAM作者：ShuangpingHuang,HaoLiang,QingfengWang,ChulongZhong,ZijianZhou,MiaojingShi论文创新点语义感知解码器：作者提出了一个独立的语义感知解码器（
2022-2023 ICCV、ECCV、CVPR关于有感自动驾驶的论文木寒夏自动驾驶人工智能机器学习
2022-2023ICCV、ECCV、CVPR关于有感自动驾驶的论文1全景分割【ECCV2022】|4D-STOP：基于时空对象方案生成和聚合的4DLiDAR全景分割|4D-StOP:PanopticSegmentationof4DLiDARUsingSpatio-TemporalObjectProposalGenerationandAggregation|论文链接|代码链接【ECCV2022】|
In PyTorch 2.6, we changed the default value of the weights_only argument in torch. 神笔馬良 pytorch 人工智能 python
问题描述：D:\anaconda\envs\yolov5_mogui\python.exeD:/Instance_Segmentation/yolov5_moguimianju/yolov5-seg-master/train.pytrain:weights=weights\yolov5s-seg.pt,cfg=models/yolov5s-seg.yaml,data=data\dc.yaml,hy
C语言中的段错误（Segmentation Fault）：底层原理及解决方法 woainizhongguo. C/C++c语言开发语言
在嵌入式单片机开发中，除了段错误外，还有许多其他常见的运行时错误，这些错误可能导致系统崩溃、功能异常或性能下降。以下是分类介绍及应对方法：一、硬件相关错误1.外设初始化失败原因：时钟未使能（如STM32未调用__HAL_RCC_GPIOx_CLK_ENABLE()）。引脚复用配置错误（如将USART_TX引脚配置为普通GPIO）。外设参数超出范围（如I2C速率设置过高）。表现：外设无响应，如串口无
nnUNet V2代码——图像增强（一） w1ndfly 图像增强阅读nnUNet V2代码计算机视觉机器学习深度学习人工智能 nnunet nnU-Net V2 nnUNet
本文目录nnUNetV2使用的图像增强方法各个图像增强代码1.BasicTransform2.SpatialTransform__init__函数get_parameters函数_apply_to_image函数_apply_to_segmentation函数其余函数nnUNetV2使用的图像增强方法nnUNetV2会依照概率依次对图像应用以下图像增强方法：代码-类名对应图像增强方法Spatial
探索大规模实例分割新天地 —— LVIS API深度解析与应用推广芮奕滢Kirby
探索大规模实例分割新天地——LVISAPI深度解析与应用推广去发现同类优质开源项目:https://gitcode.com/在机器视觉领域，数据集的丰富性和多样性是推动技术进步的关键。LVIS（LargeVocabularyInstanceSegmentation），以其独特的名字和深远的意义，在实例分割界掀起了一场革新风暴。LVIS，这个名字发音为“el-vis”，不仅仅是一个数据集，更是一套强
跨视角差异-依赖网络用于体积医学图像分割|文献速递-生成式模型与transformer在医学影像中的应用
Title题目Cross-viewdiscrepancy-dependencynetworkforvolumetricmedicalimagesegmentation跨视角差异-依赖网络用于体积医学图像分割01文献速递介绍医学图像分割旨在从原始图像中分离出受试者的解剖结构（例如器官和肿瘤），并为每个像素分配语义类别，这在许多临床应用中起着至关重要的作用，如器官建模、疾病诊断和治疗规划（Shamsh
七天速成数字图像处理之五（图像分割） ZzzZ31415926 图像处理计算机视觉算法人工智能数学建模
图像分割（ImageSegmentation）是数字图像处理中最核心、最具挑战性的任务之一，其目标是将图像划分为具有一致特征的区域，从而实现对图像中目标或结构的提取、理解与分析。下面我将从概念、分类、经典方法、实际应用四个层面为你系统性地讲解图像分割。一、什么是图像分割？定义：图像分割是指将图像划分为若干个互不重叠的区域，使得每个区域内部具有某种一致性（如灰度、纹理、颜色、边缘等），而不同区域之间
配置acados时出现“Segmentation fault，Exception: Rendering of main.in.c failed!”报错 Nice_Tea 数学建模开发语言 ubuntu c++
问题描述在安装acados后运行测试节点时出现错误：liangjunming@XX~/program/acados/examples/acados_python/getting_startedongit:mastero[11:49:11]C:1$python3.8minimal_example_ocp.pyWARNING:Gauss-NewtonHessianapproximationwithEX
鸿蒙主体分割/剔除背景 xyccstudio 鸿蒙 harmonyos 华为
鸿蒙主体分割/剔除背景参考文档鸿蒙原生提供用于实现主体分割/剔除背景的API，有一些场景例如说证件照之类的应用就非常好做了。话不多话上代码。privateasyncdoSeg(chooseImage:PixelMap){letvisionInfo:subjectSegmentation.VisionInfo={pixelMap:chooseImage,};letconfig:subjectSegm
深度学习在建筑物提取中的应用综述一瞬祈望数据集深度学习人工智能
深度学习在建筑物提取中的应用综述目录深度学习在建筑物提取中的应用综述@[toc](目录)深度学习在建筑物提取中的应用综述一、建筑物提取简介二、深度学习方法分类1.语义分割（SemanticSegmentation）2.实例分割（InstanceSegmentation）3.边界感知分割（Boundary-awareSegmentation）4.多模态融合方法三、主流建筑物提取公开数据集及分析四、数
YOLOv11改进 | DWRSeg扩张式残差助力小目标检测 wei子技术杂谈 YOLO 人工智能
YOLOv11改进|DWRSeg扩张式残差助力小目标检测引言在目标检测领域，小目标检测一直是一个具有挑战性的任务。传统的卷积神经网络在处理小目标时往往表现不佳，主要是因为小目标在特征图中占据的像素较少，随着网络深度的增加，其特征信息容易丢失。本文提出的DWRSeg（Dilated-WiseResidualSegmentation）模块通过扩张式残差结构，有效增强了网络对小目标的特征提取能力，显著提
kali中使用subfinder的时候报错，重新安装的时候也报错的问题解决方法，以及搭建go环境。第五十七次取消发送 kali go subfinder 渗透测试
使用subfinder的时候出现了这个错误：panic:runtimeerror:invalidmemoryaddressornilpointerdereference[signalSIGSEGV:segmentationviolationcode=0x1addr=0x10pc=0xd8fa75]goroutine57[running]:github.com/projectdiscovery/su
【前沿热点顶会】CVPR 2025和目标分类、检测、分割、重识别有关的论文平安顺遂事事如意顶刊顶会论文合集分类数据挖掘人工智能 CVPR 检测分割重识别
SegEarth-OV:TowardsTraining-FreeOpen-VocabularySegmentationforRemoteSensingImages遥感图像在农业、水资源、军事、救灾等领域发挥着不可替代的作用。像素级解释是遥感影像应用的一个关键方面;但是，一个普遍的限制仍然是需要大量的手动注释。为此，我们尝试将开放词汇语义分割（OVSS）引入遥感环境中。然而，由于遥感图像对低分辨率特
E: Sub-process /usr/sbin/dpkg-preconfigure --apt || true received a segmentation fault. rrr2 Ubuntu
解决apt-get安装中的E:Sub-process/usr/sbin/dpkg-preconfigure--apt||truereceivedasegmentationfault.E:Failurerunningscript/usr/sbin/dpkg-preconfigure--apt||trueE:Sub-process/usr/bin/dpkgreturnedanerrorcode(1)问
Segmentation fault（段错误）科学的发展-只不过是读大自然写的代码搜索算法
Segmentationfault（段错误）是程序在运行时遇到的一种严重错误，通常发生在程序试图访问未分配给自己的内存区域，或者试图以不允许的方式访问内存时。这种错误会导致程序异常终止，并可能生成一个名为“coredump”的文件，用于后续的调试和分析。一、段错误的原因段错误的发生通常与以下几种情况有关：空指针解引用：指针未初始化，或者指针被设置为NULL，然后尝试解引用该指针。示例代码：int*
php 段错误,总结段错误(Segmentation fault) (转) 巫升权 php 段错误
段错误(Segmentationfault)原文出处:http://oss.lzu.edu.cn/blog/article.php?tid_700.html我只是把排版弄舒服一点，很好的文章，虽然说是初级篇，但帮助确实很大。1)往受到系统保护的内存地址写数据有些内存是内核占用的或者是其他程序正在使用，为了保证系统正常工作，所以会受到系统的保护，而不能任意访问.#includeintmain(){i
linux 跟踪调试 -- 笔记 wishfly linux linux gnu debian
1Segmentationfault(coredumped)Segmentationfault(coredumped)_doodlesomething的博客-CSDN博客_coredumped用gdb查看core文件:下面我们可以在发生运行时信号引起的错误时发生coredump了.发生coredump之后,用gdb进行查看core文件的内容,以定位文件中引发coredump的行.gdb[execf
ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation 医学分割哇哇哇哇哇哇哇哇哇机器学习人工智能
ERDUnet:一种用于医学图像分割的高效残差双编码单元摘要医学图像分割在临床诊断中有着广泛的应用，基于卷积神经网络的分割方法已经能够达到较高的准确率。然而，提取全局上下文特征仍然很困难，而且参数太大，无法临床应用。为此，我们提出了一种新的网络结构来改进传统的编码器-解码器网络模型，在保持分割精度的同时节省了参数。通过构造一个能够同时提取局部特征和全局连续性信息的编码器模块，提高了特征提取效率。设
SA-1B数据集转COCO数据集 AloneCat2012 计算机视觉目标检测
主要流程；1先把SA-1B数据集的.json文件读进来2通过coco自带的api将其RLE格式的segmentation的值转成mask格式此处科普一下：RLE:用来表示目标在图像中的像素位置信息coco数据集中，RLE格式用一个字典表示，包含两个字段：'size'和'counts'。'size'是一个表示图像大小的列表，包含图像的高度和宽度。'counts'是一个经过压缩的字节串，表示图像的二进
[Survey]SAM2 for Image and Video Segmentation: A Comprehensive Survey Xy-unu 分割 transformer 论文阅读综述
BaseInfoTitleSAM2forImageandVideoSegmentation:AComprehensiveSurveyAdresshttps://arxiv.org/abs/2503.12781Journal/Time2503Author四川大学，北京大学1.Introduction图像分割专注于识别单个图像中的目标、边界或纹理，而视频分割则将这一过程扩展到时间维度，旨在分割连续的视
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

【记录】图像语义分割网络，FCN-SegNet-Unet-Enet-LinkNet-DenseNet~~~~

图像语义分割网络

1. FCN

2.SegNet

3.Unet

4.Enet

5. LinkNet

6.DenseNet

7.PixelNet

8.ICNet

9.RefineNet

10.PSPNet

11.HDC-DUC

12.ShelfNet和LadderNet

13.DANet

14.BiseNet

15. ESPNet

16.DenseASPP

17.Fast-SCNN

你可能感兴趣的:(Segmentation)