just_sort

实例分割算法之Mask R-CNN论文解读

前言

Anchor-Based的目标检测算法我们已经讲了比较多了，另外Anchor-Free的目标检测我们也已经简单解读了一下DenseBox开了个头，而今天我们要来说说另外一个方向即实例分割。而实例分割首当其冲需要介绍的就是2017年He Kaiming大神的力作Mask-RCNN，其在进行目标检测的同时进行实例分割，取得了出色的效果，并获得了2016年COCO实例分割比赛的冠军。

总览

Mask-RCNN是一个实例分割（Instance segmentation）框架，通过增加不同的分支可以完成目标分类，目标检测，语义分割，实例分割，人体姿态估计等多种任务。对于实例分割来讲，就是在Faster-RCNN的基础上(分类+回归分支)增加了一个分支用于语义分割，其抽象结构如Figure1所示：

稍微描述一下这个结构：

输入预处理后的原始图片。
将输入图片送入到特征提取网络得到特征图。
然后对特征图的每一个像素位置设定固定个数的ROI（也可以叫Anchor），然后将ROI区域送入RPN网络进行二分类(前景和背景)以及坐标回归，以获得精炼后的ROI区域。
对上个步骤中获得的ROI区域执行论文提出的ROIAlign操作，即先将原图和feature map的pixel对应起来，然后将feature map和固定的feature对应起来。
最后对这些ROI区域进行多类别分类，候选框回归和引入FCN生成Mask，完成分割任务。

下图更清晰的展示了Mask-RCNN的整体框架，来自知乎用户vision：

方法

原始ROI Pooling的问题

在Faster-RCNN中ROIPooling的过程如下图所示：

输入图片的大小为 $800\times 800$ ，其中狗这个目标框的大小为 $665\times 665$ ，经过VGG16网络之后获得的特征图尺寸为 $800/32 \times 800/32=25\times 25$ ，其中 $32$ 代表VGG16中的 $5$ 次下采样（步长为2）操作。同样，对于狗这个目标，我们将其对应到特征图上得到的结果是 $665/32 \times 665/32=20.78\times 20.78=20\times 20$ ，因为坐标要保留整数所以这里引入了第一个量化误差即舍弃了目标框在特征图上对应长宽的浮点数部分。

然后我们需要将这个 $20\times 20$ 的ROI区域映射为 $7\times 7$ 的ROI特征图，根据ROI Pooling的计算方式，其结果就是 $20/7 \times 20/7=2.86\times 2.86$ ，同样执行取整操作操作后ROI特征区域的尺寸为 $2\times 2$ ，这里引入了第二次量化误差。

从上面的分析可以看出，这两次量化误差会导致原始图像中的像素和特征图中的像素进行对应时出现偏差，例如上面将 $2.86$ 量化为 $2$ 的时候就引入了 $0.86$ 的偏差，这个偏差映射回原图就是 $0.86\times 32=27.52$ ，可以看到这个像素偏差是很大的。

ROIAlign

为了缓解ROI Pooling量化误差过大的缺点，本论文提出了ROIAlign，ROIAligin没有使用量化操作，而是使用了双线性插值。它充分的利用原图中的虚拟像素值如 $27.52$ 四周的四个真实存在的像素值来共同决定目标图中的一个像素值，即可以将和 $27.52$ 类似的非整数坐标值像素对应的输出像素值估计出来。这一过程如下图所示：

其中feat. map就是VGG16或者其他Backbone网络获得的特征图，黑色实线表示的是ROI划分方式，最后输出的特征图大小为 $2\times 2$ ，然后就使用双线性插值的方式来估计这些蓝色点的像素值，最后得到输出，然后再在橘红色的区域中执行Pooling操作最后得到 $2\times 2$ 的输出特征图。可以看到，这个过程相比于ROI Pooling没有引入任何量化操作，即原图中的像素和特征图中的像素是完全对齐的，没有偏差，这不仅会提高检测的精度，同时也会有利于实例分割。

网络结构

为了证明次网络的通用性，论文构造了多种不同结构的Mask R-CNN，具体为使用Backbone网络以及是否将用于边框识别和Mask预测的上层网络分别应用于每个ROI。对于Backbone网络，Mask R-CNN基本使用了之前提出的架构，同时添加了一个全卷积的Mask(掩膜)预测分支。Figure3展示了两种典型的Mask R-CNN网络结构，左边的是采用 $R e s N e t$ 或者 $R e s N e X t$ 做网络的backbone提取特征，右边的网络采用FPN网络做Backbone提取特征，这两个网络的介绍均在公众号的往期文章中可以找到，最终作者发现使用ResNet-FPN作为特征提取的backbone具有更高的精度和更快的运行速度，所以实际工作时大多采用右图的完全并行的mask/分类回归。

损失函数

Mask分支针对每个ROI区域产生一个 $K\times m\times m$ 的输出特征图，即 $K$ 个 $m\times m$ 的二值掩膜图像，其中 $K$ 代表目标种类数。Mask-RCNN在Faster-RCNN的基础上多了一个ROIAligin和Mask预测分支，因此Mask R-CNN的损失也是多任务损失，可以表示为如下公式：
$L=L_{cls}+L_{box}+L_{mask}$
其中 $L_{cls}$ 表示预测框的分类损失， $L_{box}$ 表示预测框的回归损失， $L_{mask}$ 表示Mask部分的损失。
对于预测的二值掩膜输出，论文对每一个像素点应用sigmoid函数，整体损失定义为平均二值交叉损失熵。引入预测K个输出的机制，允许每个类都生成独立的掩膜，避免类间竞争。这样做解耦了掩膜和种类预测。不像FCN的做法，在每个像素点上应用softmax函数，整体采用的多任务交叉熵，这样会导致类间竞争，最终导致分割效果差。

下图更清晰的展示了Mask-RCNN的Mask预测部分的损失计算，来自知乎用户vision：

训练

在Faster-RCNN中，如果ROI区域和GT框的IOU>0.5，则ROI是正样本，否则为负样本。 $L_{mask}$ 只在正样本上定义，而Mask的标签是ROI和它对应的Ground Truth Mask的交集。其他的一些训练细节如下：

采用image-centric方式训练，将图片的长宽较小的一边缩放到800像素。
每个GPU的mini-batch=2，每张图片有 $N$ 个采样ROIs，其中正负样本比例为1:3。
在8个gpu上进行训练，batch_size=2，迭代160k次，初始学习率0.02，在第120k次迭代时衰减10倍，weight_decay=0.0001,momentum=0.9。

测试

测试阶段，采用的proposals的数量分别为 $300$ （Faster-RCNN）和1000(FPN)。在这些proposals上，使用bbox预测分支配合后处理nms来预测box。然后使用Mask预测分支对最高score的100个检测框进行处理。可以看到这里和训练时Mask预测并行处理的方式不同，这里主要是为了加速推断效率。然后，Mask网络分支对每个ROI预测 $K$ 个掩膜图像，但这里只需要使用其中类别概率最大的那个掩膜图像就可以了，并将这个掩膜图像resize回ROI大小，并以0.5的阈值进行二值化。

实验

总览

非常的SOTA，Mask R-CNN打败了上界冠军FCIS（其使用了multi-scale训练，水平翻转测试，OHEM等），具体结果如Table1所示：

再来一些可视化结果看看，如Figure5所示。

消融实验

Table2展示了Mask-RCNN的消融实验，(a)显示网络越深，效果越好。并且FPN效果要好一些。而(b)显示sigmoid要比softmax效果好一些。(c)和(d)显示ROIAligin效果有提升，特别是AP75提升最明显，说明对精度提升很有用。(e)显示mask banch采用FCN效果较好（因为FCN没有破坏空间关系）。

目标检测结果对比

从Table3可以看出，在预测的时候即使不使用Mask分支，结果精度也是很高的。可以看到ROIAligin直接使用到Faster-RCNN上相对于ROI Pooling提高了0.9个点，但比Mask-RCNN低0.9个点。作者将其归结为多任务训练的提升，由于加入了mask分支，带来的loss改变，间接影响了主干网络的效果。

关键点检测

和Mask-RCNN相比，关键点检测就是将Mask分支变成heatmap回归分支，需要注意的是最后的输出是 $m\times m$ 形式的softmax, 不再是sigmoid，论文提到这有利于单独一个点的检测，并且最后的Mask分辨率是 $56\times 56$ ，不再是 $28\times 28$ 。

后记

后面我会更新Mask R-CNN的代码详细解析，从代码角度详细分析Mask R-CNN的细节，论文解析暂时就讲到这里了。

附录

论文原文：https://arxiv.org/pdf/1703.06870.pdf
参考资料：https://blog.csdn.net/chunfengyanyulove/article/details/83545784

欢迎关注GiantPandaCV, 在这里你将看到独家的深度学习分享，坚持原创，每天分享我们学习到的新鲜知识。( • ̀ω•́ )✧

有对文章相关的问题，或者想要加入交流群，欢迎添加BBuf微信：

你可能感兴趣的:(语义分割)

ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
【深度学习加速探秘】Winograd 卷积算法：让计算效率 “飞” 起来 heimeiyingwang 算法深度学习算法人工智能
一、为什么需要Winograd卷积算法？从“卷积计算瓶颈”说起在深度学习领域，卷积神经网络（CNN）被广泛应用于图像识别、目标检测、语义分割等任务。然而，卷积操作作为CNN的核心计算单元，其计算量巨大，消耗大量的时间和计算资源。随着模型规模不断增大，传统卷积算法的计算效率成为限制深度学习发展的一大瓶颈。Winograd卷积算法的出现，犹如一把利刃，直击传统卷积计算的痛点。它通过巧妙的数学变换，大幅
基于深度学习的智能图像语义分割系统：技术与实践 Blossom.118 机器学习与人工智能深度学习人工智能 python 分类音视频机器学习 sklearn
前言图像语义分割是计算机视觉领域中的一个重要任务，其目标是将图像中的每个像素分配到预定义的语义类别中。这一技术在自动驾驶、医学影像分析、机器人视觉等多个领域有着广泛的应用。近年来，深度学习技术，尤其是卷积神经网络（CNN）及其变体，为图像语义分割带来了显著的改进。本文将详细介绍基于深度学习的智能图像语义分割系统的原理、实现方法以及实际应用案例。一、图像语义分割的基本概念1.1什么是图像语义分割？图
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
【GitHub开源项目实战】DINOv2 自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析观熵 GitHub开源项目实战 github 开源架构人工智能
DINOv2自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析关键词DINOv2、自监督视觉模型、ViT、多分辨率表示、语义分割、深度估计、Zero-shot、图像表示学习、OpenCLIP替代、MetaAI摘要DINOv2是由MetaAIResearch推出的下一代自监督视觉基础模型，在保持不依赖人工标签的前提下，显著提升了多任务性能，尤其在语义分割、图像分类、深度估计等下游任务中超
python批量修改xml文件爱上答复 xml
计算机视觉领域是当下比教热门的一个研究领域，包括目标检测，实例分割，语义分割等，不可避免会涉及到xml文件的修改，如果一两个文件的话，修改起来还算简答，但是实际情况中，远不止一个文件，且一个文件中也会包含多组属性。所以直接上代码，我习惯用pycharm编辑器来实现。importxml.dom.minidomforiinrange(0,100,5):path1="xxx"+str(i)+".xml"
鸿蒙开发实战之Image Kit重构美颜相机图像处理管线 harmonyos-next
一、核心能力突破通过ImageKit实现三大技术革新：硬件加速处理4K图像处理延迟降至16ms（NPU+GPU协同）支持10bitHDR管线（BT.2020色域）AI增强算法实时皮肤质感分析（98%毛孔保留率）智能背景重构（语义分割精度±1像素）跨平台一致性相同算法在麒麟/骁龙平台输出差异{updatePreview(result);});//超分辨率重建image.superResolution
【语义分割专栏】3：Segnet原理篇 fouen 语义分割人工智能计算机视觉深度学习神经网络 pytorch
文章目录前言背景介绍Segnet核心剖析池化索引(poolingIndices)其他细节编码器解码器的对称结构Segnet模型代码结语参考资料前言本篇文章收录于语义分割专栏，如果对语义分割领域感兴趣的，可以去看看专栏，会对经典的模型以及代码进行详细的讲解哦！其中会包含可复现的代码！带大家深入语义分割的领域，将从原理，代码深入讲解，希望大家能从中有所收获，其中很多内容都包含着自己的一些想法以及理解，
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
深度学习之路——CNN卷积神经网络详解 DeepLinkDeepLink Ai 深度学习 cnn 人工智能
深度学习之路——CNN卷积神经网络详解前言卷积神经网络（ConvolutionalNeuralNetwork,CNN）作为深度学习领域的基础模型，推动了人工智能在图像、视频等方向的爆炸式发展。无论是图像分类、目标检测，还是语义分割、自动驾驶，CNN几乎无处不在。本文将带你系统了解CNN的基本原理、结构组成、常用网络、应用场景及简单代码实现。1.什么是CNN？CNN是一类专门处理类似网格结构数据（如
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
相机--RGB相机猿饵块数码相机
教程RGB--深度相机--激光雷达RGB相机原理：仅捕获红（R）、绿（G）、蓝（B）三通道的彩色图像，输出2D像素矩阵，无深度信息。核心作用：2D视觉任务：目标检测、图像分类、语义分割（如YOLO、ResNet）。优点：成本低：单传感器，硬件简单（如普通手机摄像头）。缺点：无深度信息：需额外算法或传感器获取3D数据。RGB相机和单目相机定义区别名称定义角度典型输出是否包含深度信息RGB相机数据格式
自动驾驶可行驶区域划分综述吃旺旺雪饼的小男孩自动驾驶自动驾驶人工智能机器学习
可行使区域划分1.数据采集与融合的深度解析1.1传感器类型与数据特性1.2多传感器融合方法2.环境感知与特征提取的细节2.1车道线检测技术2.2道路边界识别2.3障碍物检测与区域划分3.可行驶区域划分的实现3.1语义分割与几何建模3.2动态场景处理4.路径规划与决策的细节4.1局部路径规划4.2全局路径规划5.关键技术挑战的深入分析5.1复杂场景处理5.2实时性与计算优化5.3安全与冗余设计6.典
深度学习在建筑物提取中的应用综述一瞬祈望数据集深度学习人工智能
深度学习在建筑物提取中的应用综述目录深度学习在建筑物提取中的应用综述@[toc](目录)深度学习在建筑物提取中的应用综述一、建筑物提取简介二、深度学习方法分类1.语义分割（SemanticSegmentation）2.实例分割（InstanceSegmentation）3.边界感知分割（Boundary-awareSegmentation）4.多模态融合方法三、主流建筑物提取公开数据集及分析四、数
使用paddleX进行目标检测详解狸不凡机器学习深度学习神经网络
前言使用百度开源的paddleX工具，我们可以很容易快速训练出使用我们自己标注的数据的目标检测，图像分类，实例分割，语义分割的深度网络模型，本文，主要记录如何全流程使用pddleX来训练一个简单用于检测猫狗ppyolo_tiny模型。（一）数据准备这里的图片，我们直接在百度图片上搜索“猫狗”，随机下载10张图片，存到“JPEGImages文件夹”里。（二）使用labelme标注工具进行标注（1）l
高精地图与SLAM：依赖停车场高精地图提供结构信息，结合SLAM（同步定位与地图构建）技术实现实时定位与导航百态老人人工智能机器学习算法
基于现有资料，截至2025年3月1日，高精地图与SLAM技术在停车场场景中的结合应用主要体现在以下几个方面：1.SLAM的实时定位与增量地图构建SLAM技术通过激光雷达、摄像头、IMU等传感器实时采集环境特征（如停车场内的柱子、停车线、减速带等），并利用算法（如GraphSLAM、EKF、视觉语义分割）进行匹配定位，同时构建增量式地图。这种能力使得车辆即使初次进入未知停车场，也能在无GNSS信号的
PaddleX 使用案例非小号 AI scikit-learn pytorch 人工智能 python 机器学习
以下是PaddleX的典型使用案例，涵盖图像分类、目标检测和语义分割三大场景，展示其从数据准备到模型部署的全流程：案例1：图像分类-垃圾分类识别场景：识别可回收垃圾、有害垃圾、厨余垃圾和其他垃圾四类图片。步骤1：数据准备与标注#1.创建项目目录mkdirgarbage_classification&&cdgarbage_classification#2.下载示例数据集（约2000张图片，4分类）w
飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）非小号 AI paddlepaddle 机器学习人工智能
以下是飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）中常用的模型、函数及工具链，结合其生态特点分类说明：一、数据采集与标注1.数据采集工具PaddleX（图像/视频场景）功能：支持图像分类、目标检测、语义分割任务的数据标注，集成标注工具（如矩形框、多边形标注）。官网工具：PaddleX数据标注工具用法：通过图形化界面或命令行启动标注工具，输出标准VOC/
基于RGB与多光谱图像的农田语义分割技术研究及应用中达瑞和-高光谱·多光谱相机
随着智慧农业的发展，精准监测农田环境与作物生长状态成为关键需求。传统遥感技术受限于光谱分辨率与成像条件，难以满足精细化管理要求。本文以无人机搭载中达瑞和S810多光谱相机为技术载体，结合深度学习算法，提出单模态与多模态融合的农田语义分割方法。通过构建专用数据集与创新网络架构，显著提升了复杂场景下的分割精度与环境适应性，为精准农业提供了高效解决方案。一、研究背景与技术挑战农业生产的数字化监测依赖高精
动态神经网络(Dynamic NN)在边缘设备的算力分配策略：MoE架构实战分析学术猿之吻神经网络架构人工智能算法量子计算深度学习机器学习
一、边缘计算场景的算力困境在NVIDIAJetsonOrinNX（64TOPSINT8）平台上部署视频分析任务时，开发者面临三重挑战：动态负载波动视频流分辨率从480p到4K实时变化，帧率波动范围20-60FPS能效约束设备功耗需控制在15W以内（被动散热）多任务耦合典型场景需同步处理：目标检测（YOLOv8s）行为识别（SlowFast）语义分割（DeepLabv3）二、MoE架构的核心技术解析
助力移动机器人下游任务！Mobile-Seed：联合语义分割和边缘检测 3Ｄ视觉工坊 3D视觉从入门到精通计算机视觉
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：语义分割，拉你入群。文末附行业细分群0.写在前面移动机器人经常需要定位语义目标和目标边缘，但大多数研究只集中在语义分割的部署上。今天笔者为大家推荐一篇开源工作，实现了语义分割和边缘检测的联合学习。下面一起来阅读一下这项工作~1.论文信息标题：Mobile-Seed:JointS
YOLO11改进-注意力-引入通道压缩的自注意力机制CRA 一勺汤 YOLOv11模型改进系列网络 YOLO YOLOv11 目标检测模块魔改 YOLOv11改进
在语义分割任务中存在MetaFormer架构应用局限于自注意力计算效率低的问题。为解决这些问题，提出提出CRA模块。CRA它通过将查询和键的通道维度缩减为一维，在考虑全局上下文提取的同时，显著降低了自注意力的计算成本，提高了网络的计算效率。本文将CRA与C2PSA相结合，在降低计算成本的同时提高精度。代码：https://github.com/tgf123/YOLOv8_improve/blob/
深度学习直接缝了别的模型，在论文中这种创新点应该如何描述呢？深度学习入门深度学习人工智能神经网络语音识别计算机视觉 transformer AI写作
作为散养硕士，我们希望能早早发小论文，然后去实习&考公&考编，虽然知道网上大家都说缝模块来水论文，那怎样才能优雅的缝出一篇中稿率更高的论文（即如何更好地讲故事）呢？简洁版：相似领域找灵感，边试边改勇投稿。1.怎么找模块？（1）缝一些常见模块（2）相似领域比如说，最新的顶刊顶会的通用骨干网络、可以作为你的骨干网络，相似领域的模块，可以作为你其中信息融合或者其他的模块。多模态的目标检测/语义分割/目标
遥感深度学习——基于deeplabv3+和GID数据集（1）全域智图深度学习人工智能
博主最近准备进行深度学习入门，因为是做遥感方向的，经过多重考虑，算法最后选择了deeplabv3+。DeepLabV3+是由谷歌提出的一种用于图像语义分割的深度学习模型。它在DeepLabV3的基础上，加入了编码器-解码器结构，以提高分割结果的边缘细节和空间分辨率。以下是DeepLabV3+的主要特点：编码器-解码器结构：编码器部分提取图像的高层次语义特征，解码器部分逐步恢复图像的空间细节，提高分
【前沿热点顶会】CVPR 2025和目标分类、检测、分割、重识别有关的论文平安顺遂事事如意顶刊顶会论文合集分类数据挖掘人工智能 CVPR 检测分割重识别
SegEarth-OV:TowardsTraining-FreeOpen-VocabularySegmentationforRemoteSensingImages遥感图像在农业、水资源、军事、救灾等领域发挥着不可替代的作用。像素级解释是遥感影像应用的一个关键方面;但是，一个普遍的限制仍然是需要大量的手动注释。为此，我们尝试将开放词汇语义分割（OVSS）引入遥感环境中。然而，由于遥感图像对低分辨率特
FCN改进：CBAM注意力机制增强FCN-ResNet50分割模型听风吹等浪起 AI 改进系列深度学习机器学习人工智能
1.介绍在这篇博客中，我将详细介绍一个结合了CBAM(ConvolutionalBlockAttentionModule)注意力机制的FCN-ResNet50语义分割模型的实现代码。代码概述这段代码实现了一个基于FCN-ResNet50架构的语义分割模型，并在ResNet50的各个层级后添加了CBAM注意力模块。主要包含以下几个部分：CBAM注意力模块的实现FCN-ResNet50模型的加载和修改
从代码学习深度学习 - 语义分割和数据集 PyTorch版飞雪白鹿€ #计算机视觉深度学习 pytorch
文章目录前言什么是语义分割？图像分割和实例分割PascalVOC2012语义分割数据集PascalVOC2012语义分割数据集介绍基本信息语义分割部分特点数据格式评价指标应用价值数据集获取使用提示辅助工具代码(`utils_for_huitu.py`)读取数据预处理数据自定义语义分割数据集类读取数据集整合所有组件总结前言大家好！欢迎来到“从代码学习深度学习”系列。今天，我们将深入探讨计算机视觉中一
DeepLabv3+改进32:在主干网络中添加KANConv2DLayer| AICurator 深度学习机器学习 python
【DeepLabv3+改进专栏！探索语义分割新高度】你是否在为图像分割的精度与效率发愁？本专栏重磅推出：✅独家改进策略：融合注意力机制、轻量化设计与多尺度优化✅即插即用模块：ASPP+升级、解码器PS:订阅专栏提供完整代码论文简介步骤一新建mmseg/models/attentions/kan_conv.py，添加如下代码：importtorchimporttorch.nnasnnfrommmcv
语义分割常用模型 jmxer 深度学习笔记 python 深度学习机器学习
VGG-Unetimporttorchimporttorch.nnasnn#定义一个通用的卷积块classConvBNReLU(nn.Sequential):def__init__(self,in_channels,out_channels,kernel_size=3,padding=1):super(ConvBNReLU,self).__init__(nn.Conv2d(in_channels,
基于Partial Cross Entropy的弱监督语义分割实战指南 Loving_enjoy 计算机学科论文创新点深度学习机器学习人工智能
一、问题背景：弱监督学习的挑战在计算机视觉领域，语义分割任务面临最大的挑战之一是**标注成本**。以Cityscapes数据集为例，单张图像的像素级标注需要约90分钟人工操作。这催生了弱监督学习（WeaklySupervisedLearning）的研究方向，其中partialcrossentropyloss（部分交叉熵损失）成为重要的技术手段。###弱监督的常见形式1.图像级标签（Image-le
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他