yuanlulu

这就是神经网络 9：深度学习-语义分割-FCN、U-Net、SegNet

FCN

简介

FCN全称是‘Fully Convolutional Networks’,也就是全卷积网络。这个网络去掉了全连接层，网络结构里只有卷积（池化和反卷积）操作。本文的FCN特指这个语义分割网络，而非广义的全卷积网络。

作者在论文里说，这是第一个可以端到端训练、输出像素级预测（pixels-to-pixels）语义分割网络，它可以处理任意大小的图片输入。本网络使用上采样层进行预测，使用降采样池化进行学习（特征）。

相比patch-wise的方法，本网络的效率更高。本网络最终的输出和图片具有相同的分辨率（意味着不需要进行线性差值恢复到原始分辨率），也不需要proposals预处理，最终输出不需要随机场或者局部分类器（local classifiers）进行进一步处理。总的来说，不需要什么预处理和后处理。

语义分割试图解决两个具有矛盾的的问题：语义（分类）和定位。全局（语义）信息告诉我们图片里是什么，定位信息告诉我们它在哪。在论文中作者定义了一种‘跳越连接’结构，将深层的、粗糙的、语义的信息，和浅层的、详细的、外观信的息结合起来。

从分类网络改造为密集的FCN

作者测试用到了AlexNet、GoogleNet和VGG，改造的时候去掉最终的输出层，将全连接层改造为等效的卷积层。然后在网络最后面用1x1网络预测一个21通道的特征图（对应21个分类），再进行反卷积恢复到图片原始大小，发现这样的简单改造下，各个网络在语义分割上的表现已经很好了，特别是VGG，几乎是state-of-the-art水准。可以说基本验证了全卷积在语义分割上的威力。后面讲的网络都是在VGG基础上测试的。

这时的网络结构基本是这样滴：

注意这里还没加反卷积、跳跃连接等结构，仅仅在backbone最后加了分类预测和双线性差值。

网络结构：把是啥和在哪结合起来

上面的网络最后一步采用32倍上采样。虽然已经得到了不错的表现（可想而知之前这个领域发展有多差），但是最终预测层的32倍上采样限制了预测输出的精细程度。我们通过添加跳跃连接来解决这个问题。更高层次的特征空间信息较少，但是语义信息多，较浅的特征图语义信息较弱，但是空间特征保留较多。

网络结构如下：

可以看到pool5的输出就是前面一节的内容。不同层次的输出分别被称为FCN-32s、FCN-16s、FCN-8s。其效果如下图：

上图带fixed的输出是固化分类网络部分，只有最后面的基层网络重新训练了，其他输出都是端到端整体fine-tuning的。由于FCN-8s相对FCN-16s的收益已经很小了，所以作者不再试着融合更底层的特征。

从代码角度补充理解FCN

从上面的网络结构看起来，好像和Unet很像呀，怎么效果这么差呢？
看了下这份实现：https://github.com/MarvinTeichmann/tensorflow-fcn/blob/master/fcn8_vgg.py

代码细节：

融合方式：做加法
每次上采样后的通道数：21（20个分类加一个背景类）
左侧的poolX融合前怎么处理？
poolX通道数并不是21，所以会用一个1x1卷积核映射为21通道再和上采样过来的特征图相加
除了上面说的3条，右侧还有额外的卷积核池化吗：没了

我猜测这里有两个问题可能是FCN效果不佳的原因：

融合部分的通道数太窄，为21

我猜测作者可能是为了方便的上采样输出FCN-32s、FCN-16s和FCN-8s来进行比较。如果不需要FCN-32s、FCN-16s，完全可以在前两次融合的时候保留较多的通道。最后融合的时候再输出21通道。Inception V3论文中总结的一个规则就是“要防止出现特征描述的瓶颈”，这个21通道就是瓶颈。所以后面FCN-8s和FCN-16s比较优势不大，作者也没再增加融合层了。
2. 融合前后没有做进一步的卷积操作

右侧上采样和融合操作之后没有额外的卷积变换了，导致右侧几乎不能学习对特征图进行refine，几乎就是干巴巴的上采样。这也是融合部分通道数窄的原因，因为没有额外的变换过程，只能一步到位降到21通道。

总结

FCN有两大明显的优点：一是可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效，因为避免了由于使用像素块（patch）而带来的重复存储和计算卷积的问题。

缺点：整体来说FCN的8倍上采样带来的结果还是有点粗糙，而且没有考虑像素之间的关系。

从上面的分析我们也支持，FCN融合部分结果过于简单，没有refine的的卷积部分，导致结果不是很理想。根据SegNet论文对FCN的总结，编码部分参数有134M,解码部分只有0.5M,左右不对称，头重脚轻。

贡献：

将端到端的全卷积网络推广到语义分割中；
使用反卷积层进行上采样；
提出了跳跃连接来改善上采样的粗糙程度。

U-Net

U-Net算是对FCN的改进，应用领域是医学图像处理。作者在FCN基础上做了很多改进。

整体结构如下：

网络结构整体很简介，标注也很清楚。作者把左侧降采样的部分称为“收缩分支”，右侧上采样的部分称为“扩张分支”。

特征融合方式

FCN做特征融合的方法是做加法，这里是做拼接。

扩张分支上每一层特征图都比收缩分支小

由于网络结构中的所有卷积都没有增加任何padding，所以右侧同一级的特征图比左边小，所以融合的时候要进行crop裁剪之后才能拼接。最终预测出的分割图比输入图片小一定尺寸。按照上面的架构图，长宽各少180。

使用镜像对称扩展边缘的图像

上一条说了，U-Net输出的图像比输入小一个固定的尺寸。那么为了获得图像完整的分割图，需要在边缘增加部分图像。如下图，黄色方框范围的输出需要蓝色方框那么大的输入。多出来的图片怎么来的呢？作者的方法就是在边缘取图像的镜像图片拼接上去。仔细看可以看出图像是相对白线对称的。这样做的好处还包括，对于多大的输入图片都可以自然而然的适应。

扩张分支的特征图更宽

本文上面说了，FCN在扩展部分的特征图通道太少。这里做了改进，扩张分支和左则收缩分支通道是对称的，这样就可以把更多的上下文信息传递到更高分辨率的层。

扩张部分还有额外的卷积

扩张部分，特征融合之后，还有两层卷积。这样两个路径的特征可以融合的更彻底。

计算LOSS时相邻的单元间的背景使用更高权重

相邻对象的分离是一个很大的挑战，很容易将它们分为同一个物体。为此作者在计算LOSS的时候，为相邻单元格之间的空隙赋予更高的权重，让网络重点学习区分相邻的物体。

下图C中黑色的是背景，作者为两个单元格中间的部分赋予了更高的权重，权重的分别如d所示。

数据增广

本论文的模型是用于参加医学图像分割比赛的，在医学领域的数据集都很小，所以数据增广很有必要。

数据增广除了增加训练样本数，另一方面也是模拟实际的情况，因为细胞这些东西本来就是会平移、旋转、变形的。

测试结果

ISBI 2015挑战赛中以较大的优势赢了。领先第二名非常多。

总结

U-Net基本解决了FCN的缺点，可以支持灵活的大小输入(最小尺寸有限制，最大没有)，并且能在小数据集上取得不错的效果。

SegNet

我看arxiv.org上这篇论文是2016年10月份的，挺早了。本篇论文提出了一种基于“编码器-解码器”结构的语义分割网络，可以认为是对FCN的某种改进。这是我第一次看到“编码器-解码器”这种叫法，但是这种叫法也适用于这篇论文之前的FCN、U-Net等网络。要论论文配图，U-Net论文的配图更能体现“编码器-解码器”结构的精髓。

SegNet并不是为了创造一个大而全的语义分割网络，而是追求内存、推理时间和效果的平衡。作者希望这个网络适用于马路场景的语义分割，所以内存、推理时间不可忽略。本网络的平衡体现在作者用编码器阶段的池化索引给解码器做上采样。所以本网络效果我觉得一般，但是思路值得借鉴。

FCN的不足

SegNet主要对标的就是FCN，所以对FCN的缺点做了较全面的分析：

头重脚轻：编码器参数量和计算量远大于解码器，参数量134M-0.5M,差距明显。
分阶段训练：参数太多，难于训练，作者训练时分了多个阶段来训练不同层次的解码器
占用内存较多：解码器需要复用编码器的特征，所以特征在被解码器使用完毕之前，这些特征要呆在内存里不能释放，占用大量内存
高层特征未复用：由于只融合了三层收益就收敛了，没有使用更高层次的特征进行融合，边缘信息丢失严重

网络结构

本网络神似U-Net，但是没有画成U形的，而是画成一个哑铃的形状。整体结构就是一半编码一半解码，符合“编码器-解码器”风格。

本网络基本改进了上面分析出的FCN的缺点。

改进头重脚轻的问题

可以看到，网络的编解码部分基本是对称的，这样就不存在头重脚轻的问题了，编码和解码的能力基本对等了。

改进分阶段训练的问题

SegNet使用VGG16的13个卷积层作为编码器，去掉了全连接层，参数从134M降到14.7M。解码器部分最后使用softmax对每个像素做分类，输出原始图像尺寸的分割图。

参数量降低之后网络更易于训练，可以端到端训练整个网络。

改进内存占用较多的问题

占用内存较多是因为需要复用编码阶段的特征。为此作者使用编码阶段的最大池化索引来上采样，而不是把编码阶段的特征拿过来使用（注意：编码阶段的特征没有给解码器用，用的是池化索引）。每个2x2的池化窗口可以用2个bit来记录池化索引，大大减少了内存的占用。和FCN的对比如下：

所谓池化索引，就是最大池化降采样的时候最大值所在的位置，解码的时候使用用这个索引直接上采样，其他位置补0。

使用最大池化索引的好处有二：首先是改善了对边界的刻画（我感觉是和没有融合比），其次是减少了参数（这可能才是真正的好处），不需要学习上采样卷积核。

改进高层特征未复用的问题

高分辨率的特征记录了更多细节，但是占用内存。作者使用最大池化索引来恢复空间细节，解决了内存占用的问题。

基于对称的结构，每一阶段的特征记录的信息都得到了有效利用。

一些对比结论

作者在论文里对FCN和SegNet做了一些魔改，做了很多对比测试。这里写下结论：

decode时复用encoder的特征效果更好（比使用索引好）
当推理阶段模型内存受到制约时，池化索引可以在占用很少内存的情况下改善分割结果
解码时，更大的卷积核表现更好

其它

作者讨论了mIOU的局限性，认为这个指标挑选的不是人类感觉上的最好效果。作者在实验中输出了F1值作为指标之一。

测试效果

其实作者魔改的FCN很容易就超过SegNet，作者主要验证了自己的改进思路是有效的。看作者挑的图片，效果还不错。

SegMet小结

SegNet结果不算出彩，但是一个比较工程向、比较实用的网络。在效率、内存占用和效果之间实现了不错的平衡。

论文

Fully Convolutional Networks for Semantic Segmentation

FCN官方实现：https://github.com/shelhamer/fcn.berkeleyvision.org

U-Net: Convolutional Networks for Biomedical
Image Segmentation

U-Net作者网站：https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

SegNet: A Deep Convolutional
Encoder-Decoder Architecture for Image
Segmentation

SegNet官网：http://mi.eng.cam.ac.uk/projects/segnet/

SegNet官方代码实现：https://github.com/alexgkendall/caffe-segnet

参考资料

【深度学习论文翻译】应用于语义分割问题的深度学习技术综述01

深度学习论文翻译】应用于语义分割问题的深度学习技术综述02

语义分割江湖的那些事儿——从旷视说起

CVPR 2018 | 旷视科技Face++提出用于语义分割的判别特征网络DFN

旷视科技提出双向网络BiSeNet：实现实时语义分割

图像语义分割综述

总结-图像语义分割之FCN和CRF：https://zhuanlan.zhihu.com/p/22308032

语义分割中的深度学习方法全解：从FCN、SegNet到各代DeepLab

图像语义分割入门+FCN/U-Net网络解析

全卷积网络（FCN）与图像分割

代码和论文聚合资料

语义分割、实例分割、数据集、标准工具等资源汇总github：https://github.com/mrgloom/awesome-semantic-segmentation

语义分割资源汇总网页：https://handong1587.github.io/deep_learning/2015/10/09/segmentation.html

TensorFlow语义分割套件工程主页：
https://github.com/GeorgeSeif/Semantic-Segmentation-Suite

BEV+Transformer Monkey PilotX 自动驾驶 transformer 深度学习人工智能
在自动驾驶系统中，BEV（Bird’sEyeView）+Transformer主要应用于感知与环境建图（Perception&SceneUnderstanding）环节，尤其是在多传感器融合、目标检测、语义分割、轨迹预测等任务中。在自动驾驶中的关键应用场景应用环节BEV+Transformer的作用感知（Perception）多摄像头图像融合成BEV视角，进行目标检测、语义分割预测（Predict
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
【深度学习加速探秘】Winograd 卷积算法：让计算效率 “飞” 起来 heimeiyingwang 算法深度学习算法人工智能
一、为什么需要Winograd卷积算法？从“卷积计算瓶颈”说起在深度学习领域，卷积神经网络（CNN）被广泛应用于图像识别、目标检测、语义分割等任务。然而，卷积操作作为CNN的核心计算单元，其计算量巨大，消耗大量的时间和计算资源。随着模型规模不断增大，传统卷积算法的计算效率成为限制深度学习发展的一大瓶颈。Winograd卷积算法的出现，犹如一把利刃，直击传统卷积计算的痛点。它通过巧妙的数学变换，大幅
基于深度学习的智能图像语义分割系统：技术与实践 Blossom.118 机器学习与人工智能深度学习人工智能 python 分类音视频机器学习 sklearn
前言图像语义分割是计算机视觉领域中的一个重要任务，其目标是将图像中的每个像素分配到预定义的语义类别中。这一技术在自动驾驶、医学影像分析、机器人视觉等多个领域有着广泛的应用。近年来，深度学习技术，尤其是卷积神经网络（CNN）及其变体，为图像语义分割带来了显著的改进。本文将详细介绍基于深度学习的智能图像语义分割系统的原理、实现方法以及实际应用案例。一、图像语义分割的基本概念1.1什么是图像语义分割？图
[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers 颜笑晏晏论文阅读
1.摘要双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调(overshoot)，这限制了现有两个分支模型的准确性的提高。在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，
【GitHub开源项目实战】DINOv2 自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析观熵 GitHub开源项目实战 github 开源架构人工智能
DINOv2自监督视觉模型深度解构：多任务零微调性能与多分辨率表征架构解析关键词DINOv2、自监督视觉模型、ViT、多分辨率表示、语义分割、深度估计、Zero-shot、图像表示学习、OpenCLIP替代、MetaAI摘要DINOv2是由MetaAIResearch推出的下一代自监督视觉基础模型，在保持不依赖人工标签的前提下，显著提升了多任务性能，尤其在语义分割、图像分类、深度估计等下游任务中超
python批量修改xml文件爱上答复 xml
计算机视觉领域是当下比教热门的一个研究领域，包括目标检测，实例分割，语义分割等，不可避免会涉及到xml文件的修改，如果一两个文件的话，修改起来还算简答，但是实际情况中，远不止一个文件，且一个文件中也会包含多组属性。所以直接上代码，我习惯用pycharm编辑器来实现。importxml.dom.minidomforiinrange(0,100,5):path1="xxx"+str(i)+".xml"
鸿蒙开发实战之Image Kit重构美颜相机图像处理管线 harmonyos-next
一、核心能力突破通过ImageKit实现三大技术革新：硬件加速处理4K图像处理延迟降至16ms（NPU+GPU协同）支持10bitHDR管线（BT.2020色域）AI增强算法实时皮肤质感分析（98%毛孔保留率）智能背景重构（语义分割精度±1像素）跨平台一致性相同算法在麒麟/骁龙平台输出差异{updatePreview(result);});//超分辨率重建image.superResolution
【语义分割专栏】3：Segnet原理篇 fouen 语义分割人工智能计算机视觉深度学习神经网络 pytorch
文章目录前言背景介绍Segnet核心剖析池化索引(poolingIndices)其他细节编码器解码器的对称结构Segnet模型代码结语参考资料前言本篇文章收录于语义分割专栏，如果对语义分割领域感兴趣的，可以去看看专栏，会对经典的模型以及代码进行详细的讲解哦！其中会包含可复现的代码！带大家深入语义分割的领域，将从原理，代码深入讲解，希望大家能从中有所收获，其中很多内容都包含着自己的一些想法以及理解，
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
深度学习之路——CNN卷积神经网络详解 DeepLinkDeepLink Ai 深度学习 cnn 人工智能
深度学习之路——CNN卷积神经网络详解前言卷积神经网络（ConvolutionalNeuralNetwork,CNN）作为深度学习领域的基础模型，推动了人工智能在图像、视频等方向的爆炸式发展。无论是图像分类、目标检测，还是语义分割、自动驾驶，CNN几乎无处不在。本文将带你系统了解CNN的基本原理、结构组成、常用网络、应用场景及简单代码实现。1.什么是CNN？CNN是一类专门处理类似网格结构数据（如
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
相机--RGB相机猿饵块数码相机
教程RGB--深度相机--激光雷达RGB相机原理：仅捕获红（R）、绿（G）、蓝（B）三通道的彩色图像，输出2D像素矩阵，无深度信息。核心作用：2D视觉任务：目标检测、图像分类、语义分割（如YOLO、ResNet）。优点：成本低：单传感器，硬件简单（如普通手机摄像头）。缺点：无深度信息：需额外算法或传感器获取3D数据。RGB相机和单目相机定义区别名称定义角度典型输出是否包含深度信息RGB相机数据格式
自动驾驶可行驶区域划分综述吃旺旺雪饼的小男孩自动驾驶自动驾驶人工智能机器学习
可行使区域划分1.数据采集与融合的深度解析1.1传感器类型与数据特性1.2多传感器融合方法2.环境感知与特征提取的细节2.1车道线检测技术2.2道路边界识别2.3障碍物检测与区域划分3.可行驶区域划分的实现3.1语义分割与几何建模3.2动态场景处理4.路径规划与决策的细节4.1局部路径规划4.2全局路径规划5.关键技术挑战的深入分析5.1复杂场景处理5.2实时性与计算优化5.3安全与冗余设计6.典
深度学习在建筑物提取中的应用综述一瞬祈望数据集深度学习人工智能
深度学习在建筑物提取中的应用综述目录深度学习在建筑物提取中的应用综述@[toc](目录)深度学习在建筑物提取中的应用综述一、建筑物提取简介二、深度学习方法分类1.语义分割（SemanticSegmentation）2.实例分割（InstanceSegmentation）3.边界感知分割（Boundary-awareSegmentation）4.多模态融合方法三、主流建筑物提取公开数据集及分析四、数
使用paddleX进行目标检测详解狸不凡机器学习深度学习神经网络
前言使用百度开源的paddleX工具，我们可以很容易快速训练出使用我们自己标注的数据的目标检测，图像分类，实例分割，语义分割的深度网络模型，本文，主要记录如何全流程使用pddleX来训练一个简单用于检测猫狗ppyolo_tiny模型。（一）数据准备这里的图片，我们直接在百度图片上搜索“猫狗”，随机下载10张图片，存到“JPEGImages文件夹”里。（二）使用labelme标注工具进行标注（1）l
高精地图与SLAM：依赖停车场高精地图提供结构信息，结合SLAM（同步定位与地图构建）技术实现实时定位与导航百态老人人工智能机器学习算法
基于现有资料，截至2025年3月1日，高精地图与SLAM技术在停车场场景中的结合应用主要体现在以下几个方面：1.SLAM的实时定位与增量地图构建SLAM技术通过激光雷达、摄像头、IMU等传感器实时采集环境特征（如停车场内的柱子、停车线、减速带等），并利用算法（如GraphSLAM、EKF、视觉语义分割）进行匹配定位，同时构建增量式地图。这种能力使得车辆即使初次进入未知停车场，也能在无GNSS信号的
PaddleX 使用案例非小号 AI scikit-learn pytorch 人工智能 python 机器学习
以下是PaddleX的典型使用案例，涵盖图像分类、目标检测和语义分割三大场景，展示其从数据准备到模型部署的全流程：案例1：图像分类-垃圾分类识别场景：识别可回收垃圾、有害垃圾、厨余垃圾和其他垃圾四类图片。步骤1：数据准备与标注#1.创建项目目录mkdirgarbage_classification&&cdgarbage_classification#2.下载示例数据集（约2000张图片，4分类）w
飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）非小号 AI paddlepaddle 机器学习人工智能
以下是飞桨（PaddlePaddle）在机器学习全流程（数据采集、处理、标注、建模、分析、优化）中常用的模型、函数及工具链，结合其生态特点分类说明：一、数据采集与标注1.数据采集工具PaddleX（图像/视频场景）功能：支持图像分类、目标检测、语义分割任务的数据标注，集成标注工具（如矩形框、多边形标注）。官网工具：PaddleX数据标注工具用法：通过图形化界面或命令行启动标注工具，输出标准VOC/
基于RGB与多光谱图像的农田语义分割技术研究及应用中达瑞和-高光谱·多光谱相机
随着智慧农业的发展，精准监测农田环境与作物生长状态成为关键需求。传统遥感技术受限于光谱分辨率与成像条件，难以满足精细化管理要求。本文以无人机搭载中达瑞和S810多光谱相机为技术载体，结合深度学习算法，提出单模态与多模态融合的农田语义分割方法。通过构建专用数据集与创新网络架构，显著提升了复杂场景下的分割精度与环境适应性，为精准农业提供了高效解决方案。一、研究背景与技术挑战农业生产的数字化监测依赖高精
动态神经网络(Dynamic NN)在边缘设备的算力分配策略：MoE架构实战分析学术猿之吻神经网络架构人工智能算法量子计算深度学习机器学习
一、边缘计算场景的算力困境在NVIDIAJetsonOrinNX（64TOPSINT8）平台上部署视频分析任务时，开发者面临三重挑战：动态负载波动视频流分辨率从480p到4K实时变化，帧率波动范围20-60FPS能效约束设备功耗需控制在15W以内（被动散热）多任务耦合典型场景需同步处理：目标检测（YOLOv8s）行为识别（SlowFast）语义分割（DeepLabv3）二、MoE架构的核心技术解析
助力移动机器人下游任务！Mobile-Seed：联合语义分割和边缘检测 3Ｄ视觉工坊 3D视觉从入门到精通计算机视觉
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：语义分割，拉你入群。文末附行业细分群0.写在前面移动机器人经常需要定位语义目标和目标边缘，但大多数研究只集中在语义分割的部署上。今天笔者为大家推荐一篇开源工作，实现了语义分割和边缘检测的联合学习。下面一起来阅读一下这项工作~1.论文信息标题：Mobile-Seed:JointS
YOLO11改进-注意力-引入通道压缩的自注意力机制CRA 一勺汤 YOLOv11模型改进系列网络 YOLO YOLOv11 目标检测模块魔改 YOLOv11改进
在语义分割任务中存在MetaFormer架构应用局限于自注意力计算效率低的问题。为解决这些问题，提出提出CRA模块。CRA它通过将查询和键的通道维度缩减为一维，在考虑全局上下文提取的同时，显著降低了自注意力的计算成本，提高了网络的计算效率。本文将CRA与C2PSA相结合，在降低计算成本的同时提高精度。代码：https://github.com/tgf123/YOLOv8_improve/blob/
深度学习直接缝了别的模型，在论文中这种创新点应该如何描述呢？深度学习入门深度学习人工智能神经网络语音识别计算机视觉 transformer AI写作
作为散养硕士，我们希望能早早发小论文，然后去实习&考公&考编，虽然知道网上大家都说缝模块来水论文，那怎样才能优雅的缝出一篇中稿率更高的论文（即如何更好地讲故事）呢？简洁版：相似领域找灵感，边试边改勇投稿。1.怎么找模块？（1）缝一些常见模块（2）相似领域比如说，最新的顶刊顶会的通用骨干网络、可以作为你的骨干网络，相似领域的模块，可以作为你其中信息融合或者其他的模块。多模态的目标检测/语义分割/目标
遥感深度学习——基于deeplabv3+和GID数据集（1）全域智图深度学习人工智能
博主最近准备进行深度学习入门，因为是做遥感方向的，经过多重考虑，算法最后选择了deeplabv3+。DeepLabV3+是由谷歌提出的一种用于图像语义分割的深度学习模型。它在DeepLabV3的基础上，加入了编码器-解码器结构，以提高分割结果的边缘细节和空间分辨率。以下是DeepLabV3+的主要特点：编码器-解码器结构：编码器部分提取图像的高层次语义特征，解码器部分逐步恢复图像的空间细节，提高分
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &