麻麻嫌我丑

当前主流的深度学习图像语义分割模型解析

转载自【量子位】公众号 QbitAI

原文地址：http://www.sohu.com/a/155907339_610300

图像语义分割就是机器自动从图像中分割出对象区域，并识别其中的内容。

量子位今天推荐的这篇文章，回顾了深度学习在图像语义分割中的发展历程。

发布这篇文章的Qure.ai，是一家用深度学习来读取医学影像的公司，他们在官方博客上梳理了语义分割中的深度学习方法。

他们希望通过这份介绍，能让大家了解这个已经在自然图像处理比较成熟、但是在医学图像中仍需发展的新兴技术。

作者Sasank Chilamkurthy三部分介绍了语义分割相关研究：

以下内容编译自Qure.ai官方博客：

语义分割是什么？

语义分割方法在处理图像时，具体到像素级别，也就是说，该方法会将图像中每个像素分配到某个对象类别。下面是一个具体案例。

△左边为输入图像，右边为经过语义分割后的输出图像。

该模型不仅要识别出摩托车和驾驶者，还要标出每个对象的边界。因此，与分类目的不同，相关模型要具有像素级的密集预测能力。

目前用于语义分割研究的两个最重要数据集是VOC2012和MSCOCO。

VOC2012：

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

MSCOCO：

http://mscoco.org/explore/

有哪些方法？

在深度学习应用到计算机视觉领域之前，研究人员一般使用纹理基元森林(TextonForest)或是随机森林(Random Forest)方法来构建用于语义分割的分类器。

卷积神经网络(CNN)不仅能很好地实现图像分类，而且在分割问题中也取得了很大的进展。

最初，图像块分类是常用的深度学习方法，即利用每个像素周围的图像块分别将各像素分成对应的类别。其中，使用图像块的主要原因是分类网络通常具有全连接层，其输入需为固定大小的图像块。

2014年，加州大学伯克利分校的Long等人提出的完全卷积网络(Fully Convolutional Networks)，推广了原有的CNN结构，在不带有全连接层的情况下能进行密集预测。

这种结构的提出使得分割图谱可以生成任意大小的图像，且与图像块分类方法相比，也提高了处理速度。在后来，几乎所有关于语义分割的最新研究都采用了这种结构。

除了全连接层结构，在分割问题中很难使用CNN网络的另一个问题是存在池化层。池化层不仅能增大上层卷积核的感受野，而且能聚合背景同时丢弃部分位置信息。然而，语义分割方法需对类别图谱进行精确调整，因此需保留池化层中所舍弃的位置信息。

研究者提出了两个不同形式的结构来解决这个问题。

第一种方法是编码器-解码器(encoder-decoder)结构。其中，编码器使用池化层逐渐缩减输入数据的空间维度，而解码器通过反卷积层等网络层逐步恢复目标的细节和相应的空间维度。从编码器到解码器之间，通常存在直接的信息连接，来帮助解码器更好地恢复目标细节。在这种方法中，一种典型结构为U-Net网络。

△一种典型的编码器-解码器结构U-Net

第二种方法使用了称作空洞卷积的结构，且去除了池化层结构。

△空洞卷积，当比率为1时，即为经典的卷积结构。

条件随机场(Conditional Random Field，CRF)方法通常在后期处理中用于改进分割效果。CRF方法是一种基于底层图像像素强度进行“平滑”分割的图模型，在运行时会将像素强度相似的点标记为同一类别。加入条件随机场方法可以提高1~2%的最终评分值。

△发展中的CRF方法效果。b图中将一维分类器作为CRF方法的分割输入；c、d、e图为CRF方法的三种变体；e图为广泛使用的一种CRF结构。

接下来，我们会梳理一些代表性论文，来介绍从FCN网络开始的分割结构演变历程。

这些结构都使用了VOC2012数据集来测试实际效果。

一些有趣的研究

接下来将按照论文的发表顺序来介绍以下论文：

1．FCN网络；

2．SegNet网络；

3．空洞卷积(Dilated Convolutions)；

4．DeepLab (v1和v2)；

5．RefineNet；

6．PSPNet；

7．大内核(Large Kernel Matters)；

8．DeepLab v3；

对于上面的每篇论文，下面将会分别指出主要贡献并进行解释，也贴出了这些结构在VOC2012数据集中的测试分值IOU。

FCN

论文：

Fully Convolutional Networks for Semantic Segmentation

于2014年11月14日提交到arvix

https://arxiv.org/abs/1411.4038

主要贡献：

将端到端的卷积网络推广到语义分割中；
重新将预训练好的Imagenet网络用于分割问题中；
使用反卷积层进行上采样；
提出了跳跃连接来改善上采样的粗糙程度。

具体解释：

本文的关键在于：分类网络中的全连接层可以看作是使用卷积核遍历整个输入区域的卷积操作。

这相当于在重叠的输入图像块上评估原始的分类网络，但是与先前相比计算效率更高，因为在图像块重叠区域，共享计算结果。

尽管这种方法并不是这篇文章中所特有的，还有一篇关于overfeat的文章也使用了这种思想，但是确实显著提高了在VOC2012数据集上的实际效果。

△用卷积运算实现的全连接层结构

在将VGG等预训练网络模型的全连接层卷积化之后，由于CNN网络中的池化操作，得到的特征图谱仍需进行上采样。

反卷积层在进行上采样时，不是使用简单的双线性插值，而是通过学习实现插值操作。此网络层也被称为上卷积、完全卷积、转置卷积或是分形卷积。

然而，由于在池化操作中丢失部分信息，使得即使加上反卷积层的上采样操作也会产生粗糙的分割图。因此，本文还从高分辨率特性图谱中引入了跳跃连接方式。

分值	评论	来源
62.2	无	排行榜
67.2	增大动量momentum(原文未描述)	排行榜

△ FCN网络在VOC2012上测试的基准分值

个人评论：

本文的研究贡献非常重要，但是最新的研究已经很大程度地改进了这个结果。

SegNet

论文：

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

于2015年11月2日提交到arvix

https://arxiv.org/abs/1511.00561

主要贡献：

将最大池化指数转移至解码器中，改善了分割分辨率。

具体解释：

在FCN网络中，通过上卷积层和一些跳跃连接产生了粗糙的分割图，为了提升效果而引入了更多的跳跃连接。

然而，FCN网络仅仅复制了编码器特征，而Segnet网络复制了最大池化指数。这使得在内存使用上，SegNet比FCN更为高效。

△SegNet网络结构

分值	评论	来源
59.9	无	排行榜

△ SegNet在VOC2012上测试的基准分值

个人评论：

FCN网络和SegNet网络都是最先出现的编码器-解码器结构，但是SegNet网络的基准分值还不能满足可实际使用的需求。

空洞卷积

论文：

Multi-Scale Context Aggregation by Dilated Convolutions

于2015年11月23日提交到arvix

https://arxiv.org/abs/1511.07122

主要贡献：

使用了空洞卷积，这是一种可用于密集预测的卷积层；
提出在多尺度聚集条件下使用空洞卷积的“背景模块”。

具体解释：

池化操作增大了感受野，有助于实现分类网络。但是池化操作在分割过程中也降低了分辨率。

因此，该论文所提出的空洞卷积层是如此工作的：

△空洞卷积示意图

空洞卷积层在不降低空间维度的前提下增大了相应的感受野指数。

在接下来将提到的DeepLab中，空洞卷积被称为多孔卷积(atrous convolution)。

从预训练好的分类网络中(这里指的是VGG网络)移除最后两个池化层，而用空洞卷积取代了随后的卷积层。

特别的是，池化层3和池化层4之间的卷积操作为空洞卷积层2，池化层4之后的卷积操作为空洞卷积层4。

这篇文章所提出的背景模型(frontend module)可在不增加参数数量的情况下获得密集预测结果。

这篇文章所提到的背景模块单独训练了前端模块的输出，作为该模型的输入。该模块是由不同扩张程度的空洞卷积层级联而得到的，从而聚集多尺度背景模块并改善前端预测效果。

分值	评论	来源
71.3	前端	空洞卷积论文
73.5	前端+背景	同上
74.7	前端+背景+ CRF	同上
75.3	前端+背景+ CRF - RNN	同上

△ 空洞卷积在VOC2012上测试的基准分值

个人评论：

需要注意的是，该模型预测分割图的大小是原图像大小的1/8。这是几乎所有方法中都存在的问题，将通过内插方法得到最终分割图。

DeepLab(v1和v2)

论文1：

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

于2014年12月22日提交到Arvix

https://arxiv.org/abs/1412.7062

论文2：

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

于2016年6月2日提交到Arxiv

https://arxiv.org/abs/1606.00915

主要贡献：

使用了空洞卷积；
提出了在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP)；
使用了全连接条件随机场。

具体解释：

空洞卷积在不增加参数数量的情况下增大了感受野，按照上文提到的空洞卷积论文的做法，可以改善分割网络。

我们可以通过将原始图像的多个重新缩放版本传递到CNN网络的并行分支(即图像金字塔)中，或是可使用不同采样率(ASPP)的多个并行空洞卷积层，这两种方法均可实现多尺度处理。

我们也可通过全连接条件随机场实现结构化预测，需将条件随机场的训练和微调单独作为一个后期处理步骤。

△DeepLab2网络的处理流程

分值	评论	来源
79.7	ResNet-101 + 空洞卷积 + ASPP + CRF	排行榜

△ DeepLab2网络在VOC2012上测试的基准分值 RefineNet

论文：

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

于2016年11月20日提交到Arxiv

https://arxiv.org/abs/1611.06612

主要贡献：

带有精心设计解码器模块的编码器-解码器结构；
所有组件遵循残差连接的设计方式。

具体解释：

使用空洞卷积的方法也存在一定的缺点，它的计算成本比较高，同时由于需处理大量高分辨率特征图谱，会占用大量内存，这个问题阻碍了高分辨率预测的计算研究。

DeepLab得到的预测结果只有原始输入的1/8大小。

所以，这篇论文提出了相应的编码器-解码器结构，其中编码器是ResNet-101模块，解码器为能融合编码器高分辨率特征和先前RefineNet模块低分辨率特征的RefineNet模块。

△RefineNet网络结构

每个RefineNet模块包含一个能通过对较低分辨率特征进行上采样来融合多分辨率特征的组件，以及一个能基于步幅为1及5×5大小的重复池化层来获取背景信息的组件。

这些组件遵循恒等映射的思想，采用了残差连接的设计方式。

△RefineNet模块

分值	评论	来源
84.2	CRF + 多维度输入 + COCO预训练	排行榜

△ RefineNet网络在VOC2012上测试的基准分值 PSPNet

论文：

Pyramid Scene Parsing Network

于2016年12月4日提交到Arxiv

https://arxiv.org/abs/1612.01105

主要贡献：

提出了金字塔池化模块来聚合背景信息；
使用了附加损失(auxiliary loss)。

具体解释：

全局场景分类很重要，由于它提供了分割类别分布的线索。金字塔池化模块使用大内核池化层来捕获这些信息。

和上文提到的空洞卷积论文一样，PSPNet也用空洞卷积来改善Resnet结构，并添加了一个金字塔池化模块。该模块将ResNet的特征图谱连接到并行池化层的上采样输出，其中内核分别覆盖了图像的整个区域、半各区域和小块区域。

在ResNet网络的第四阶段(即输入到金字塔池化模块后)，除了主分支的损失之外又新增了附加损失，这种思想在其他研究中也被称为中级监督(intermediate supervision)。

△PSPNet网络结构

分值	评论	来源
85.4	COCO预训练，多维度输入，无CRF方法	排行榜
82.6	无COCO预训练方法，多维度输入，无CRF方法	PSPNet论文

△ PSPNet网络在VOC2012上测试的基准分值大内核

论文：

Large Kernel Matters — Improve Semantic Segmentation by Global Convolutional Network

于2017年3月8日提交到Arxiv

https://arxiv.org/abs/1703.02719

主要贡献：

提出了一种带有大维度卷积核的编码器-解码器结构。

具体解释：

这项研究通过全局卷积网络来提高语义分割的效果。

语义分割不仅需要图像分割，而且需要对分割目标进行分类。在分割结构中不能使用全连接层，这项研究发现可以使用大维度内核来替代。

采用大内核结构的另一个原因是，尽管ResNet等多种深层网络具有很大的感受野，有相关研究发现网络倾向于在一个小得多的区域来获取信息，并提出了有效感受野的概念。

大内核结构计算成本高，且具有很多结构参数。因此，k×k卷积可近似成1×k＋k×1和k×1＋1×k的两种分布组合。这个模块称为全局卷积网络(Global Convolutional Network, GCN)。

接下来谈结构，ResNet(不带空洞卷积)组成了整个结构的编码器部分，同时GCN网络和反卷积层组成了解码器部分。该结构还使用了一种称作边界细化(Boundary Refinement，BR)的简单残差模块。

△GCN网络结构

分值	评论	来源
82.2	-	详情见本论文
83.6	改进训练过程，未在本文中详细描述	排行榜

△ GCN网络在VOC2012上测试的基准分值 DeepLab v3

论文：

Rethinking Atrous Convolution for Semantic Image Segmentation

于2017年6月17日提交到Arxiv

https://arxiv.org/abs/1706.05587

主要贡献：

改进了空间维度上的金字塔空洞池化方法(ASPP)；
该模块级联了多个空洞卷积结构。

具体解释：

与在DeepLab v2网络、空洞卷积中一样，这项研究也用空洞卷积/多空卷积来改善ResNet模型。

这篇论文还提出了三种改善ASPP的方法，涉及了像素级特征的连接、加入1×1的卷积层和三个不同比率下3×3的空洞卷积，还在每个并行卷积层之后加入了批量归一化操作。

级联模块实际上是一个残差网络模块，但其中的空洞卷积层是以不同比率构建的。这个模块与空洞卷积论文中提到的背景模块相似，但直接应用到中间特征图谱中，而不是置信图谱。置信图谱是指其通道数与类别数相同的CNN网络顶层特征图谱。

该论文独立评估了这两个所提出的模型，尝试结合将两者结合起来并没有提高实际性能。两者在验证集上的实际性能相近，带有ASPP结构的模型表现略好一些，且没有加入CRF结构。

这两种模型的性能优于DeepLabv2模型的最优值，文章中还提到性能的提高是由于加入了批量归一化层和使用了更优的方法来编码多尺度背景。

△DeepLabv3 ASPP结构

分值	评论	来源
85.7	使用了ASPP结构，且不带有级联模块	排行榜

△ DeepLabv3 ASPP结构在VOC2012上测试的基准分值

原文地址：

http://blog.qure.ai/notes/semantic-segmentation-deep-learning-review

【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
大学生社交平台-开题报告 yh1340327157 计算机开题报告参考案例 java 大数据 jvm spring boot 开发语言 intellij-idea maven
1．结合毕业设计课题情况，根据所查阅的文献资料，每人撰写1500字左右的文献综述（包括研究进展，选题依据、目的、意义）（1）选题依据随着互联网的发展，网络技术角已深深嵌入社会生活的各个层面，网络已然成为我们日常生活中不可或缺的一部分。大学生群体作为对新事物接受度极高的群体，受互联网影响尤为显著，这其中社交服务平台则是大学生在网络中进行互动和沟通的重要渠道和组成部分。但以往传统的大学生社交论坛往往只
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
供应链风险管理：AI预测潜在风险 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,风险评估,供应链可视化1.背景介绍在当今全球化经济体系中，供应链的复杂性和脆弱性日益凸显。供应链风险是指任何可能对供应链正常运行造成负面影响的事件或因素。这些风险可能来自自然灾害、政治动荡、经济波动、技术故障、供应商违约等方面。一旦供应链风险爆发，可能会导致生产中断、产品短缺、成本飙升、品牌形象受损等严重后果。传统供应链风险管理方法主要依
供应链风险管理：AI如何预测供应链风险 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
供应链风险管理,AI预测,机器学习,深度学习,自然语言处理,时间序列分析,风险评估1.背景介绍在当今全球化经济体系中，供应链风险已成为企业面临的重大挑战。供应链的复杂性和不可预测性使得企业更容易受到各种风险的影响，例如自然灾害、政治动荡、经济波动、疫情爆发等。这些风险可能导致供应中断、成本增加、交付延迟，甚至损害企业声誉。传统供应链风险管理方法主要依赖于经验和专家判断，缺乏数据驱动和预测能力。随着
【极光优化算法+分解对比】VMD-PLO-Transformer-LSTM多变量时间序列光伏功率预测Matlab代码 matlab科研助手算法 transformer lstm
✅作者简介：热爱数据处理、建模、算法设计的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍光伏发电作为一种清洁能源，其功率预测对于电网稳定运行和电力系统调度至关重要。然而，光伏功率具有高度的非线性和波动性，传统的预测方法难以准确捕捉其动态特性。近年来，深度学习技术在时间序列预测领域取得了显著进展，为提高光伏功率预测精度提供了新的途径
【python深度学习】DAY 51 复习日抽风的雨610 【打卡】Python训练营 python 深度学习开发语言
作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高1.读取数据使用CIFAR-10图像数据importtorchfromtorchvisionimportdatasets,transforms#数据预处理transform=transforms.Compose([transforms.ToTensor(),transforms.
用Python解锁图像处理之力：从基础到智能应用的深度探索熊猫钓鱼>_> python 图像处理开发语言
在像素构成的数字世界里，Python已成为解码图像奥秘的核心引擎。一、为何选择Python处理图像？超越工具的本质思考当人们谈论图像处理时，往往会陷入工具对比的漩涡（PythonvsMATLABvsC++）。但Python的真正价值在于其构建的完整生态闭环：科学计算基石：NumPy的ndarray结构完美对应图像的多维矩阵本质算法实现自由：从传统算子到深度学习模型的无缝衔接可视化即战力：Matpl
深度学习数据集加载 Ethan@LM 深度学习人工智能
数据集结构E:\Mytest\test20250622\pythonProject\dataset├──rose│├──rose1.jpg│├──rose2.jpg│└──...└──sunflower├──sunflower1.jpg├──sunflower2.jpg└──...主要只有的两个类fromtorch.utils.dataimportDatasetfromtorchvisionimp
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南周情津Raymond
使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域，TVM作为一个高效的深度学习编译器栈，能够将训练好的模型优化并部署到各种硬件平台上。本文将详细介绍如何使用T
人工智能赋能气象气候：从数据智能到预测创新的融合之路慌ZHANG 人工智能人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：气象气候与AI的“天然耦合”气象与气候系统是典型的复杂、多尺度、强非线性的自然系统，其建模、分析与预测依赖庞大观测数据和高性能计算资源。传统方法以数值天气预报（NWP）与物理建模为核心，虽然取得重要成就，但也面临计算代价大、精度不足、长期预测偏差大等瓶颈。与此同时，人工智能（AI），尤其是以深度学习为代表的机器学习方法，近年来在图像识别、自
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习架构
【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图9】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构结果与讨论3.1消融区制图欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
《ONNX推理部署全解析：从基础到进阶的实用指南》空云风语人工智能深度学习神经网络人工智能深度学习神经网络 YOLO ONNX
ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。它由Facebook和Microsoft在2017年联合开发，后来得到了NVIDIA、Intel、AWS、Google、OpenAI等众多公司的支持，旨在解决不同深度学习框架之间模型格式不兼容的问题，为模型的存储、交换和部署提供统一标准，使
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法神经网络15044 仿真模型神经网络深度学习深度学习分类 cnn 算法网络集成学习数据挖掘
遥感影像岩性分类：基于CNN与CNN-EL集成学习的深度学习方法1.任务概述岩性分类是地质遥感的核心任务，旨在通过遥感影像识别地表岩石类型。本文使用ASTER（多光谱热辐射传感器）和Sentinel（多光谱成像卫星）数据，采用卷积神经网络（CNN）及CNN-集成学习（CNN-EL）方法实现高精度岩性分类。2.数据预处理2.1数据源说明ASTER数据：14个波段（VNIR/SWIR/TIR），分辨率
【Python】已解决：Traceback (most recent call last): File “C:/python/kfc.py”, line 8, in KfcError: KFC Cra 屿小夏 python c语言开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【深度学习】一文彻底搞懂前向传播（Forward Pass）与反向传播（Backward Pass）烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
【深度学习】一文彻底搞懂前向传播（ForwardPass）与反向传播（BackwardPass）摘要：在深度学习的星辰大海中，无论模型多么复杂，其训练过程都离不开两大核心支柱：前向传播(ForwardPass)和反向传播(BackwardPass)。理解这两个概念，就等于拿到了解开神经网络训练奥秘的钥匙。本文将用最直白易懂的方式，并结合规范的数学表达，为你彻底讲透这两个基本而又重要的过程。文章目录
【深度学习】强化学习（Reinforcement Learning, RL）主流架构解析烟锁池塘柳0 机器学习与深度学习深度学习人工智能机器学习
强化学习（ReinforcementLearning,RL）主流架构解析摘要：本文将带你深入了解强化学习（ReinforcementLearning,RL）的几种核心架构，包括基于价值（Value-Based）、基于策略（Policy-Based）和演员-评论家（Actor-Critic）方法。我们将探讨它们的基本原理、优缺点以及经典算法，帮助你构建一个清晰的RL知识体系。文章目录强化学习（Rei
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角烟锁池塘柳0 机器学习与深度学习深度学习物联网人工智能
边缘设备上部署模型的限制之一——显存占用：模型的参数量只是冰山一角在边缘设备上部署深度学习模型已成为趋势，但资源限制是其核心挑战之一。其中，显存（或更广义的内存）占用是开发者们必须仔细考量的重要因素。许多人认为显存占用主要取决于模型的参数量，这种看法虽然没错，但并不全面。实际上，显存的占用远不止模型参数量那么简单。关于边缘设备（EdgeDevice）的介绍，可以参见我的这一篇文章：EdgeDevi
【Python打卡Day48】随机张量与广播机制@浙大疏锦行可能是猫猫人 Python打卡训练营内容 python 开发语言
在继续讲解模块消融前，先补充几个之前没提的基础概念尤其需要搞懂张量的维度、以及计算后的维度，这对于你未来理解复杂的网络至关重要一、随机张量的生成在深度学习中经常需要随机生成一些张量，比如权重的初始化，或者计算输入纬度经过模块后输出的维度，都可以用一个随机函数来实现需要的张量格式，而无需像之前一样必须加载一张真实的图片。“张量”概念它听起来可能有点抽象，但在数学和物理学（尤其是广义相对论、连续介质力
视觉表征和多模态融合一只齐刘海的猫语言模型
视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
深度探索：机器学习中的条件生成对抗网络（Conditional GAN, CGAN）算法原理及其应用
目录1.引言与背景2.CGAN定理3.算法原理4.算法实现5.优缺点分析优点：缺点：6.案例应用7.对比与其他算法8.结论与展望1.引言与背景生成对抗网络（GenerativeAdversarialNetworks,GANs）作为一种深度学习框架，在无监督学习领域展现出强大的能力，特别在图像、音频、文本等复杂数据的生成任务中取得了显著成果。然而，原始GAN模型在生成过程中缺乏对生成样本特定属性的直
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

当前主流的深度学习图像语义分割模型解析

你可能感兴趣的:(深度学习,图像语义分割,综述)