旅途中的宽~

【计算机视觉】最全语义分割模型总结（从FCN到deeplabv3+）

文章目录

一、前言
- 1.1 语义分割
二、FCN：CNN语义分割的开山之作
- 2.1 结构
- 2.2 特点
三、Deeplab_v1
- 3.1 前言
- 3.2 特点
四、U-Net
- 4.1 结构
- 4.2 特点
五、Seg-Net
- 5.1 结构
- 5.2 特点
六、Deeplab_v2
- 6.1 结构
- 6.2 特点
- 6.3 Fcis
- - 6.3.1 特点
七、RefineNet
- 7.1 结构
- 7.2 特点
八、Large Kernel Matters
- 8.1 结构
- 8.2 特点
九、deeplabv3
- 9.1 结构
- 9.2 特点
十、deeplabv3+
- 10.1 结构
- 10.2 特点

一、前言

语义分割是指对图片中的像素进行类别上的分类，有别于实例分割，不能区分同一类别的不同个体。

参考文献：

https://mp.weixin.qq.com/s/2EMOHeG_Z0CKHs1YwKL0uA
https://zhuanlan.zhihu.com/p/27794982

1.1 语义分割

语义分割是计算机视觉中很重要的一个方向。

不同于目标检测和识别，语义分割实现了图像像素级的分类。

它能够将一张图片或者视频（视频以帧来提取的话其实就是图片），按照类别的异同，将图像分为多个块。如下图所示：

明白了分割就是将图像按类别划分为不同的块，那么我们如何来理解语义这个词语呢。

我们知道一句话或者一篇文章，都有其表达的意思，这叫做语义。

同样，当我们看见一张图片时，我们能够通过我们的大脑很快明白其意思，图像表达出的意思就是图像的语义。

语义分割就是将一张图片，表达成机器能够读懂的语言。那么，我们就需要对图像进行操作，将不同类型的事物分割。

语义分割有较多的方法，大致可以分成两类，一类是传统的方法，一类是基于深度学习的方法。其中，基于深度学习的语义分割，目前已经具有较大的发展，并且能够使用在一些现实生活中的场合里。

此外，还有两个与语义分割类似的说法，但是不是属于同一种概念。

实例分割：实例分割就是对同一类的不同对象也要进行分割，比如说，语义分割会将车分为一类，人分为另一类。但是，实例分割不同的是，它会将车继续进行分类，每一辆车都是一个实例类别。
全景分割：简单地来讲，全景分割是实例分割与语义分割的结合。全景分割中的每一个像素点都会分成对应的语义标签和实例标签。如果一种类别里有多个实例，会用不同的颜色进行区分，我们可以知道哪个像素属于哪个类中的哪个实例。

下图中，子图a、b、c、d分别表示图像、语义分割、实例分割和全景分割。通过图应该可以更好地区分它们：

本文对从FCN开始的语义分割网络进行了一些总结。

二、FCN：CNN语义分割的开山之作

2.1 结构

简单来说，FCN在网络上的改变就是基于当时最好的图像分类模型，将最后的全连接层替换成了卷积层，这样最后汇聚到一个点的网络结构，变成了汇聚成缩小一定比例的分类图，并且最后一层的21个通道代表着最后的21个分类结果。

同时也揭示了伴随着端到端语义分割的一个主流矛盾：既需要全局的感受野来完成分类任务，又需要在边缘部位，用局部信息和低层的低级视觉信息来达到准确的边缘分割。

2.2 特点

用全卷积替代了全连接
为了弥补下采样操作造成的损失，使用了反转卷积的操作来恢复信息
单纯地使用反转卷积无法得到好的效果，用下采样之前的特征图与上采样之后的图片进行融合这样可以指引上采样过程恢复到比较好的效果。即高低通道特征融合。恢复低级视觉信息。

使用全卷积网络做语义分割的矛盾就在于，图片中的语义信息在大的感受野条件下，可以得到很好的分类结果。但是过大的感受野会丢失细节信息，丢失边缘，局部信息，又不利于局部分割信息的恢复，如何设计网络平衡这个矛盾是个比较重要的问题。

毫无疑问，FCN提过了一个很不错的方法和方向。即Encoder-Decoder并强调高低通道特征的融合。

三、Deeplab_v1

3.1 前言

空洞卷积的示意图如下：

因为主流的网络为了获取较大的感受野（理论上来说大的感受野有助于分类），都采用了conv中加上stride,或者采用pool（池化）来让神经网络高层获得的感受野更大，这样分类结果会更准确，但带来的缺点就是图像分辨率会下降，同时maxpool这个操作会丢失图像的部分细节信息，不利于分割任务，所以在deeplab中大范围用空洞卷积来扩大感受野，同时也尽量避免降低图像分辨率的操作，这样更容易恢复到原始分辨率大小。

3.2 特点

空洞卷积，就是上图这个东西，不损失分辨率和边缘信息的情况下增大感受野。

条件随机场，虽然使用空洞卷积，但仍然存在着池化操作，并且卷积本身就会让边缘信息弱化一些，使用传统的CRF条件随机场能让模糊的边界信息更清晰，使图像更加精细化，相当于网络中的Decoder部分的功能。实际实验中，CRF对于Deeplab的准确率提升非常显著。

在deeplab中对于缩小后的图像并没有使用神经网络实现和FCN一样的解码器结构，而是使用了上头的条件随机场这个偏向传统视觉处理的方法。后续的deeplabv3版本中已经不使用该方法。

四、U-Net

4.1 结构

4.2 特点

U-net的结构非常对称，优雅，清晰。作者论文中的图片简明易懂
该网络结构强化了FCN中特征融合的思想，很明显，每一层中都加入了低级通道的特征图，并且，采用了通道叠加，而不是直接加和的思想，这样给了网络充足的能力去选择不同的区域叠加不同的通道，而不是暴力加和，这个应该是改进比较好的地方。
U-net在loss中引入了加权权重的思想，这个想法是很好的，因为由于感受野的问题，最后的特征图的边缘信息会弱一些，因为感受野捕获到的边界背景信息与主体信息几乎是一半一半可以说，边缘信息会弱化，那么增大边缘部分的loss权重，会促使网络在边缘部分多留意，这样会让边缘效果稍好一些。嗯就这样。这也是大的感受野，与细分边缘之间的矛盾。

可以看到这个网络结构还是比较浅的，不像其他主流网络堆得很深，目前在医疗图像分割领域用U-net的非常多，分割效果也很不错，但在分类任务很复杂的的语义分割数据集中表现的并不是很好，这跟网络本身比较浅也有关系。同时，正是由于U-net本身比较浅，很多低层视觉信息很重要，被保存了下来，所以在医疗图像分割上可以达到很精准的边缘提取，等等分割任务。

五、Seg-Net

5.1 结构

5.2 特点

在上采样步骤那，进行了一个所谓的坐标上采样功能，这样恢复后的上采样特征图会将像素恢复在之前的坐标处，然后再结合低层的特征图，得到比之前直接上采样的效果会好一些，实际上这样做性能是大幅提升了，速度快了很多，计算量和参数都少了很多，不过准确率只能说一般吧。

六、Deeplab_v2

6.1 结构

ASPP模块：

6.2 特点

用了新的Resnet结构，并将卷积替换成了空洞卷积部分。
ASPP模块，也就是使用不同扩张率的空洞卷积来获取最终特征图上的不同大小的物体，还是关于感受野的问题，作者认为之前一味地提高感受野也不是好事，因为毕竟有大的物体，和小的物体，不能通过一个固定不变的感受野来解决问题，所以不同尺度的感受野很重要，所以大概设计了四种不同大小的感受野来找到对应的物体。这个想法很不错，很work，并且之前大家似乎都没有提到，也没有改进。
还是传统的CRF。

最大的改进就是ASPP模块了，之前提到扩大感受野对于正确的分类有很大的好处，但是也不是一味地提升感受野，这样必然会导致泛化能力太弱，图片中的物体大小自然是不一样的，用相同的感受野只能说对于某个大小的物体识别比较准确，一旦有比较大的，或者很小的自然效果很差，作者考虑到这个问题，在特征图的最后加入了ASPP，简单理解就是通过不同大小的空洞卷积模块来达到不同的感受野的目的，这样就可以对不同大小的物体都能做到比较准确地检测，进而提高准确率，事实也证明这个网络模块非常有效！

6.3 Fcis

基于实例分割的分割，其实实例分割有很多好处，实例分割，可以将分类和分割两件事分离开来，正如何凯明在论文中提到的类间竞争，分割的时候只负责分割，然后类的事交给专门的分类网络判断，这样可以减少相互之间的干扰，分类可以有较大的感受野，分割可以去获得低层的视觉信息。也是种不错的选择吧。

6.3.1 特点

实例分割改善分割效果应该会有帮助。最终语义分割也是要走向实例分割的，并且实例分割带来的分类和分割准确度的提升应该很大，具体可以看mask-rcnn中对这一问题的阐述。

七、RefineNet

7.1 结构

7.2 特点

整个网络都是用Res-Net结构的参差思想设计每个模块，这是个很不错的想法，如果某个地方学不到有用的信息，那就不要添乱嘛，直接映射原来的信息，可以让网络的信息流传递更加健康；
基本思路还是高低特征融合，也就加了点自己的pool链在里头，还是根据何凯明的那个参差思想做的一个最大池化操作，这个操作还是比较有用的，增大了整个特征图的感受野，有助于正确的分类结果；
在每一个stage阶段都进行了conv3的卷积操作，可能对于任务过渡也有一定的好处，这样可以使网络更加平滑地过渡到下一个功能阶段；
附加loss是个不错的决定，这样加强了对网络内部层的监督，这样可能会导致更有效的结果，并能加快网络的收敛吧。

八、Large Kernel Matters

8.1 结构

网络结果如下：

8.2 特点

对于large kernel 的卷积模块做了具体地解释，尽管卷积操作能够理论上到来较高的感受野，但实际上由于卷积的反向传播，不重要的偏向边缘信息由于在逐层的卷积和连接过程中，会慢慢地被削弱，这就涉及到文中提及的有效感受野问题，具体在一片论文中专门研究了实际有效感受野的问题。
当然直接在某一层使用大的感受野的卷积核，是一个非常直接、有效的扩充感受野的方法，但直接用大内核会带来很大的计算量。实际上之前googlenet中也介绍了这个问题，使用小的卷积核堆叠很多层来近似为一个大内核的来达到这样的效果。
在分类任务上，文中专门对如何设计大的内核做了大量的详细实验，包括 $k\times k$ ， $k\times 1$ 与 $1\times k$ 相结合， $3\times 3$ 的堆叠,实际上证明只有 $1\times k$ - $k\times 1$ 是work的，甚至直接kxk的这样的结构效果都不够好，这个和xception中提到的想法类似，都是讲两个操作分离化，这样既减少了计算量，同时甚至带来了效果上的提升，至于为什么会带来很大的提升，作者说的都是我们猜，我们假设，神经网络本来很多东西都是基于经验
同时网络中为了细化边缘还引入了一个叫BR的边缘定义模块，其实就是一个普通的参差模块吗，可能这个模块放在底高层的特征图融合后，能够刚好配合反向传播学到一些对边缘细化有用的信息，也就是大家都在做的对decoder模块的各种各样的小改进，有效果就好。个人觉得不是太重要的东西。

九、deeplabv3

9.1 结构

网络结构如下：

9.2 特点

加入了像素级别的特征图以及原始的图片信息在ASPP模块中，实际上没改什么东西，也就是把特征融合地更多了，这有点显而易见，必然结合的特征越多，对于效果的提升越来越大。

空洞卷积级联的尝试：

尝试了级联空洞卷积模块，实际应用中发现是不work得，从res的四个模块加到了7个模块后没有发现较大的性能提升。当然这样一味地增大感受野没有ASPP那样对不同层次，和不同大小的有效感受野从理论上和实践上有效果。
去掉了CRF模块，证明网络已经基本上与其他的end to end网络达到了同样性能，没有CRF这样的黑科技的加成下。

本来个人认为，语义分割就是用神经网络来实习端到端的分割结果，来找出每个像素的分类结果，尽可能保留主要语音信息，边缘稍微有些混乱，也是正常现象，通过各种各样传统视觉算法中的trick当然可以细化这个边缘结果，让效果更好，不过既然大家主要都是研究神经网络，那就只用神经网络这块的性能提升来比较客观、公正一些。

十、deeplabv3+

10.1 结构

左1 depplabv3 中间主流的编码-解码结构右边 deeplabv3+的改进后的编码结构

10.2 特点

主干网络采取了Xception,并融入了他的空洞卷积操作
采用了Decoder模块，那为什么没有像其他网络一样经过了很多个低级特征到高级特征的融合呢？在4倍到原始分辨率的时候，我猜这是因为可能再低级的信息缺乏价值？明明我觉得中间的解码结构是很好的，没有看到作者介绍。或者对于deeplab这样的结构来说两次解码已经可以达到很好的效果，再多的信息可能没有什么提升吧。

AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
景联文科技：专业数据标注公司，推动AI技术革新景联文科技人工智能
数据标注作为AI技术发展的重要支撑，对于训练高质量的机器学习模型以及推动应用领域的创新具有不可替代的作用。景联文科技作为专业的数据标注公司，致力于提供专业的数据标注服务，帮助客户解决AI链条中的数据处理难题，共同推动人工智能技术的进步与发展。一站式数据标注服务景联文科技提供一站式的数据标注服务，涵盖从图像、视频、音频到文本等多种数据类型。•图像标注：对象检测、语义分割、关键点标注、多边形标注等。•
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
使用3DUNet训练自己的数据集（pytorch）— 医疗影像分割编程日记✧ 智能医疗 pytorch 人工智能 python 计算机视觉图像处理深度学习健康医疗
代码：lee-zq/3DUNet-Pytorch:3DUNetimplementedwithpytorch(github.com)文章<cicek16miccai.pdf(uni-freiburg.de)3DU-Net:LearningDenseVolumetricSegmentation
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
Sora文本生成影像模型背后的创新原理与挑战 noVonN c语言深度学习算法区块链人工智能
引言随着人工智能技术的飞速发展，OpenAI作为行业领导者，在文本生成领域取得重大突破之后，近日又推出了其在影像生成领域的最新力作——Sora。这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。然而，正如OpenAI所指出的那样，尽管Sora展现出了令人惊叹的创造力，但它在仿真复杂物理现象和理解具体事例因果关系方
深度学习驱动下的字符识别：挑战与创新逼子歌神经网络深度学习字符识别卷积神经网络图像处理特征提取
一、引言1.1研究背景深度学习在字符识别领域具有至关重要的地位。随着信息技术的飞速发展，对字符识别的准确性和效率要求越来越高。字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。国内研究者主要使用基于模板匹配的方法、基于统计模型的方法、基于神经网络的方法等各种方法进行字符识别研究。目前，国内各大
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc