yzZ_here

SegFormer论文记录（详细翻译）

SegFormer论文记录

代码：GitHub - NVlabs/SegFormer: Official PyTorch implementation of SegFormer

论文：https://arxiv.org/abs/2105.15203

代码我也已经实现并改进，有问题可以在评论区评论，谢谢。

摘要

一、介绍

二、相关工作

三、Method

3.1 Hierarchical Transformer Encoder

3.2 Lightweight All-MLP Decoder

3.3 Relationship to SETR.

四、实验

4.1 实验设置

4.2 Ablation studies

4.3 Comparison to state of the art methods

4.4 Robustness to natural corruptions

五、conclusion

A MIT的一些列详细信息：

B 更多掩膜的定性结果：

D deeplabv3+和SegFormer更多的比较：

SegFormer论文详解，2021CVPR收录，将Transformer与语义分割相结合的作品，动机来源有：SETR中使用VIT作为backbone提取的特征较为单一，PE限制预测的多样性，传统CNN的Decoder来恢复特征过程较为复杂。主要提出多层次的Transformer-Encoder和MLP-Decoder，性能达到SOTA。

摘要

主要提出了SegFormer，有两点特性：1）用新颖的Transformer Encoder结构输出multiscale feature。这不需要增加位置编码，因此可以避免train和test阶段的输入image分辨率不同而引起的性能问题。2）避免使用复杂的decoder，使用的multilayer perceptron(MLP) decoders可以结合local attention和global attention表现更加出色。

勘误：1、网络结构图中MLP Layer层中的第一个MLP模块会将transformer Encoder中输出的feature Map的通道数统一处理，所以经过MLP层之后通道数会变化，然后再上采样到原图的四分之一大小。2、图中MLP Layer层出来之后的通道数为4C，通道数从4C到Ncls的过程是否经过MLP直接做通道数做融合，还是通过Cat来做融合还有待查看代码。论文中可以参考的就是给出的一个公式（贴在下面，是表示decoder整个过程的公式），下图第四行。

一、介绍

图像分类和图像分割有非常大的关联。所以采用不同的backbone是语义分割方面的活跃领域。自从FCN之后，许多SOTA的语义分割框架都是来自于ImageNet图像分类的一些变体。从早期的VGG到最近的ResNest。除此之外还有一方面比较活跃，注重于设计一些模块和方法来有效的获取上下文信息，比如deeplabv3+，通过空洞卷积来扩大感受野。

Besides backbone architectures, another line of work formulates semantic segmentation as a structured prediction problem, and focuses on designing modules and operators,which can effectively capture contextual information。

Transformer在NLP领域内获得的巨大的成功，VIT论文的作者首先将transformer应用在了图像分类任务重中。《Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers》该论文作者提出了SETR来证明将Transformer应用在视觉任务中的可行性。

SETR采用VIT作为backbone，采用一些CNN的Decoder放大特征分辨率，尽管表现良好，但VIT还是有些劣势：1）VIT的输出是单一的低分辨率feature map而不是多尺度的feature map。2）在处理大型图像时，计算量大。为了解决这些局限性，wang等人提出了pyramid vision transformer（PVT），PVT相对于ResNet在目标识别和语义分割方面有了非常大的改进。然而相对于更新的Swin Transformer和Twins等，PVT主要是在考虑Encoder上的改进设计，而忽略了Decoder这一模块。

本文介绍了SegFormer，一种前沿的Transformer语义分割框架，它综合考虑了效率、准确性和鲁棒性。与以前的方法相比，我们的框架重新设计了Encoder和Decoder。本文的主要特点有：

一种无位置编码、分级的Transformer Encoder。
轻量级的MLP的解码器模块，没有复杂的计算
图一所示，在三种公开语义分割数据集上的效率，准确性，鲁棒性超出了SOTA

首先，本文模型在输入不同分辨率的照片预测时，编码器去除了位置编码，但是性能显示并没有受到影响。

另外，与VIT不同的是，本文提出的分级编码器可以采集多种尺度的feature map，而VIT只能采集固定的低分辨率的feature map。

其次，我们推出的轻量级的MLP decoder的主要思想是利用Transformer-induced的特性，该特性即底层的注意力往往停留在局部，而高层的注意力则是highly non-local。（Transformer-induced features where the attentions of lower layers tend to stay local, whereas the ones of the highest layers are highly non-local.）。通过汇总不同层的信息，MLP decoder结合局部和全局的注意力。因此我们得到了一个简单而直接，又有着强大表现的解码器。

我们在三个公开的数据集上展示了SegFormer在模型大小、运行时间和准确性方面的优势:ADE20K、cityscape和COCO-Stuff。

二、相关工作

语义分割：可以看做是一种图像分类从图像级别到像素级别上的扩展。FCN是这方面的开山之作，FCN是一种全连接卷积网络，用端到端的方式执行了像素级别的分类。在此之后，研究者集中在不同的方面来改进FCN，比如

扩大感受野（deeplabv2、deeplabv3、deeplabv3+、PSPNet、DenseASPP、improve semantic segmentation by GCN、）；
精炼上下文信息（Object Context Network for Scene parsing、Context prior for scene segmentation、Object-contextual representations for semantic segmentation、Context encoding for semantic segmentation、Context-reinforced semantic segmentation）；
引入边界信息的（Boundary-aware feature propagation for scene segmentation. In ICCV, 2019；Improving semantic segmentation via decoupled body and edge supervision. arxiv, 2020；Model-agnostic boundary refinement for segmentation. In ECCV, 2020；Joint semantic segmentation and boundary detection using iterative pyramid contexts. In CVPR,2020；Gated-scnn: Gated shape cnns for semantic segmentation. In ICCV, 2019；）、
设计各种注意力模块的变体（Dual attention network for scene segmentation .In CVPR, 2019；Non-local neural networks. In CVPR,2018；Squeeze-and-attention networks for semantic segmentation. In CVPR,2020；Ccnet:Criss-cross attention for semantic segmentation. In ICCV, 2019；Pyramid attention network for semantic segmentation. arXiv,2018；Expectation-maximization attention networks for semantic segmentation.ICCV2019；Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In ICCVW, 2019；Segmenting transparent object in the wild with transformer. IJCAI, 2021；）、
使用AutoML技术（Fast neural architecture search for faster semantic segmentation. In ICCVW, 2019；Fasterseg:Searching for faster real-time semantic segmentation. arXiv, 2019；Learning dynamic routing for semantic segmentation. In CVPR, 2020；Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation. In CPVR, 2019；Fast neural architecture search of compact semantic segmentation models via auxiliary cells. In CVPR, 2019）。

以上提到的这些思路显著的提高了语义分割的性能，但是却引入了大量的经验模块，使得生成的框架计算量大且复杂。最近的这两篇文章（Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. CVPR, 2021；Segmenting transparent object in the wild with transformer. IJCAI, 2021）证明了Transformer。但是这些模型还需要大量的计算。

Transformer backbones：VIT是证明纯Transformer在图像分类方面可以达到SOTA的文章。VIT将图像作用成带有序列的tokens，输入到多层Transformer层中进行分类。DeiT（End-to-End object detection with transformers. In ECCV, 2020）进一步探索了数据高效的培训策略和ViT的精馏方法。最近的一些文章T2T ViT, CPVT, TNT, CrossViT and LocalViT引入ViT的定制更改，进一步提高图像分类性能。

除了分类之外，PVT是在Transformer中引入金字塔结构的第一个作品，与CNN相比它展示了纯Transformer主干网在密集预测任务中的潜力。之后，使用Swin[9]、CvT[58]、CoaT[59]、LeViT[60]、孪生[10]增强了特征的局部连续性，消除了固定尺寸的位置嵌入，提高了transformer在密集预测任务中的性能。

Transformers for specific tasks ：DETR [ 52 ] is the first work using Transformers to build an end-to-end object detection framework without non-maximum suppression (NMS). Other works have also used Transformers in a variety of tasks such as tracking [ 61 , 62 ], super-resolution [ 63 ], ReID [ 64 ],Colorization [ 65 ], Retrieval [ 66 ] and multi-modal learning [ 67 , 68 ]. For semantic segmentation, SETR [ 7 ] adopts ViT [ 6 ] as a backbone to extract features, achieving impressive performance. However, these Transformer-based methods have very low efficiency and, thus, difficult to deploy in real-time applications.

三、Method

本节介绍SegFormer的鲁棒性、强壮性、有效性。SegFormer有两个模块组组成：1）一个分层的Transformer Encoder产生高分辨率的粗的feature和低分辨率的精细的feature。2）一个轻量级的ALL-MLP decoder融合不同层次的feature产生一个最终的结果。

输入一个H*W*3的image，首先将他分成4*4大小的patch，这一点和VIT不同（VIT分成16*16的patch，也就是用16*16的卷积核，stride=16来作用image ），SegFormer利用较小的patch来预测更加稠密的预测任务。然后将这些patchs输入到Transformer多层编码器中来获得多层的feature map，再将这些featuremap作为ALL-MLP的输入来预测mask，通过解码器产生的featuremap的分辨率是H/4 * W/4 * num_cls。

3.1 Hierarchical Transformer Encoder

我们设计了MiT-B0到MiT-B5这几种相同结构但size不同的一些列Mix Transformer Encoder。MiT-B0是轻量级的预测模型，MiT-B5是性能最好的也是最大的模型。我们设计MiT的部分灵感来自于VIT，但针对语义分割做了量身定制和优化。

Hierarchical Feature Representation：不像VIT只能获得单一的feature map，该模型的目标就是输入一张image，产生和CNN类似的多层次的feature map。通常这些多层的feature map提供的高分辨率的粗特征和低分辨率提供的精细特征可以提高语义分割的性能。用数学语言来表达就是

Input resolution：H×W×3；

Output resolution ：Fi=H2ⅈ+1×w2ⅈ+1×Ci，i∈{1,2,3,4}；i代表四次Encoder。

Overlapped Patch Merging：VIT中将一个输入N*N*c的image，合并为1*1*C的向量。利用这种特性，很容易的可以将特征图的分辨率缩小两倍，如F1=。这个过程最初用来组合non-overlapping的图像或特征块，但它不能保持这些patch周围的局部连续性。所以我们使用overlapping的图像来融合，这样就可以保证patch周围的局部连续性了。为此我们设置的三个参数K，S，P。K是patch size，S是stride，P是padding。在实验中我们分别设K,S,P为（7,4,3）和（3,2,1）的参数来执行overlapping的图像的融合过程并得到和non-overlapping图像融合一样大小的feature。

Efficient Self-Attention：

这部分具体运算可以搜索CSDN博主‘太阳花的小绿豆’有关VIT文章的讲解。本人在该博主博文和视频中学到了大量知识。

Mix-FFN：(这一段的理解可参考这篇文章：SegFormer中位置编码position encoding的问题记录）

VIT使用位置编码PE（Position Encoder）来插入位置信息，但是插入的PE的分辨率是固定的，这就导致如果训练图像和测试图像分辨率不同的话，需要对PE进行插值操作，这会导致精度下降。为了解决这个问题CPVT（Conditional positional encodings for vision transformers. arXiv, 2021）使用了3X3的卷积和PE一起实现了data-driver PE。我们认为语义分割中PE并不是必需的。引入了一个 Mix-FFN，考虑了padding对位置信息的影响，直接在 FFN （feed-forward network）中使用一个3x3 的卷积，MiX-FFN可以表示如下：

其中X in是从self-attention中输出的feature。Mix-FFN混合了一个3*3的卷积和MLP在每一个FFN中。即根据上式可以知道MiX-FFN的顺序为：输入经过MLP，再使用Conv3*3操作，正在经过一个GELU激活函数，再通过MLP操作，最后将输出和原始输入值进行叠加操作，作为MiX-FFN的总输出。在实验中作者展示了3*3的卷积可以为transformer提供PE。作者还是用了深度可以分离卷积提高效率，减少参数。

3.2 Lightweight All-MLP Decoder

SegFormer集成了轻量级的MLP Decoder，减少了很多不必要的麻烦。使用这种简单编码器的关键点是作者提出的多级Transformer Encoder比传统的CNN Encoder可以获得更大的感受野。

ALL-MLP由四步组成。第一，从MIT中提取到的多层次的feature，记作Fi，通过MLP层统一channel数。第二，Fi被上采样到四分之一大小，然后再做一次concat操作。第三，MLP对concat之后的特征进行融合。最后，另一个MLP对融合的特征进行预测，输出分辨率为。

Effective Receptive Field Analysis：对语义分割来说，保持较大的感受野以获取更多的上下文信息一直是一个核心问题。我们使用有效感受野ERF作为一个可视化和解决的工具来说明为什么MLPdecoder表现是非常有效的在Transformer上。图三所示，对比deeplabv3+和SegFormer的四个解码器阶段和编码器头的部分的可视化图，我们可以得出结论：

即使在最深的阶段，deeplabv3+的ERF还是非常小
SegFormer的编码器自然地产生local attentions，类似于较低阶段的卷积，同时能够输出高度non-local attentions，有效地捕获编码器第四阶段的上下文。
将图片放大，MLP的MLPhead阶段（蓝框）明显和Stage-4阶段（红框）的不同，可以看出local attentions更多了。

CNN中感受野有限的问题只能通过增加上下文模块来提升精度，像ASPP模块，但是这样会让网络变得更复杂。本文中的decoder设计受益于transformer中的non-local attention，并且在不导致模型变复杂的情况下使得感受野变大。但是相同的decoder接在CNN的backbone的时候效果并不是很好，因为Stage4的感受野有限。如表1所示。

更重要的是在设计decoder的时候利用率Transformer的induced feature，该特性可以同时产生高度的local attention和低层的non-local attention，通过互补这两种attention，编码器在增加少量参数的情况下来实现互补和强大的表现（our MLP decoder renders complementary and powerful representations by adding few parameters）。这也是设计的另一个重要动机。仅仅从stage4获取non-local attention不能够获得较好的结果，如表1所示。

3.3 Relationship to SETR.

与SETR相比，SegFormer含有多个更有效和强大的设计。

SegFormer只在imageNet-1K上做了预训练，SETR中的ViT在更大的imageNet-22K做了预训练。
SegFormer的多层编码结构要比ViT的更小，并且能同时处理高分辨率的粗特征和低分辨率的精细特征，相比SETR的ViT只能生成单一的低分辨率特征。
SegFormer中去掉了位置编码，所以在test时输入image的分辨率和train阶段分辨率不一致时也可以得到较好的精度，但是ViT采用固定的位置编码，这会导致当test阶段的输入分辨率不同时，会降低精度。
SegFormer中decoder的计算开销更小更紧凑，而SETR中的decoder需要更多的3*3卷积。

四、实验

4.1 实验设置

Dataset：三个公开数据集：Cityscapes、ADE20K、COCO-Stuff。

储备知识：FLOPS：注意全大写，是floating point operations per second的缩写，意指每秒浮点运算次数，理解为计算速度。是一个衡量硬件性能的指标。

FLOPs：注意s小写，是floating point operations的缩写（s表复数），意指浮点运算数，理解为计算量。可以用来衡量算法/模型的复杂度。在下面对比实验中提到的即为该参数。反映模型浮点运算数。

Implementation details：

4.2 Ablation studies

Influence of the size of model.：首先研究编码器参数大小的增加对性能和模型效率的影响。图一展示了性能和模型的一个折线图。表一的a总结了SegFormer不同大小的模型在三种数据集上的指标。首先比较编码器和解码器之间的模型大小。作为轻量级的网络，解码器才仅仅0.4M参数量。对B5模型来说，解码器的参数量才占了全部参数量的4％。在性能方面，可以看出随着B0到B5模型大小的增加，指标也在增加。可以看出在保持一定竞争力的同时，B0网络是紧凑和有效的，另一方面，B5作为最大的模型，在三个数据集上都达到了第一的成绩，也展现出了Transformer Encoder的潜力。下图所示。

Influence of C,the MLP decoder channel dimension：其次分析MLP的decoder的通道数对模型的影响。C=256可以提供一个具有有竞争力的性能和计算成本。通道数的增加导致了模型变得更大效率更低。有趣的是当通道数大于768时，性能变化不是很大。所以我们选择C=256作为实时性的B0和B1通道数。其他的模型采用C=768。

Mix-FFN vs. Positional Encoder (PE)：这一节分析去掉PE之后的TransformerEncoder的影响，并用来支持提出的MiX-FFN。我们在实验中对使用PE和MiX-FFN的transformer Encoder做对，并用两种不同分辨率的image对Citysapace进行推理：使用滑窗的768*768和整张图片的1024*2048分辨率。如上图C所示，采用MiX-FFN时对输入不同分辨率image泛化能力更佳，采用PE时，不同分辨率image输入性能会有3.3%的差异，而在使用MiX-FFN时，差异只有0.9%。可以得出结论采用MIX-FFN会比采用PE得到更好的Encoder。

Effective receptive field evaluation：上面提到MLP-decoder受益于transformer的原因，相较于CNN有更大的感受野。为了量化这中效应，在这次实验中，我们分别采用了CNN作为backbone，ResNet或者ResNeXt。如下表所示，相比较于使用CNN的backbone来说，本文提出的Transformer Encoder的精度更高。3.2提到CNN的感受野要比TransformerEncoder的感受野小，所以不够MLP-Decoder进行全局推理。而本文提出的Transformer Encoder与MLP Decoder相结合的形式表现出更好的性能。对transformer Encoder来说结合低级的local feature和高级的non-local feature是必要的，而不是仅仅是高层次的feature。

4.3 Comparison to state of the art methods

在公开数据集上做和已有的SOTA做对比。

ADE20K and Citysapace：从上述几个参数在两个数据集上做对比。分为实时网络和非实时网络来对比。

先看ADE20K数据集，SegFormer-B0在仅仅使用3.8M参数量和8.4G的FLOPS的情况下达到了37.4%的miou，优于其他实时网络。相对于deeplabv3+（MoblinetV2），SegFormer-B0的FPS要快7.4，并且miou要高出3.4%。并且SegFormer-B5网络比之前最好的SETR要高出了1.6%的Miou。

再对比Cityscapes，SegFormer-B0（短边输入为1024）相比于Deeplabv3+，Miou提升了1%，并且速度提高了两倍。B0中短边输入为512的网络实现了FPS为47.6%和miou为71.9%，相比于ICNet，FPS和Miou都要高出了17.3和4.2。可以看出在SegFormer-B0随着输入尺寸变小，FPS逐渐提高并且Flops逐渐下降，但是miou也下降。SegFormer-B5实现了最好的miou84.0%，比之前最好的SETR高出了至少1.8%，并且速度提高了五倍，参数量下降了4倍。

在Cityscapes上，采用了和该论文（Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018）相同的设置，并且合并了验证集和训练集，同时使用ImageNet 1K和Mapillary Vistas做预训练，结果如上表所示，仅仅使用Cityscapes精细训练集和ImageNet 1K预训练的模型就达到了82.2%的效果，要比其他的模型都高。下图显示了SegFormer和SETR和Deeplabv3+在细节上不同点。

Figure 4: Qualitative results on Cityscapes. Compared to SETR, our SegFormer predicts masks with substan-tially finer details near object boundaries. Compared to DeeplabV3+, SegFormer reduces long-range errors as highlighted in red. Best viewed in screen.

COCO-Stuff：在coco数据集上对SegFormer进行评估，在该数据集上一些模型没有做过预测，为了对比，我们将Deeplabv3+、OCRNet、SETR网络进行了复现，如下图所示，SegFormerB5模型仅用了84.7M的参数量就达到了46.7% 的miou，比SETR的miou高出了0.9%，比参数量小了四倍。总结来说就是可以从精度、计算成本、模型大小等方面验证SegFormer的优越性。

4.4 Robustness to natural corruptions

模型的健壮性是非常重要的在一些安全性较高的任务重，比如自动驾驶。在本实验中，我们预测该模型的鲁棒性在一些常见的损坏和干扰下。

五、conclusion

在本文中，提出了一张简洁、强大的语义分割模型，并且该模型丢弃位置编码、采用多级transformer Encoder和轻量级的ALL-MLP Decoder。避免了以往的复杂的设计，实现了高效和出色的表现。SegFormer不仅在公共数据集上实现了最新的结果，而且显示了强大的zero-shot robustness。我们希望该方法能够为进一步的语义分割研究提供坚实的基础。有一个限制就是我们最小的模型参数量为3.7M，比已知的CNN模型要小，但是不清楚它是否能在只有100K内存的边缘设备芯片上执行。我们将在后面的工作中继续研究它。

A MIT的一些列详细信息：

将一些MiX transformer重要的超参数列出来，通过改变这些超参数，我们可以容易的得到B0到B5模型。

表6中详细记录了不同MiT的信息：

B 更多掩膜的定性结果：

与SETR相比，我们的SegFormer预测的掩模在物体边界附近具有非常精细的细节，因为我们的Transformer编码器可以捕获比SETR更高分辨率的特征，保存更详细的纹理信息。与DeepLabV3+相比，SegFormer受益于更大的有效感受野的TransformerEncoder，减少了long-range误差。图5显示了详细的差异。

C 更多有效感受野形象化

下图中，我们选取了一些具有代表性的DeepLabV3+和SegFormer的图像和有效接收野(ERF)。除了ERF较大之外, SegFormer的ERF对图像的上下文更敏感。我们看到SegFormer的ERF学习了道路，汽车和建筑的模式。DeepLabV3+的ERF呈现相对固定的模式。实验结果还表明，我们的Transformer编码器比ConvNets具有更强的特征提取能力。

D deeplabv3+和SegFormer更多的比较：

你可能感兴趣的:(图像处理,自动驾驶,计算机视觉,深度学习,目标检测)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持