纳豆哥哥

【语义分割】Hierarchical Multi-Scale Attention for Semantic Segmentation

论文地址：https://arxiv.org/abs/2005.10821v1

摘要

多尺度推理通常用于改善语义分割的结果。多个图像比例通过网络传递，然后将结果与平均或最大池合并。在这项工作中，我们提出了一种基于注意力的方法来组合多尺度预测。我们表明，在一定尺度上的预测更适合解决特定的故障模式，并且网络学会在此类情况下倾向于使用这些尺度以生成更好的预测。我们的注意力机制是分层的，因此与其他最近的方法相比，其训练内存效率大约高4倍。除了可以进行更快的训练外，这还使我们可以使用更大的农作物进行训练，从而提高了模型的准确性。我们在两个数据集上演示了该方法的结果：城市景观和Mapillary Vistas。对于包含大量弱标记图像的Cityscapes，我们还利用自动标记来提高泛化性。使用我们的方法，可以在Mapillary（61.1 IOU val）和Cityscapes（85.1 IOUtest）中获得最新的最新结果。

1 介绍

语义分割的任务是将图像中的所有像素标记为属于N类之一。在这项任务中有一个折衷，就是某些类型的预测最好在较低的推理分辨率下处理，而其他任务最好在较高的推理分辨率下处理。精细的细节（例如物体的边缘或薄的结构）通常可以通过放大图像尺寸来更好地预测。同时，对于较大结构的预测（需要更多的全局上下文），在缩小图像尺寸时通常会做得更好，因为网络的接收场可以观察到更多必要的上下文。我们将后一个问题称为类混淆。图1给出了这两种情况的示例。

使用多尺度推理是解决这种折衷的常用方法。预测在一定范围内进行，并将结果与平均或最大合并合并。使用平均值组合多个尺度通常可以改善结果，但是会遇到将最佳预测与较差预测相结合的问题。例如，如果对于给定的像素，最佳预测来自2倍标度，而更差的预测来自0.5倍标度，则平均将合并这些预测，从而导致输出低于标准值。另一方面，最大池化（Max-pooling）仅选择N个标度中的一个用于给定像素，而最佳答案可能是跨不同标度的预测的加权组合。

为解决此问题，我们采用一种关注机制来预测如何与Chen等[1]提出的方法类似，在像素级别将多尺度预测结合在一起。我们提出了一种分级注意机制，网络可以通过该机制学习预测相邻尺度之间的相对权重。在我们的方法中，由于它具有等级性质，我们只需要用一个额外的比例尺扩展训练流水线，而其他方法，例如[1]，则需要在训练阶段显式地添加每个额外的推论比例尺。例如，当用于多尺度评估的目标推理尺度为{0.5、1.0和2.0}时，其他注意方法要求首先使用所有这些尺度对网络进行训练，从而导致4.25倍（ $0.5^{2}+2.0^{2}$ ）的额外训练成本。我们的方法只需要在训练期间增加一个额外的0.5倍刻度，这只会增加0.25倍（ $0.5^{2}$ ）的成本。此外，与先前提出的方法（仅限于在推理过程中仅使用训练尺度）相比，我们提出的分层机制还提供了在推理时选择额外尺度的灵活性。

要在Cityscapes中获得最新结果，我们还采用了粗糙图像的自动标注策略，以增加数据集的方差，从而提高泛化能力。我们的策略是由多个近期工作推动的，包括[2,3,4]。与典型的软标签策略相反，我们采用硬标签来管理标签存储大小，这有助于通过降低磁盘IO成本来提高训练吞吐量。

1.1 贡献

一种有效的分层多尺度注意机制，通过允许网络学习如何最佳地组合来自多个推理尺度的预测，从而有助于类混淆和精细细节。
基于硬阈值的自动标记策略，可利用未标记图像并提高IOU。
我们在Cityscapes（85.1 IOU）和Mapillary Vistas（61.1 IOU）中取得了最先进的结果。

2 相关工作

多尺度上下文方法。最先进的语义分割网络使用输出步长较低的网络干线。这使网络能够更好地解析细节，但也具有缩小接收场的效果。接受域的减少会导致网络难以预测场景中的大型对象。金字塔池可以通过组合多尺度上下文来抵消收缩的接受域。 PSPNet [5]使用空间金字塔池化模块，该模块使用一系列池化和卷积操作，使用从网络干线的最后一层获得的特征，在多个尺度上组合特征。 DeepLab [6]使用Atrous空间金字塔池（ASPP），该空间采用具有不同膨胀级别的atrous卷积，因此创建了比PSPNet更密集的功能。最近，ZigZagNet [7]和ACNet [8]利用中间功能，而不仅仅是网络主干最后一层的功能来创建多尺度上下文。

关系上下文方法。在实践中，金字塔池技术涉及固定的，方形的上下文区域，因为通常以对称方式使用合并和扩展。此外，这样的技术往往是静态的而不是学习的。但是，关系上下文方法通过关注像素之间的关系来构建上下文，并且不限于正方形区域。关系上下文方法的学习性质允许基于图像合成来构建上下文。此类技术可以为非方形语义区域（例如，长火车或高高的细灯柱）建立更合适的上下文。 OCRNet [9]，DANET [10]，CFNet [11]，OCNet [12]和其他相关工作[13、14、15、16、17、18、19、20]使用这种关系来构建更好的上下文。

多尺度推理。关系和多尺度上下文方法[21,22,23,9]都使用多尺度评估来获得最佳结果。有两种常见的方法可以在多个规模上组合网络预测：平均池和最大池，平均池更为常见。但是，平均池化涉及对来自不同规模的输出进行均等加权，这可能是次优的。为了解决这个问题[1,24]，请注意组合使用多个量表。 Chen等[1]使用神经网络的最终特征同时训练所有规模的注意力头部。而陈等。等使用来自特定层的注意力，Yang等。等 [24]使用来自不同网络层的功能组合来构建更好的上下文信息。但是，上述两种方法都有一个特点，即网络和注意力集中在固定比例尺上。在运行时只能使用那些规模，否则必须对网络进行重新培训。我们提出了一种基于层次的注意力机制，该机制与推理时间内的量表无关。此外，我们表明，我们提出的层次化注意力机制不仅可以提高平均池的性能，还可以使我们从诊断上可视化类别和场景的不同比例的重要性。此外，我们的方法与诸如[22,25,26,9,27,10,28]之类的其他注意力金字塔池化方法正交，因为这些方法使用单比例尺图像并执行注意力以更好地组合多级特征以生成高分辨率预测。

自动标记。特别是针对Cityscapes的最新语义分割工作，已按原样利用了约20,000个粗标签图像来训练最新模型[12,29]。然而，由于标签的粗糙性，大量的每个粗糙图像未被标记。为了在Cityscapes上获得最先进的结果，我们采取了自动标记策略，该策略受Xie等人的启发。等 [2]，语义分段中的其他半监督自我训练[30,31,32,33,34]，以及基于伪标签的其他方法，例如[4,35,36,3]。我们为Cityscapes中的粗糙图像生成了标签。我们生成的标签几乎没有未标记区域，因此可以利用粗糙图像的全部内容。

尽管大多数图像分类自动标签工作都使用连续或软标签，但为了生成存储效率和训练速度，我们会生成阈值限制的标签。使用软标签时，教师网络为图像的每个像素提供N个类别中的每个类别的连续概率，而对于硬标签，阈值用于选择每个像素中的单个顶级类别。类似于[37,4]，我们生成硬密度粗略城市景观图像的标签。示例如图4所示。等。等 [2]，我们不对标签进行迭代优化。相反，我们使用默认的粗略和精细标记提供的图像对教师模型进行一次完整训练的迭代。经过这次联合训练，我们对粗图像执行自动标记，然后将其替换在我们的教师训练食谱中，以获取最新的测试结果。结合使用伪生成的硬标签和建议的层次注意，我们可以在Cityscapes上获得最新的结果。

3 分层多尺度注意力

我们的注意力机制在概念上与[1]非常相似，其中针对每个比例学习一个密集的遮罩，并且通过在遮罩之间执行逐像素相乘的组合来组合这些多尺度预测，然后在不同的像素之间进行逐像素求和缩放以获取最终结果，请参见图2。我们将Chen的方法称为“显式”。使用我们的分层方法，我们无需学习每个固定比例尺的所有注意框，而是学习相邻比例尺之间的相对注意框。训练网络时，我们仅与相邻的比例尺对一起训练。如图2所示，给定一组来自单个（较低）比例尺的图像特征，我们以像素为单位预测了两个图像比例尺之间的相对关注度。在实践中，要获取一对缩放图像，我们可以获取一个输入图像并将其按比例缩小2倍，这样我们就可以得到1倍的缩放输入和0.5倍的缩放输入，尽管任何缩小比例都可以被选中。重要的是要注意，网络输入本身是原始训练图像的缩放版本，因为我们在训练时会使用图像缩放增强。这允许网络网络学习预测一系列图像比例的相对关注度。在进行推论时，我们可以在如图所示并由以下等式描述的一系列计算中，将学习到的注意力分层地应用到N个预测尺度之间。我们将小比例尺放在首位，并逐步发展到更高的比例尺，因为它们具有更大的全局范围，可以选择需要通过更高的比例尺预测优化的地方。

更正式地讲，在训练过程中，给定的输入图像通过factorrwherer =缩放。 0.5表示2的下采样乘数，r = 2.0表示2的下采样乘数，r = 1表示无操作。对于我们的训练，我们选择= 0.5和1.0 = 1.0。然后通过共享网络干线发送两个图像，其中r = 1和rr = 0.5，这会产生语义logitsL以及每个刻度的注意掩码（α），用于将刻度之间的logits组合在一起。因此，对于两个刻度进行训练和推断，使用双线性上采样操作，*和+分别是逐像素乘法和加法，该方程式可形式化为：

使用我们提出的策略有两个优点：

•推断时，我们现在可以灵活地选择尺度，因此，通过我们提出的注意力机制链以分层方式，可以将新的尺度（例如0.25x或2.0x）添加到以0.5x和1.0x训练的模型中。这不同于以前提出的方法，该方法仅限于使用模型训练期间使用的相同比例。

•与显式方法相比，这种分层结构使我们可以提高训练效率。使用显式方法，如果使用标度0.5、1.0 ，2.0，相对于单规模培训，培训成本为0.52+ 1.02+ 2.02 = 5.25。使用我们的分层方法，培训成本仅为0.52+ 1.02 = 1.25。

3.1 结构

骨干：对于本节中的消融研究，我们将ResNet-50 [38]（输出步长配置为8）用作网络的干线。为了获得最先进的结果，我们使用了更大，功能更强大的主干HRNet-OCR [9]。

语义头：语义预测是由专用的全卷积头执行的，该头由（3x3 conv）→（BN）→（ ReLU）→（3x3转换）→（BN）→（ReLU）→（1x1转换）。最终卷积输出num_classeschannels.Attention Head：注意预测是使用结构上与语义头相同的单独的head进行的，除了最终卷积输出（其输出单个通道）。当将ResNet-50用作主干时，这些语义和注意头将获得ResNet-50最后阶段的功能。使用HRNet-OCR时，这些语义和注意头会从OCR块中获取功能。

辅助语义头：使用HRNet-OCR，还存在一个辅助语义头，它在OCR之前直接从HRNet干线中获取其功能。该磁头由（1x1转换）→（BN）→（ReLU）→（1x1转换）组成。在注意语义对数之后，通过双线性上采样将预测上采样到目标图像大小。

3.2 分析

为了评估我们的多尺度注意力方法的有效性，我们使用DeepLab V3 +体系结构和ResNet50干线来训练网络。在表1中，我们表明，与基线平均方法（49.4）或显式方法（51.4）相比，我们的分层注意力方法具有更高的准确性（51.6）。当添加0.25x比例尺时，我们的方法也观察到明显更好的结果。与显式方法不同，当使用额外的0.25x比例尺时，我们的方法不需要重新训练网络。推理时的这种灵活性是我们方法的主要优势。我们可以训练一次，但是可以在一系列不同的尺度上灵活地进行评估。

此外，我们还观察到，使用基线平均多尺度方法，简单地添加0.25x尺度会对准确性产生不利影响，因为它会导致IOU降低0.7，而对于我们的方法，再加上0.6IOU，即可额外获得0.25倍的比例提升精度。使用基线平均法，0.25倍的预测值是如此之粗，以至于按其他比例进行平均时，我们会观察到车道标记，人孔，电话亭，路灯，交通灯和交通标志（前后）等类别，自行车架下降了1.5IOU。预测的粗糙性会损害边缘和精细的细节。但是，使用我们提出的注意力方法，增加0.25倍标度会使我们的结果提高0.6倍，因为我们的网络能够以最合适的方式应用0.25倍预测，而不会在边缘使用它。可以在图3中观察到这样的示例，其中对于左侧图像中的精细帖子，只有0.5x的预测会涉及到很少的帖子，但是在2.0x尺度中会出现非常强烈的注意力信号。相反，对于右侧非常大的区域，注意力机制将学会最大程度地利用较低的比例（0.5x）和很少的错误2.0x预测。

【语义分割】Hierarchical Multi-Scale Attention for Semantic Segmentation_第5张图片

图3：在两个不同场景下，每个尺度的语义和注意力预测。左边的场景说明了一个精细的细节问题，而右边的场景说明了一个大区域分割问题。留白为白色表示较高的值（接近1.0）。给定像素在所有比例上的注意力值总和为1.0左：路边的薄路柱最好以2倍的比例解析，并且该注意比其他比例成功地吸引了更多关注该比例的人右图：在2倍关注度图像中，右图：以0.5倍尺度预测的大道路/分隔区域是最好的，并且注意力确实成功地集中在该区域的0.5倍尺度上。6

3.2.1 单尺度与双尺度特征

虽然我们确定的体系结构仅从两个相邻图像比例尺中较低的比例产生特征来吸引注意头（请参见图2），但我们尝试了用两个相邻范围的特征来训练关注头。我们没有观察到准确性上的显着差异，因此我们只考虑了一组特征。

4 在城市景观上自动标记

受近期针对图像分类任务[2]和[39]的自动标签工作的启发，我们为“城市景观”采用了自动标签策略，以提高有效数据集的大小和标签质量。在“城市景观”中，有20,000个带有粗标签的图像与3500个带有细标签的图像。粗糙图像的标签质量非常适中，并且包含大量未标记的像素，请参见图4。通过使用我们的自动标签方法，我们可以改善标签质量，从而有助于对IOU进行建模。

图像分类中的标签是使用软的或连续的标签，从而教师网络为每个图像的每个像素为N个类中的每一个提供目标（软）概率。这种方法的挑战是磁盘空间和训练速度：存储标签大约需要3.2TB磁盘空间：20000张图像* 2048w * 1024h * 19类* 4B = 3.2TB。即使我们选择存储此类标签，在训练过程中读取如此大量的标签也可能会大大减慢训练速度。

相反，我们采用了硬标签策略，即对于给定的像素，我们选择了教师网络的顶级预测。我们根据教师网络的输出概率来确定标签的阈值。超出阈值的教师预测将成为真实的标签，否则像素将被标记为信号等级。在实践中，我们使用0.9的阈值。

5 结果

5.1 实施协议

在本节中，我们将详细描述我们的实现协议。

训练细节。我们的模型在Nvidia DGX服务器上使用Pytorch [40]进行训练，每个节点包含8个GPU，混合精度，分布式数据并行训练和同步批处理归一化。我们为优化器使用随机梯度下降（SGD），在训练中每GPU的批量大小为1，动量为0.9，权重衰减为5e−4。我们采用“多项式”学习率策略[41]。在默认设置下，我们使用RMI [42]作为主要损失函数，而对辅助损失函数使用交叉熵。对于Cityscapes，我们使用2.0的乘方指数，0.01的初始学习率，并在2DGX节点上训练175个时期。对于Mapillary，我们使用1.0的多边形指数，0.02的初始学习率，并在4个DGX节点上训练200个时期。与[29]中一样，我们在数据加载器中使用类均匀采样从每个类中均等地采样，这有助于在数据分布不均等时改善结果。

数据增强。我们采用高斯模糊，颜色增强，随机水平翻转和随机缩放（0.5 x -2.0x）以扩大数据集的训练过程。对于Cityscape，我们使用2048x1024的作物，对于Mapillary，我们使用1856x1024的作物。

5.1.1 Cityscapes结果

Cityscapes [43]是一个大型数据集，它在5000张高分辨率图像中标记了19个语义类别。对于Cityscapes，我们将HRNet-OCR与建议的多尺度注意力方法一起使用。我们将RMI用作主要分割头的损失，但对于辅助分割头，我们使用交叉熵，因为我们发现使用RMI损失会导致训练深度的训练准确性降低。首先在较大的Mapillary数据集上进行预训练，然后在Cityscapes上进行训练，即可达到最佳效果。对于Mapillary的预训练任务，我们不会专心训练。除了自动标记的粗图像之外，我们还使用火车+瓦尔图像实现了有关Cityscapes的最新配方。以50％的概率从Train + val集合中采样，否则从自动标记的图像池中采样。在推断时，我们使用比例= {0.5,1.0,2.0}和图像翻转。

我们对Cityscapes验证集进行了消融研究，如表2所示。在平均HRNet-OCR架构上，多尺度关注产生0.5％的IOU 汇集。自动标记可将基线的IOU提高1.1％。将这两种技术结合在一起，总共可获得1.4％IOU的收益。

最后，在表3中，我们显示了与Cityscapes测试集中其他性能最高的方法相比的方法结果。我们的方法得分为85.1，这是所有方法中报告的最佳Cityscapes测试得分，比以前的最佳得分高了0.6IOU。此外，我们的方法在除三个班级以外的所有班级中均拥有最高的每班分数。结果如图5所示。

【语义分割】Hierarchical Multi-Scale Attention for Semantic Segmentation_第8张图片

图5 定性结果。从左到右：输入，基本事实，我们在Cityscapes上的方法

5.1.2 Mapillary Vistas结果

Mapillary Vistas [45]是一个大型数据集，包含25,000张高分辨率图像，被注释为66个对象类别。对于Mapillary，我们使用HRNet-OCR作为主干以及我们提出的多尺度注意力方法。因为枫木图像可以具有非常高的分辨率，所以我们调整图像的大小，使长边为2177，如[23]中的wasdone。我们使用ImageNet分类训练的HRNet权重来初始化模型的HRNet部分。由于Mapillary中66个类的内存需求更大，我们将作物大小减小到1856 x 1024.在表4中，我们显示了方法的结果枫叶验证集。我们基于单模型的方法达到61.1，比下一个最接近的方法Panoptic Deeplab [23]高2.4，后者使用模型集成来达到58.7。

6 结论

在这项工作中，我们提出了一种用于语义分割的分层多尺度注意方法。我们的方法在提高分割精度的同时，还提高了内存和计算效率，这都是实际需要考虑的问题。训练效率限制了可以完成快速研究的速度，而GPU内存效率则限制了可以训练的作物网络的规模，这也可能限制网络精度。使用我们提出的方法，我们在经验上证明了Cityscapes和Mapillary的持续改进。

个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
景联文科技：专业数据标注公司，推动AI技术革新景联文科技人工智能
数据标注作为AI技术发展的重要支撑，对于训练高质量的机器学习模型以及推动应用领域的创新具有不可替代的作用。景联文科技作为专业的数据标注公司，致力于提供专业的数据标注服务，帮助客户解决AI链条中的数据处理难题，共同推动人工智能技术的进步与发展。一站式数据标注服务景联文科技提供一站式的数据标注服务，涵盖从图像、视频、音频到文本等多种数据类型。•图像标注：对象检测、语义分割、关键点标注、多边形标注等。•
Python(PyTorch和TensorFlow)图像分割卷积网络导图(生物医学) 亚图跨际交叉知识 Python 生物医学脑肿瘤图像皮肤病变多模态医学图像多尺度特征生物医学腹部胰腺图像病灶边界气胸图像
要点语义分割图像三层分割椭圆图像脑肿瘤图像分割动物图像分割皮肤病变分割多模态医学图像多尺度特征生物医学肖像多类和医学分割通用图像分割模板腹部胰腺图像分割分类注意力网络病灶边界分割气胸图像分割Python生物医学图像卷积网络该网络由收缩路径和扩展路径组成，收缩路径是一种典型的卷积网络，由重复应用卷积组成，每个卷积后跟一个整流线性单元(ReLU)和一个最大池化操作。在收缩过程中，空间信息减少，而特征信
学习记录——语义分割和实例分割的标签结构落叶击球学习笔记学习人工智能
语义分割：一张样本，生成一张掩码图像标签。灰度图像，背景亮度为0，每个目标根据分类赋予不同亮度——1，2，3......实现像素级的类别区分，但无法区分个体。实例分割：原理：一张样本，生成一个多通道的Mat矩阵，也就是多张掩码图像叠在一起。每张掩码图负责存储一个类别的目标，亮度只有0和1，通过通道号区分每个类别。同时，每张掩码图内，每个目标拥有ID号（通过增加一个维度实现），负责区分一个类别中的每
语义分割训练精度计算南太湖小蚂蚁人工智能深度学习人工智能
语义分割训练的output结果一般是[batch_size,num_classes,width,height]这样的形式，而label的结果一般是[batch_size,width,height]，类似如下形状，outputs：[4,6,480,320]，而真值label：[4,480,320]。由于维度不同，无法直接比较，所以这两者要比较就要采取一点方法。output里面每个类型都有一个值，要取
语义分割笔记 Wils0nEdwards 笔记深度学习计算机视觉
在语义分割任务中，提升自制数据集上baselinemodel的平均交并比（mIoU）和平均精度（mAcc）的难度取决于多个因素。以下是一些关键因素及其对难度的影响：数据集质量：标注质量：高质量的标注对于训练有效的模型至关重要。如果标注存在错误或不一致，模型的性能会受到影响。样本数量：较大的数据集通常可以提升模型的泛化能力，但收集和标注大量样本是一个费时费力的过程。数据多样性：如果数据集包含多样化的
遥感影像-语义分割数据集：GID数据集详细介绍及训练样本处理流程 GIS潮流计算机视觉人工智能机器学习
GID数据集：大规模高分卫星土地覆盖数据集原始数据集详情简介：GID是基于我国Gaofen-2卫星数据而构建的大规模高分辨率遥感图像土地覆盖数据集。GID数据集分为大规模分类集（GID-5）和精细土地覆盖集（GID-15）两个部分。大规模分类集（GID-5）包含建筑、农田、森林、草地和水域等5个土地覆盖类别，共计150景像素级标注的Gaofen-2卫星遥感图像。其中，训练集为120景图像，验证集为
遥感影像-语义分割数据集：Vaihingen数据集详细介绍及训练样本处理流程 GIS潮流计算机视觉
原始数据集详情Vaihingen是一个相对较小的村庄，有许多独立的建筑和小的多层建筑。KeyValue卫星类型未知覆盖区域一个相对较小的村庄，有许多独立的建筑和小的多层建筑-Vaihingen场景城市分辨率5cm数量38张单张尺寸6000*6000原始影像位深8位标签图片位深8位原始影像通道数三通道标签图片通道数三通道官网https://www.isprs.org/education/benchm
Atrous Spatial Pyramid Pooling（ASPP）空洞空间卷积池化金字塔 m0_55576290 深度学习人工智能
文章目录概要整体架构流程演化过程与代码实现概要ASPP主要用于解决语义分割任务中的尺度问题。在语义分割任务中，需要将图像中的每个像素分类到不同的类别中，而不同物体和结构在图像中可能有不同的尺度。传统的卷积神经网络在提取语义信息时，只能通过固定尺度的卷积核进行操作，因此无法很好地捕捉到不同尺度下的上下文信息。ASPP通过在网络中引入多个并行的分支，每个分支使用不同尺度的空洞卷积和池化操作，来捕获不同
深度学习，创新点，模型改进揽星河@ 计算机视觉机器学习深度学习 python 人工智能
深度学习添加创新点①在现有模型上添加自己的创新点②或者混合多个模型等等③提供创新点添加各种注意力机制，各种模型block。机器学习，目标检测，目标识别，语义分割，GAN，CNN等(只要是深度学习均可)编程语言限于Python，pytorch欢迎大家咨询~
【深度学习】COCO API源码解读 CS_Zero 深度学习人工智能
COCOAPI从C、cython，到PythonAPI：实现语义分割标注mask的解析，从具体实现cocoapi/common/maskApi.hcocoapi/common/maskApi.c到Cython封装实现pycocotools._maskcocoapi/PythonAPI/pycocotools/_mask.pyx#distutils:language=c#distutils:sour
2020-04-04 奋斗中的小强
SAN:Scale-AwareNetworkforSemanticSegmentationofHigh-ResolutionAerialImages高分辨率航空图像具有广泛的应用，如军事探索和城市规划。语义分割是高分辨率航空图像分析中广泛使用的一种基本方法。然而，高分辨率航空影像地物具有尺度不一致的特征，这一特征往往会导致预测结果的不确定性。为了解决这个问题，我们提出了一个新的尺度感知模块(SAM
计算机设计大赛深度学习人体语义分割在弹幕防遮挡上的实现 - python iuerfee python
文章目录1前言1课题背景2技术原理和方法2.1基本原理2.2技术选型和方法3实例分割4实现效果5最后1前言优质竞赛项目系列，今天要分享的是深度学习人体语义分割在弹幕防遮挡上的应用该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：3分更多资料,项目分享：https://gitee.com/dancheng-senior/p
[机器学习]详解transformer---小白篇是安澜啊深度学习神经网络
1.背景：Transformer是2017年的一篇论文《AttentionisAllYouNeed》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，并且由于encoder端是并行计算的，训练的时间被大大缩短了。全面击败了当时的SOTA，现阶段，Transformer在cv领域也是全面开花，基于transformer的目标识别，语义分割等算法也是经常屠榜。论文:[1706.03762
【深度学习每日小知识】全景分割 jcfszxc 深度学习术语表专栏深度学习人工智能
全景分割全景分割是一项计算机视觉任务，涉及将图像或视频分割成不同的对象及其各自的部分，并用相应的类别标记每个像素。与传统的语义分割相比，它是一种更全面的图像分割方法，传统的语义分割仅将图像划分为类别，而不考虑对象的部分。全景分割算法将语义分割和实例分割相结合，可以区分对象的一般类及其组成部分或实例。它们可以处理各种对象类，例如物体（例如天空、草地和道路）和事物（例如车辆、人和建筑物），并精确地分割
语义分割技术的简单总结孤独患者_d589
几天前在公众号计算机视觉life上投稿了一篇文章，今天特此在这里mark一下，文章链接如下。https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247488089&idx=1&sn=a7b18c154a84864521f2eb116585aee9&chksm=97d7f7cea0a07ed8da2a881efffc9a690c695b265
前向传播网络实现（类与函数）——TensorFlow2.4 SatVision炼金士网络深度学习 keras
文章目录前言一、基于类的前向传播二、基于函数的前向传播总结前言最近开始着手语义分割方面的内容，由于刚开始入门深度学习，看了一下deeplab的源码，里面所有网络结构基本上都是由类进行定义的（目的是为了方便复用），而大部分博主的复现代码基本上都是基于函数实现，作为小白的我一时有点蒙圈。为了更好地理解前向传播吧以及类与函数定义的网络结构，本文分别用类核函数实现了简单的前向传播函数提示：以下是本篇文章正
半监督语义分割论文学习记录西瓜真的很皮啊半监督语义分割深度学习机器学习人工智能
Semi-SupervisedSemanticSegmentationwithCross-ConsistencyTraining1.1motivation一致性训练的目的是在应用于输入的小扰动上增强模型预测的不变性。因此，学习的模型将对这样的小变化具有鲁棒性。一致性训练的有效性在很大程度上取决于数据分布的行为，即集群假设，其中类必须由低密度区域分隔。在语义分割中，在输入中，我们没有观察到低密度区域
2023最新半监督语义分割综述 | 技术总结与展望！自动驾驶之心计算机视觉人工智能深度学习 python 机器学习
作者|派派星编辑|CVHub点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【语义分割】技术交流群后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料！Title:ASurveyonSemi-SupervisedSemanticSegmentationPaper:https://arxiv.org/pdf/2302.09899.pd
语义分割任务的准确率计算：基于PyTorch实现高斯小哥 PyTorch pytorch 人工智能 python pycharm 深度学习机器学习
语义分割任务的准确率计算：基于PyTorch实现文章目录引言语义分割任务概述准确率的定义与计算方法实践应用与优化策略准确率的局限性分析结尾引言随着深度学习技术的飞速发展，语义分割任务作为计算机视觉领域的一个重要分支，逐渐受到了广大研究者和开发者的关注。语义分割旨在将图像中的每个像素点划分到其所属的物体类别中，从而为图像赋予更为丰富的语义信息。准确率作为衡量语义分割模型性能的重要指标之一，其计算方式
【深度学习】: 脑部MRI图像分割 X.AI666 深度学习深度学习人工智能
清华大学驭风计划课程链接学堂在线-精品在线课程学习平台(xuetangx.com)代码和报告均为本人自己实现（实验满分），只展示主要任务实验结果，如果需要详细的实验报告或者代码可以私聊博主，接实验技术指导1对1有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~案例4：脑部MRI图像分割相关知识点：语义分割、医学图像处理（skimage,medpy）、可视化（matplotlib）1任务
kaggle实战语义分割-Car segmentation（附源码）橘柚jvyou python 人工智能计算机视觉深度学习 pytorch
目录前言项目介绍数据集处理数据集加载定义网络训练网络验证网络前言本篇文章会讲解使用pytorch完成另外一个计算机视觉的基本任务-语义分割。语义分割是将图片中每个部分根据其语义分割出来，其相比于图像分类的不同点是，图像分类是对一张图片进行分类，而语义分割是对图像中的每个像素点进行分类。我们这里使用的语义分割数据集是kaggle上的一个数据集。数据集来源：https://www.kaggle.com
【大厂AI课学习笔记】【1.5 AI技术领域】（7）图像分割 giszz 学习笔记人工智能学习笔记
今天学习到了图像分割。这是我学习笔记的脑图。图像分割，ImageSegmentation，就是将数字图像分割为若干个图像子区域（像素的集合，也被称为超像素），改变图像的表达方式，以更容易理解和分析。图像分割，十分重要，也十分困难，是计算机视觉中的关键步骤。图像分割分为三类：语义分割。预测出输入熟悉的每个像素点属于哪一类的标签实例分割。在语义分割的基础上，还要区分出同一类的不同个体全景分割。在实例分
SAM大模型遥感领域测评未来GIS实验室计算机视觉深度学习人工智能
１.引言随着OpenAI公司ChatGPT的火爆，国内外科技公司都陆续发布自然语言通用领域大模型。而图像领域AI，一时间没了热度。转机出现在上个月，Meta发布了分割万物的视觉通大模型SegmentAnythingModel（SAM）。关注图像或者遥感语义分割的同事可能知道，语义分割作为计算机视觉的核心任务，应用广泛，但最大的限制就是需要大量的标注数据，并且针对不同的任务需要重新训练或微调，试想，
实例分割模型解析：solo模型交换喜悲 mdetection系列人工智能目标检测计算机视觉深度学习
论文链接：https://arxiv.org/abs/1912.04488代码：https://github.com/WXinlong/SOLO1.摘要我们提出了一种新的、极其简单的实例分割方法。与许多其他密集预测任务（例如语义分割）相比，任意数量的实例使得实例分割更具挑战性。为了预测每个实例的掩码，主流方法要么遵循“检测然后分段”策略（例如，MaskR-CNN），要么首先预测嵌入向量，然后使用聚
语义分割系列之FCN、DeeplabV1、V2、V3、V3Plus论文学习 Diros1g 学习深度学习计算机视觉
FCNFullyConvolutionalNetworks论文：FullyConvolutionalNetworksforSemanticSegmentation地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf特点：用全卷积替
周报（20240204）来自宇宙的曹先生研究生阶段周报周报
日期：2024.1.29-2024.2.4本周工作：1.阅读论文本周主要对这篇文献进行了阅读：《用可学习的跳跃连接缩小U-Net中的语义差距：以医学图像分割为例》背景医学图像分割和随后对目标对象的定量评估为疾病诊断和治疗规划提供了有价值的信息。最近的语义分割方法通常依赖于类UNet的编码器-解码器架构，其中编码器产生高级语义特征，解码器逐渐对这些隐藏特征进行上采样，以产生具有每像素概率的分割图。大
InstantID: Zero-shot Identity-Preserving Generation in Seconds 猛码Memmat rob-agent /aigc 图像生成深度学习计算机视觉
文章目录IntroductionMainReference记录由国内首创的一个好玩的小项目，图像生成领域的新进展。但我希望现阶段计算机视觉领域的研究能更聚焦在语义分割和三维视觉上，这样能更方便与机器人等产品和工业实体结合。IntroductionInstantID是一个基于扩散模型的图像生成解决方案，能实现从单一参考图像到多样化风格化写真的快速生成。用户只需上传一张自拍，20秒就能得到定制版AI写
基于YOLOv8的船舶目标检测系统（Python源码+Pyqt6界面+数据集） AI小怪兽深度学习实战应用案列108篇人工智能深度学习机器学习 YOLO 计算机视觉开发语言
博主简介AI小怪兽，YOLO骨灰级玩家，1）YOLOv5、v7、v8优化创新，轻松涨点和模型轻量化；2）目标检测、语义分割、OCR、分类等技术孵化，赋能智能制造，工业项目落地经验丰富；原创自研系列，2024年计算机视觉顶会创新点《YOLOv8原创自研》《YOLOv5原创自研》《YOLOv7原创自研》23年最火系列，内涵80+优化改进篇，涨点小能手，助力科研，好评率极高《YOLOv8魔术师》《YOL
CACDU-Net: A Novel DoubleU-Net BasedSemantic Segmentation Model for SkinLesions Detection in Image 我在努力学习分割（禁止说我水平差）人工智能
CACDU-Net:一种新的基于双u-net的图像皮肤损伤语义分割模型摘要皮肤病变分割是皮肤病学领域的一项重要任务，它有助于早期发现和诊断皮肤病。深度学习技术在实现准确的病灶分割方面显示出巨大的潜力。在这些技术的帮助下，病灶分割过程可以自动化，从而减少了人工操作和主观判断的影响。这有助于节省医疗专业人员的时间和减少他们的工作量，从而提高他们的工作效率，并使医疗资源得到更好的分配。为了更好地进行皮肤
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息