weixin_41066328

Mask Scoring RCNN论文翻译记录

Mask scoring rcnn翻译@TOC
仅仅作为翻译记录。如有参考，不当之处请见谅。

摘要
让一个深度网络意识到自己预测的质量是一个有趣但重要的问题。在实例分割任务中，大多数实例分割框架都使用实例分类的置信度作为掩码质量分数。然而，将掩码质量量化为实例掩码与其ground truth之间的IoU，通常与分类分数的相关性并不好。在本文中，我们研究了这个问题，并提出了包含网络块的掩码评分R-CNN来学习预测实例掩码的质量。提出的网络块结合实例特征和相应的预测掩码，对掩码IoU进行回溯。掩码评分策略校准掩码质量和掩码评分之间的不一致，并通过在COCO AP评估期间优先考虑更准确的掩码预测来提高实例分割性能。通过对COCO数据集的广泛评估，掩模评分R-CNN在不同模型下获得一致且显著的增益，并优于最先进的掩模RCNN。我们希望我们的简单有效的方法将为改进实例分割提供一个新的方向。我们方法的源代码在 https:/github.com/zjhuang22/maskscoring_rcnn上找到.
1. 介绍
深度网络极大地推动了计算机视觉的发展，导致了分类[22、16、35]、目标检测[12、17、32、27、33、34]、语义分割[28、4、37、18]等一系列任务的最新进展。从计算机视觉深度学习的发展可以看出，深度网络的能力正在逐步从图像级预测[22]提升到区域/盒级预测[12]、像素级预测[28]和实例/掩码级预测[15]。进行细粒度预测的能力不仅需要更详细的标签，还需要更精细的网络设计。
在本文中，我们重点研究了实例分割问题，这是目标检测的一个自然的下一步，从粗糙的盒子级实例识别到精确的像素级分类。具体来说，本文提出了一种对实例分割假设进行评分的新方法，对实例分割评价具有重要意义。原因在于大多数评价指标是根据假设得分来定义的，更精确的分数有助于更好地描述模型性能。例如，对于具有挑战性的实例分割数据集COCO[26]，通常使用精度回忆曲线和平均精度(AP)。如果一个实例分割假设得分不正确，可能会被错误地认为是假阳性或假阴性，导致AP下降。
然而，在大多数实例分割管道中，例如Mask R-CNN[15]和MaskLab[3]，实例掩码的得分与box-level分类置信度共享，该置信度由应用于proposal feature的分类器预测。使用分类置信度来度量掩码质量是合适的，因为它只用于区分提案的语义类别，并不知道实例掩码的实际质量和完整性。分类置信度与掩码质量的偏差如图1所示，其中实例分割假设得到了准确的box-level定位结果和较高的分类分值，但对应的掩码不准确。显然，使用这样的分类评分对掩模进行评分会降低评价结果。
与以前的方法不同，我们的方法旨在获得更精确的实例定位或分割掩码，我们的方法侧重于对掩码进行评分。为了实现这个目标，我们的模型学习每个掩码的分数，而不是使用它的分类分数。为了清晰起见，我们将学习分数称为蒙版分数。
受实例分割AP度量的启发，我们提出了一种直接学习IoU的网络方法。本文将IOU表示为Mask IOU。一旦我们在测试阶段得到了预测的MaskIoU，通过将预测的MaskIoU与分类分数相乘，重新评估掩模评分。因此，掩码评分既知道语义类别，也知道实例掩码的完整性。
学习Mask IoU不同于目标分类或掩码预测，它需要将预测掩码与目标特征进行“比较”。在Mask RCNN框架下，我们实现了一个名为MaskIoU head的MaskIoU预测网络。它将mask head的输出和RoI特征作为输入，并使用简单的回归损失进行训练。我们将提出的模型命名为带掩模IoU头的掩模评分R-CNN (MS R-CNN)。使用我们的MS R-CNN进行了大量的实验，结果表明，由于掩模质量和分数之间的一致性，我们的方法提供了一致和显著的性能改进。
总而言之，这项工作的主要贡献突出如下:1. 我们提出了掩模评分R-CNN，这是第一个解决评分实例分割假设问题的框架。为提高实例分割模型的性能开辟了新的方向。考虑到实例掩码的完整性，如果实例掩码的分类分数高，而掩码不够好，则可以对实例掩码的得分进行惩罚。2. 我们的Mask IOU head 非常简单有效。在具有挑战性的COCO基准测试上的实验结果表明，当使用来自我们的MS R-CNN的掩模评分而不仅仅是分类置信度时在不同的骨干网中，AP持续提高约1.5%。
2. Related work
2.1 instance segmentation
当前的实例分割方法大致可以分为两类。一种是基于检测的方法，另一种是基于分割的方法。基于检测的方法利用最先进的检测器，如更快的R-CNN [33]， R-FCN[8]，得到每个实例的区域，然后预测每个区域的掩码。Pinheiro等人提出了一种基于深度掩模的滑动窗口方式对中心对象进行分割和分类。Dai等人提出了基于实例敏感的FCNs来生成位置敏感的映射，并将它们组装起来得到最终的掩码。FCIS[23]采用内/外分数的位置敏感映射生成实例分割结果。他等人[15]提出了一种基于更快的R-CNN的掩码R-CNN，通过增加一个实例级语义分割分支。基于掩模RCNN,Chenetal。[3]提出的MaskLab使用位置敏感评分来获得更好的结果。然而，这些方法的一个潜在缺点是掩模质量只由分类分数来衡量，从而导致了上面讨论的问题。
基于分割的方法首先预测每个像素的类别标签，然后将它们组合在一起形成实例分割结果。Liang等人使用光谱聚类对像素进行聚类。其他工作，如[20,21]，在聚类过程中添加边界检测信息。Bai等人预测了像素级的能量值，并使用分水岭算法进行分组。最近，有一些工作[30,11,14,10]使用度量学习来学习嵌入。具体来说，这些方法学习每个像素的嵌入，以确保来自相同实例的像素具有类似的嵌入。然后对所学习的嵌入进行聚类，得到最终的实例标签。由于这些方法没有显式的分数来度量实例掩码的质量，因此必须使用平均像素级的分类分数作为替代。
上述两类方法都没有考虑掩码分数与掩码质量之间的一致性。由于掩模得分的不可靠性，IoU对ground truth越高的掩模假设，如果掩模得分越低，其优先级越低。在本例中，最终的AP因此降级。
2.2 Detection Score Correction 检测成绩更正
针对检测框分类分值的校正方法有多种，其目的与我们的方法相似。Tychsen-Smithetal等[36]提出了一种Fitness NMS算法，该算法利用检测到的边界框与其地面真实度之间的IoU对检测结果进行修正。该方法将框内IoU预测作为分类任务。我们的方法与此方法的不同之处在于，我们将掩码IoU估计作为一个回归任务。Jiang等人[19]提出了直接回归盒状IoU的IOU-NET，并将预测的IoU用于NMS和边界盒的细化。Chengetal [5]讨论了假阳性样本，并利用一个独立的网络对这些样本的分数进行校正。Soft NMS[2]使用两个框之间的重叠来纠正低分框。诺伊曼等29]提出Relaxed Softmax来预测安全关键行人检测标准Softmax中的温度尺度因子值。
与这些方法侧重于边界框级别检测不同，我们的方法是为实例分割而设计的。在mask IoU head对实例掩码进行进一步处理，使网络能够感知到实例掩码的完整性，最终的掩码分数能够反映实例分割假设的实际质量。这是提高实例分割性能的一个新方向。
3. Method
3.1. Motivation
在当前的Mask R-CNN框架中，检测假设的得分(即实例分割)由分类得分中最大的元素决定。。由于背景杂波、遮挡等问题，有可能分类分值较高，但掩模质量较低，如图1所示。为了定量分析这一问题，我们将来自mask R-CNN的vanilla mask评分与预测的mask及其ground truth mask (MaskIoU)之间的实际IoU进行了比较。具体来说，我们在COCO 2017验证数据集上使用带ResNet-18 FPN的Mask R-CNN进行实验。然后我们选择了MaskIoU和分类分数均大于0.5的Soft-NFS后的检测假设。MaskIoU超过分类分值的分布如图2(a)所示，每个掩模IoU区间的平均分类分值如图2©所示为蓝色。从图中可以看出，在掩模R-CNN中，分类分值与MaskIoU的相关性不是很好。
在大多数实例分割评估协议中，如COCO，低MaskIoU和高分数的检测假设是有害的。在许多实际应用中，确定检测结果何时可以信任，何时不能信任[29]非常重要。这促使我们学习一个校准的面具评分根据每一个检测假设的MaskIOU学习一个校准的mask 得分。在不失一般性的前提下，我们研究了Mask R-CNN框架，并提出了Mask score R-CNN (MS R-CNN)，这是一个带有额外MaskIoU head模块的Mask R-CNN，该模块学习MaskIoU对齐的Mask score。我们帧工作的预测掩模分数如图2(b)所示，橙色直方图如图2©所示。
3.2。Maskscoringin MaskR-CNN
Mask Scoring R-CNN概念简单:MASK RCNN采用MaskIoU Head，将实例特征与预测掩码一起作为输入，预测输入掩码与地面真值掩码之间的IoU，如图3所示。我们将在下面几节中介绍框架的细节。
Mask R-CNN:我们首先简要回顾一下mask R-CNN[15]。随着Faster R-CNN [33]， Mask R-CNN由两个阶段组成。第一阶段是区域建议网络(RPN)。无论对象类别如何，它都提出候选对象边界框。第二阶段称为R-CNN阶段，对每个提案使用RoIAlign提取特征，并对提案进行分类、边界框回归和掩码预测。
**Mask scoring ?*我们将Smask定义为预测掩码的得分。理想的Smask等于预测掩模与其匹配的地面真实掩模之间的像素级IoU，以前称为MaskIoU。理想的Smask对于ground truth类别也应该只有正值，对于其他类应该为零，因为掩码只属于一个类。这就要求Mask Score 能够很好地完成两项任务:将mask 分类到正确的类别，并将提案的MaskIoU回归到前景对象类别。
仅仅使用一个目标函数来训练这两个任务是很困难的。为了简化，我们可以将mask score learning task分解为mask classification和IoU regression，对于所有对象类别，用Smask = scls·siou表示。scls主要对提案进行分类，siou主要对MaskIoU进行回归。
对于scls, scls的目标是对提案所属的类别进行分类，这已经在R-CNN阶段的分类任务中完成。所以我们可以直接取相应的分类分数。回归·siou是本文的目标，本文将在下一段中进行讨论。
**MaskIoU Head ?*MaskIoU Head的目标是在预测掩模和它的Ground truth mask 之间返回IoU。我们使用RoIAlign层的feature拼接和预测的掩模作为MaskIoU head的输入。在拼接时，我们使用内核大小为2，步长为2的max pooing层，使预测的掩模具有与RoI特征相同的空间大小。我们只选择返回地面真相类的MaskIoU(为了测试，我们选择预测类)，而不是所有类。我们的MaskIoU Head由4个卷积层和3个完全连接的层组成。对于4个卷积层，我们按照mask head ，将所有卷积层的kernel size和filter number分别设置为3和256。对于3个完全连接的(FC)层，我们遵循RCNN head ，将前两个FC层的输出设置为1024，最后一个FC层的输出设置为类的数量。
Training :对于MaskIoU head的training，我们使用RPN提案作为培训样本。训练样本需要在proposal box和匹配的ground truth box之间有一个大于0.5的IoU，与Mask R-CNN的Mask head训练样本相同。
为了生成每个训练样本的回归目标，我们首先得到目标类的预测掩码，并使用0.5的阈值对预测掩码进行二值化然后利用二元掩码与匹配的地面真值之间的掩码作为掩码目标。我们使用’l2损失对MaskIoU进行回归，损失权重设置为1。将提出的MaskIoU Head集成到Mask R-CNN中，对整个网络进行端到端训练。
Interfence :在推理过程中，我们仅使用MaskIoU head对R-CNN生成的分类分数进行标定。具体来说，假设掩模R-CNN的R-CNN阶段输出N个边界框，其中选取SoftNMS[2]后的top-k(即k = 100)个计分框。然后将top-k盒输入掩模头部，生成多类掩模。这是标准的掩模R-CNN推理过程。我们也遵循这个过程，并输入top-k目标掩模来预测MaskIoU。将预测的MaskIoU与分类分数相乘，得到新的校正后的掩模分数作为最终的掩模置信度。
4. Experiments
所有实验均在80个对象类别的COCO数据集[26]上进行。我们遵循COCO 2017设置，使用115k图像训练分割用于训练，5k验证分割用于验证，20k测试开发分割用于测试。我们使用COCO评估指标AP(平均超过IoU阈值)来报告结果，包括[email protected]、[email protected]，以及AP、APM、APL(不同规模的AP)。[email protected](或[email protected])表示使用IoU阈值0.5(或0.75)来确定预测的边界框或掩码在评估中是否为正。除非注明，AP是使用掩码IoU评估的。
4.1。实现细节
我们在所有的实验中都使用我们的重新生成的MASK R-CNN。我们使用基于ResNet-18的FPN网络进行消融研究，使用基于fast RCNN/FPN/DCN+FPN[9]的ResNet-18/50/101与其他基线结果进行比较。对于ResNet-18 FPN，将输入图像沿短轴调整为600px，长轴调整为1000px，用于训练和测试。与标准的FPN[25]不同，我们在ResNet-18中只使用C4、C5作为RPN方案和特征提取器。对于ResNet-50/101，输入图像的短轴调整为800像素，长轴调整为1333像素，用于培训和测试。ResNet-50/101的其余配置遵循Detectron[13]。我们对所有的网络进行了18个周期的训练，经过14个周期和17个周期后，学习速度降低了0.1倍。使用与momentum 0.9同步的SGD作为优化器。对于测试，我们使用SoftNMS并保留每个图像的top-100检测。
4.2.Quantitative Results
我们在不同的主干网络(包括ResNet-18/50/101)和不同的框架(包括更快的R-CNN/FPN/DCN+FPN[9])上报告了我们的结果，以证明我们的方法的有效性。结果如表1和表2所示。我们使用APm报告实例分割结果，APb报告检测结果。我们报告我们复制的蒙版R-CNN结果和我们的MS R-CNN结果。astable1显示，与mas - cnn相比，我们的MS R-CNN对主干网不敏感，可以在所有主干网上实现稳定的改进:我们的MS R-CNN可以得到显著的改进(大约1.5 AP)。特别是对于[email protected]，我们的方法可以将基线提高大约2个点。表2表明，我们的MS R-CNN对不同的框架都是鲁棒的，包括更快的R-CNN/FPN/DCN+FPN。此外，我们的MS R-CNN不损害边界框检测性能;事实上，它稍微提高了边界框检测性能。表3报告了test-dev的结果，只报告了实例分割结果。

4.3.Ablation Study
我们在COCO 2017验证集上对我们的方法进行了全面的评估。我们使用ResNet-18 FPN进行了所有烧蚀研究实验。
MaskIoU head输入的设计选择:首先研究MaskIoU head输入的设计选择，即从mask head和RoI特征融合预测mask score map(28×28×C)。图4中有几个设计选择，解释如下:
(a)目标掩码连接RoI特征:取目标类的score map, max- pooling，与RoI特征连接。
(b)目标掩模乘以RoI特征:取目标类的得分图，取最大值池，与RoI特征相乘。
© All mask concatenates RoI feature:所有c类mask score map均为max- pooling，并与RoI feature连接。
(d)目标掩模拼接高分辨率RoI特征:取目标类的评分图，并拼接28×28个RoI特征。
结果如表4所示。可以看出，在融合掩模预测和RoI特征的不同方法下，MaskIoU头的性能是鲁棒的。在各种设计中都能看到性能的提高。由于将目标评分图和RoI特性连接起来可以获得最佳结果，所以我们将其作为默认选择。
The choices of the training target：
如前所述，我们将mask score learning任务分解为mask classification和MaskIoU regression。有可能直接学习蒙版分数吗?此外，RoI可能包含多个类别的对象。我们应该学习所有类别的MaskIoU吗?如何设定MaskIoU head的培训目标还有待探索。培训目标有很多不同的选择:

学习目标类别的MaskIoU，同时忽略提案中的其他类别。这也是本文默认的训练目标，也是本段所有实验的对照组。
学习所有类别的MaskIoU。如果类别没有出现在RoI中，则将其目标掩码IoU设置为0。这个设置表示只使用回归来预测MaskIoU，这要求回归者知道没有不相关的类别。
3.学习所有正向类别的MaskIoU，其中正向类别表示类别出现在RoI区域。提案中的其他类别被忽略。此设置用于查看对RoI区域中的更多类别执行回归是否会更好。
表5显示了上述培训目标的结果。通过将设置#1与设置#2进行比较，可以发现所有类别的训练MaskIoU(仅基于MaskIoU预测进行回归)都会显著降低性能，这验证了我们的观点，即使用单一目标函数进行训练分类和回归是困难的。设置3的性能低于设置1是合理的，因为对所有正向类别进行回归会增加MaskIoU head的负担。因此，学习目标类别的MaskIoU是我们的默认选择。
**如何选择训练样本?*由于所提出的MaskIoU head是建立在Mask R-CNN框架之上的，所以MaskIoU head的所有训练样本都有一个大于0.5的box-level IoU，并且根据Mask R-CNN的设置，其ground truth boundary box都大于0.5。然而，他们的面罩可能不超过0.5。给定一个阈值τ,我们使用的样本MaskIoU大于τ训练MaskIoU头。表6显示了结果。结果表明，所有实例的训练均取得了较好的效果。
4.4.Discussion
在本节中，我们将首先讨论预测的MaskIoU的质量，然后研究如果预测的MaskIoU是完美的，那么掩模评分R-CNN的上界性能，最后分析MaskIoU head的计算复杂度。在讨论中，所有的结果都是在COCO 2017验证集上得到的。， ResNet-18 FPN和一个强大的骨干网络，即。resnet – 101DCN+FPN。
**预测MaskIoU的质量?*我们使用ground truth与预测MaskIoU之间的相关系数来衡量我们的预测的质量。回顾我们的测试流程，我们根据分类得分，在SoftNMS后选择前100个评分框，将检测到的框反馈给掩模头，得到预测的掩模，然后使用预测的掩模和RoI特征作为MaskIoU head的输入。将MaskIoU head和classification score的输出进一步集成到最终的mask score中。
在COCO 2017验证数据集中，我们为每张图片保留了100个预测MaskIoU，从所有5000张图片中收集了50万个预测。我们在图5中绘制每个预测及其对应的基本事实。可以看出，MaskIoU预测与地面真值有较好的相关性，尤其是对MaskIoU高的预测。对于ResNet-18 FPNandResNet-101DCN+FPN主干网，预测结果与地面真实度的相关系数均在0.74左右。这表明预测的质量对骨干网的变化不敏感。这一结论也与表1一致。由于之前没有对MaskIoU进行预测的方法，所以我们参考了之前关于预测边界框IoU的工作[19]。[19]的相关系数为0.617，低于我们的相关系数。
MS R-CNN的上界性能:这里我们将讨论我们的方法的上界性能。对于每个预测的掩码，我们都可以找到它匹配的ground truth掩码;然后用地面真值MaskIoU代替地面真值大于0时预测的MaskIoU。结果如表7所示。结果表明，掩模评分R-CNN始终优于掩模评分R-CNN。与理想的口罩评分R-CNN预测结果相比，实际的口罩评分R-CNN仍有很大的提高空间，其中ResNet-18 FPN骨干评分为2.2% AP, ResNet-101 DCN+FPN骨干评分为2.6% AP。
5. 结论
本文研究了实例分割掩码的打分问题，提出了基于RCNN的掩码打分方法。通过在Mask R-CNN中添加一个MaskIoU头部，许多主题都与MaskIoU对齐，而这在大多数实例分割框架中通常被忽略。提出的MaskIoU头是非常有效和易于实施。在COCO基准上，大量的结果表明，Mask评分R-CNN一致且明显优于Mask R-CNN。该方法也可应用于其它实例分割网络，获得更可靠的掩码分数。我们希望我们的简单有效的方法可以作为一个基线，并有助于未来的研究实例分割任务。

机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
华为OD机试 - 字符串分割转换（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od python javascript
一、题目描述给定一个非空字符串QS，其被N个‘;’分隔成N+1个子串，给定正整数数组K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写Q字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。二、输入描述输入为两行，第
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
Dify知识库构建流程及示例 cqbelt ai 笔记 AI应用
总体流程1.数据预处理清洗：去除噪声、特殊字符、标准化格式。分词/标记化：拆分文本为单词或子词单元（如使用Tokenizer）。元数据关联：附加来源、时间戳等信息，支持多维度检索。2.文本分块固定长度分块：按字符或Token数切分，简单高效。语义分块：基于句子边界或主题分割（如NLP模型识别段落主旨）。重叠策略：相邻块间部分重叠，避免上下文断裂。3.向量化（Embedding）嵌入模型：调用预训练
什么是数据库的分区技术？破碎的天堂鸟学习教程数据库
数据库分区技术详解数据库分区技术是一种通过将大型表或索引分割成多个逻辑独立、物理可分离的单元（即分区）来优化性能和管理效率的核心策略。以下是其核心要点和应用的全面解析：1.定义与基本原理数据库分区（Partitioning）是一种物理数据库设计技术，通过特定规则（如范围、列表、哈希等）将表或索引划分为更小、更易管理的逻辑单元。每个分区可独立存储于不同物理位置（如磁盘或服务器），但对应用层透明，逻辑
又叕最后的作业hhhhhhhhhh MapleInori 编程题目算法 c++
目录题目A:城堡题目B:山洞寻宝图题目C:迷宫题目D:n皇后题目E:最大装载问题题目F:跳马问题（2点）题目G:布线问题题目A:城堡题目描述某城堡被分割成m×n（m≤50，n≤50）个方块，每个方块的四面可能有墙，“#”代表有墙，没有墙分割的方块连在一起组成一个房间，城堡外围一圈都是墙。如果1、2、4和8分别对应左墙、上墙、右墙和下墙，则可以用方块周围每个墙对应的数字之和来描述该方块四面墙的情况，
3D-AFFORDANCELLM: HARNESSING LARGE LANGUAGE MODELS FOR OPEN-VOCABULARY AFFORDANCE DETECTION UnknownBody LLM Daily 3d 语言模型人工智能
摘要3D可及性检测是一个具有挑战性的问题，在各种机器人任务中有着广泛的应用。现有方法通常将检测范式制定为基于标签的语义分割任务。这种范式依赖于预定义的标签，缺乏理解复杂自然语言的能力，导致在开放世界场景中的泛化能力有限。为了解决这些限制，我们将传统的可及性检测范式重新定义为指令推理可及性分割（IRAS）任务。该任务旨在根据查询推理文本输出可及性掩码区域，避免了输入标签的固定类别。相应地，我们提出了
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
ruby分割字符串_Ruby 字符串（String） weixin_39996908 ruby分割字符串
Ruby字符串(String)Ruby中的String对象用于存储或操作一个或多个字节的序列。Ruby字符串分为单引号字符串(')和双引号字符串(")，区别在于双引号字符串能够支持更多的转义字符。单引号字符串最简单的字符串是单引号字符串，即在单引号内存放字符串：'这是一个Ruby程序的字符串'如果您需要在单引号字符串内使用单引号字符，那么需要在单引号字符串使用反斜杠(\)，这样Ruby解释器就不会
ruby分割字符串_Ruby字符串的一些方法狄息桐 ruby分割字符串
最近因为公司需求开始看ruby，先从ruby的基本数据类型开始看看到ruby的字符串类型string，发现ruby中的字符串单双引号是不一样的，这点和Python有那么点不一样主要是我们对字符串进行变量引用的时候要使用双引号如下：可支持全部的转义字符及用#{exp}将Ruby中的值插入字符串中例：i=5str=“abab#{i}cjd”#->abab5cjd“#{‘ho‘*3}happynewye
ruby分割字符串_Ruby字符串孙叔敖夜 ruby分割字符串
构建方法str='helloworld'#只允许`\\`与`\'`转义str="helloworld"#允许所有转义和`#{}`字符串拼接str=%q/helloworld/#等同单引号str=%Q{helloworld}#等同双引号str="abcabc"索引str="abc"s=str[-1]#s=>'c's1=str[2]#s1=>'c'，ruby中的字符视为整数s2=str[1,2]#s2
图像分割基础：使用Python和scikit-image库 0dayNu1L 机器学习项目实战 python 人工智能机器学习
大家好，今天我们将一起探讨图像分割的基础知识，并使用Python编程语言以及scikit-image库来实现一个简单的图像分割示例。图像分割是图像处理中的一项重要技术，它允许我们将图像划分为多个部分或对象，这对于图像分析和计算机视觉任务至关重要。0dayNu1L-CSDN博客目录一、环境准备二、图像分割示例1.导入必要的库2.读取并显示图像3.创建标签数组并进行阈值分割4.使用颜色表示标签三、结果
Python库 - skimage 司南锤 PYTHON库 python 开发语言
skimage是scikit-image的缩写，是一个用于图像处理的Python库。提供了丰富的图像处理功能，包括图像滤波、边缘检测、形态学操作、特征提取、图像分割等。skimage是基于NumPy数组构建的，因此可以与NumPy和其他科学计算库（如scipy和matplotlib）无缝集成。安装可以使用pip来安装skimage：pipinstallscikit-image主要模块skimage
YOLOv8n-seg.pt的使用（实例分割，训练自己制作的数据集）再坚持一下！！！ YOLO
Ubuntu+python3一、YOLOV8源码下载参考：GitHub-ultralytics/ultralytics:NEW-YOLOv8inPyTorch>ONNX>OpenVINO>CoreML>TFLite二、数据集制作1.labelme下载：pip3installlabelme2.终端输入labelme,打开labelme。界面“打开目录”，打开图片目录images，进行多边形标注（右键
LeetCode 3280 将日期转换为二进制表示雾月55 leetcode 算法职场和发展数据结构 java
【算法实战】日期转二进制：两种解法的思路与优化（附代码解析）一、问题描述给定一个yyyy-mm-dd格式的日期字符串，要求将年、月、日分别转为无前导零的二进制，并保持year-month-day格式。示例：输入2025-03-15，输出11111101001-11-1111（2025→11111101001，3→11，15→1111）。二、解法一：直接分割转换（新手友好）思路分析分割日期：按-拆分
快速排序法的使用 ( 超详细图解 ) S01d13r 链表算法快速排序面试数据结构
快速排序法的使用快速排序法作为一种广受好评的排序方法，不仅仅因为它的排序效率很高，更因为它体现了分治的思想。因此许多广为人知的软件公司（BAT）的笔试面试都喜欢考，甚至在一些大大小小的考试如软考、考研中也能见到它的身影。因此熟练默写快速排序法的代码并掌握其核心思想对我们来说尤为重要。快速排序法的背景：快速排序由C.A.R.Hoare在1960年提出。它的基本思想是：通过一趟排序将要排序的数据分割成
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
1-绪论- 重生之我是冯诺依曼数据结构数据结构
一-数据结构的基本概念1-数据数据是信息的载体，是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。2-数据元素数据元素是数据的基本单位，通常作为一个整体进行考虑和处理。3-数据项一个数据元素可由若干数据项组成，数据项是构成数据元素的不可分割的最小单位。4-数据对象数据对象是具有相同性质的数据元素的集合，是数据的一个子集5-数据结构数
python网格插值站点_在python中，在二维零网格上两点之间插值一条值线 weixin_39965490 python网格插值站点
TLDR:在2dnumpy数组中找到2个点后，如何在0数组中在它们之间插值一条1行？在上下文：目前我正在尝试从二值化的医学图像数据(0和1)对一个3d数组执行2d操作。最终目标是在填充体素/像素(即第一个和最后一个实例)的起点和终点之间添加一条1s的线。在为此，我使用SimpleITK分割一行，然后将其转换为numpy数组。在其他示例之后，我编写了返回一组数组的函数，这些数组显示填充(1)个像素和
python的格式转换库_3个Python PDF库，提取信息、转换格式、分割剪裁有它就够了！... 来朝三博士 python的格式转换库
PDFMiner：PDFMiner是一个从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它只用于获取和分析文本数据。PDFMiner能获取页面中文本的准确位置，以及字体或行等其他信息。它还有一个PDF转换器，可以将PDF文件转换成其他文本格式(如HTML)。还有一个可扩展的解析器PDF，可以用于文本分析以外的其他用途。(地址https://github.com/euske/pdfmine
python 使用microsoft-Florence-2-base进行图片描述生成哦里哦里哦里给 AI 大语言模型实战 python microsoft 开发语言
目录一、Florence-2简介二、代码实践三、多语言模型一、Florence-2简介Florence-2是一个先进的视觉基础模型，采用基于提示（prompt）的方式，处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示，执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集，该数据集包含54亿个注释，涵盖1.26亿张图像，用于掌握多任务学习。模型的序列到序列架构
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
MobileNet家族：从v1到v4的架构演进与发展历程彩旗工作室人工智能架构人工智能机器学习 cnn 卷积神经网络
MobileNet是一个专为移动设备和嵌入式系统设计的轻量化卷积神经网络（CNN）家族，旨在在资源受限的环境中实现高效的图像分类、对象检测和语义分割等任务。自2017年首次推出以来，MobileNet经历了从v1到v4的多次迭代，每一代都在计算效率、模型大小和准确性上取得了显著进步。本文将详细探讨MobileNetv1、v2、v3和v4的原理、架构设计及其发展历程，并分析其关键创新和性能表现。Mo
Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析 AIGC_ZY CV transformer pytorch 深度学习
VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。它摒弃了传统卷积神经网络(CNN)的卷积操作，而是将图像分割成patches，并将这些patches视为序列输入到Transformer编码器中。ViT的处理流程输入图像被分割成多个固定大小的patch，每个patch经过线性投影变成嵌入向量，然后加上位置编码。接着，这些嵌入向量会和类别标签（c
【图像分割】Labelme JSON标注转换为TXT代码详解唐king json python
书接上文：https://blog.csdn.net/qq_49092686/article/details/145114987?spm=1001.2014.3001.5502这里给出更细致的json2txt代码，同时考虑了circle、rectangle这两种情况各位朋友，在使用前，你一定要注意你的json格式是不是跟我的一致，不一致的话是用不了的（是不是也用的labelme制作的数据集）imp
exfat默认配置大小_U盘exFAT格式好不好？格式化分配单元大小多少合适？喵喵蜜 exfat默认配置大小
2019年9月1日通常，格式化分配单元越小，节省的空间越多。分配单元越大，节省的时间越多，但浪费空间。这看起来似乎分配单元小能节省空间，但事实并非如此。文件分割的块越多，特别是当这些存储器单元分散时，它会浪费一些时间来读取数据。分配单元大小是系统读取和写入磁盘，和可移动存储设备的最小单元。在极限速度内，分配单元的尺寸越大，读/写速度越快，反之亦然。但在这里我们必须注意一个问题，分配的单位越大，浪费
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
hive split 函数转义问题进一步有进一步的欢喜 Hive SQL 精进系列大数据
语法split(strstring,regexstring)--使用regex分割字符串str基本用法selectsplit('a,b,c,d',',')fromtemp_cwh_test;--分割--结果为数组>["a","b","c","d"]截取字符串中某个值selectsplit('a,b,c,d',',')[0]fromtemp_cwh_test;--提取第1个值>a特殊字符的处理针对特
Webpack 前端性能优化全攻略北辰alk 前端 vue 前端 webpack 性能优化
文章目录1.性能优化全景图1.1优化维度概览1.2优化效果指标2.构建速度优化2.1缓存策略2.2并行处理2.3减少构建范围3.输出质量优化3.1代码分割3.2TreeShaking3.3压缩优化4.运行时性能优化4.1懒加载4.2预加载4.3资源优化5.高级优化策略5.1持久化缓存5.2模块联邦5.3性能分析6.优化效果验证6.1构建速度分析6.2性能监控7.最佳实践总结7.1优化策略7.2持续
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Mask Scoring RCNN论文翻译记录

你可能感兴趣的:(论文翻译,分割)