Jeremy_lf

【实例分割】论文阅读：YOLACT Real-time Instance Segmentation

论文：YOLACT Real-time Instance Segmentation （ICCV2019）
作者：Daniel Bolya Chong Zhou

Abstract

我们为实时实例分割提供了一个简单的全卷积模型，该模型在单个Titan Xp上以33.5 fps的速度在MS COCO上达到了==29.8 mAP，==这比以前的任何竞争方法都快得多。此外，我们仅在一个GPU上训练后即可获得此结果。我们通过将实例分割分为两个并行的子任务来完成此任务：（1）生成一组原型Mask，以及（2）预测每个实例的Mask系数。然后，我们通过将原型与Mask系数线性组合来生成实例Mask。我们发现，由于此过程不依赖于repooling，因此此方法可产生非常高质量的Mask并显示出了时间稳定性。此外，我们分析了原型的涌现行为，并展现出了他们能够以翻译变体的方式自行定位实例，尽管是全卷积。最后，我们还提出了快速NMS，这是对标准NMS的12毫秒快速替代，但只对性能有轻微的影响。

1. Introduction

创建实时实例分割算法需要什么？在过去的几年中，视觉社区在实例分割方面取得了长足的进步，部分是通过利用来自完善的对象检测领域的强大相似之处。诸如Mask RCNN [18]和FCIS [24]等最先进的实例分割方法直接建立在Faster R-CNN [37]和R-FCN [8]等对象检测技术的基础上。然而，这些方法主要关注在性能与速度之间的关系上。场景中的实时实例分割工作并没有像实时对象检测器（如SSD [30]和YOLO [35，36]）一样并行。在这项工作中，我们的目标是以一种快速的一级实例分割模型填补这一空白，就像SSD和YOLO填补该空白以进行对象检测一样。

但是，实例分割很困难-比对象检测困难得多。诸如SSD和YOLO之类的一级对象检测器能够通过简单地移除第二级并以其他方式弥补性能损失来加快诸如Faster R-CNN之类的现有两级检测器。但是，同一方法不易扩展到实例分割。最新的两阶段实例分割方法在很大程度上依赖于特征定位来生成Mask。也就是说，这些方法（例如，通过RoIpool / align）在某些边界框区域中“repool”特征，然后将这些现在局部化的特征馈送到Mask predictor中。这种方法本质上是顺序的，因此很难加速。确实存在像FCIS一样并行执行这些步骤的一阶段方法，但是它们在定位之后需要大量的后处理，因此仍然远远不够实时。

为了解决这些问题，我们提出了YOLACT1，这是一个实时实例分割框架，它无需进行明确的本地化步骤。相反，YOLACT将实例分割分解为两个并行的任务：（1）在整个图像上生成非局部原型Mask的字典，以及（2）预测每个实例的一组线性组合系数。然后，从这两个组件产生全图像实例分割很简单：对于每种实例，使用相应的预测系数线性组合原型，然后使用预测的边界框进行裁剪。我们展示了通过以这种方式进行分割，网络学会了如何自行定位实例Mask，在视觉，空间和语义上相似的实例在原型中看起来是不同的。

此外，由于原型Mask的数量与类别的数量无关（例如，可以有比原型更多的类别），因此YOLACT学习了一种分布式表示形式，其中每个实例都通过在类别之间共享的原型组合进行了细分。分布式表示会在原型空间中引起有趣的紧急行为：一些原型在空间上对图像进行分区，一些定位实例，一些检测实例轮廓，一些编码位置敏感的方向图（类似于在FCIS中对位置敏感模块进行硬编码[ 24]），并且大多数都将这些任务组合在一起（请参见图5）。

这种方法还具有一些实际优势。首先，它是快速的：由于其并行的结构和极其轻巧的组装过程，YOLACT仅向一级backbone检测器增加了少量的计算开销，即使使用ResNet-101时也很容易达到30fps [19] ; 实际上，整个Mask分支只需5毫秒即可评估。其次，Mask是高质量的：由于Mask会使用整个图像空间，而不会因反复池化而损失像素，因此我们用于大型物体的Mask的质量明显高于其他方法（参见图7）。最后，一般的：生成原型和Mask系数的想法几乎可以添加到任何现代物体检测器中。

我们的主要贡献是第一个实时（> 30 fps）实例分割算法，在具有挑战性的MS COCO数据集上[28]具有竞争性结果（见图1）。此外，我们分析了YOLACT原型的新兴行为，并提供了实验来研究在不同主干架构，原型数量和图像分辨率下获得的速度与性能之间的权衡。我们还提供了一种新颖的快速NMS方法，其性能比传统NMS快12ms。

2. Related Work

Instance Segmentation 鉴于其重要性，已进行了大量研究工作以提高实例分割的准确性。 Mask-RCNN [18]是一种代表性的两阶段实例分割方法，该方法首先生成候选感兴趣区域（ROI），然后在第二阶段对这些ROI进行分类和分段。后续工作试图通过例如增加FPN功能[29]或解掩码的置信度得分与其定位精度之间的不兼容性[20]来提高其准确性。这两个阶段的方法需要为每个ROI反复池化，并通过后续计算对其进行处理，这使得即使减小图像大小，它们也无法获得实时速度（30 fps）（请参见表2c）。

一阶段实例分割方法生成位置敏感图，并通过位置敏感池将其组装成最终掩码[6，24]或结合语义分割logit和方向预测logits [4]。尽管从概念上讲，它比两阶段方法要快，但仍然需要进行repooling或其他 non-trivial 计算（例如，掩码投票）。这严重限制了它们的速度，使它们远离实时。相比之下，我们的组装步骤要轻得多（仅是线性组合），并且可以实现为GPU加速的矩阵矩阵乘法，从而使我们的方法非常快速。

最后，一些方法首先执行语义分割，然后进行边界检测[22]，像素聚类[3、25]，或学习嵌入以形成实例掩码[32、17、9、13]。同样，这些方法具有多个阶段和/或涉及昂贵的聚类过程，这限制了它们在实时应用中的可行性。

Real-time Instance Segmentation 尽管存在实时对象检测[30、34、35、36]和语义分割[2、41、33、11、47]方法，但很少有工作专注于实时实例分割。 Straight to Shapes [21]和Box2Pix [42]可以实时执行实例分割（对于Pascal SBD 2012 [12，16]，Straight to Shapes可以实时执行实例分割，在Cityscapes [5]上可以达到10.9 fps，在KITTI [15]上可以达到35fps。 ]（适用于Box2Pix），但其精度远非现代基准。实际上，Mask R-CNN [18]仍然是语义上具有挑战性的数据集（如COCO [28]）的最快实例分割方法之一（在550x550 px图像上为13.5fps；请参见表2c）。

Prototypes 学习原型（又称词汇表或密码本）已在计算机视觉中得到了广泛探索。古典的表现形式包括文本[23]和视觉单词[40]，并通过稀疏性和局部性先验[44、43、46]取得了进步。其他人则设计了用于物体检测的原型[1，45，38]。尽管相关，但这些作品使用原型来表示特征，而我们使用它们来组装掩码以进行实例分割。此外，我们学习特定于每个图像的原型，而不是在整个数据集中共享的全局原型。

3. YOLACT

我们的目标是按照与Mask R-CNN [18]和Faster R-CNN [37]相同的方式，向现有的一阶段对象检测模型添加mask分支，但没有明确的特征定位步骤（例如，feature repooling）。为此，我们将实例分割的复杂任务分解为两个更简单的并行任务，可以将它们组合起来以形成最终的Mask。第一分支使用FCN [31]来生成一组图像大小的“原型Mask”，这些Mask不依赖于任何一个实例。第二种方法向对象检测分支添加了一个额外的头部，以预测每个锚的“Mask系数”矢量，这些锚对原型空间中的实例表示进行编码。最后，对于在NMS中幸存的每个实例，我们通过线性组合这两个分支的工作为该实例构造一个Mask。

Rationale 我们以这种方式执行实例分割主要是因为Masks在空间上是连贯的。也就是说，彼此靠近的像素可能是同一实例的一部分。卷积（conv）层自然地利用了这种一致性，而全连接（fc）层却没有，这是一个问题，因为一级目标检测器会为每个锚点生成类和盒系数作为fc的输出。二阶方法如掩模R-CNN的两步方法通过使用定位步骤（例如RoIAlign）解决了此问题，该步骤保留了特征的空间连贯性，同时还允许将Mask作为转换层输出。但是，这样做需要模型的很大一部分等待第一阶段的RPN提出定位候选对象，从而导致明显的速度损失。

因此，我们将问题分为两个平行的部分，即利用fc层和conv层，其中fc层善于产生语义矢量，而conv层善于产生空间一致的Mask，从而产生“mask coefficients”和“prototype masks” ，分别。然后，由于原型和掩膜系数可以独立计算，因此，骨干检测器的计算开销主要来自于组装步骤，可以将其实现为单个矩阵乘法。这样，我们可以保持特征空间的空间连贯性，同时仍然保持一个阶段且快速。

3.1. Prototype Generation

原型生成分支（protonet）为整个图像预测一组k个原型Mask。我们将pronet实施为FCN，其最后一层具有k个通道（每个原型一个），并将其附加到主干特征层（请参见图3）。尽管此表述与标准语义分段相似，但不同之处在于我们在原型上没有表现出明显的损失。取而代之的是，对这些原型的所有监督都来自组装后的最终掩模损失。

我们注意到两个重要的设计选择：从更深的主干特征中获取Protonet会产生更健壮的Mask，而更高分辨率的原型会同时带来更高质量的Mask和更小的物体性能。因此，我们使用FPN [26]，因为它的最大特征层（在我们的情况下为P3；见图2）最深。然后，我们将其上采样到输入图像尺寸的四分之一，以提高在小物体上的性能。

最后，我们发现无限制的Protonet输出非常重要，因为这可以使网络为它充满信心的原型（例如，明显的背景）产生大型的，强大的激活。因此，我们可以选择遵循带有ReLU或不具有非线性的原型。我们选择ReLU以获得更具解释性的原型。

3.2. Mask Coefficients

典型的基于锚的对象检测器在其预测头中有两个分支：一个分支预测c类置信度，另一个分支预测4个边界框回归器。 对于掩膜系数预测，我们只需并行添加第三分支即可预测k个掩膜系数，每个分支对应一个原型。因此，我们不会产生每个锚点4 + c的系数，而是会产生4 + c + k的系数。

然后对于非线性，我们发现能够从最终Mask中减去原型很重要。因此，我们将tanh应用于k个掩码系数，从而在没有非线性的情况下产生更稳定的输出。这种设计选择的相关性在图2中显而易见，因为在不允许扣除的情况下，两种掩模都无法构建。

3.3. Mask Assembly

为了产生实例Mask，我们将原型分支和Mask系数分支的工作结合在一起，使用前者和后者作为系数的线性组合。然后，我们通过S型非线性来生成最终的Mask。使用单矩阵乘法和S形可以有效地实现这些运算： $M=S(PC^{T}),S为sigmoid激活函数$ 。其中P是原型掩模的h x w x k矩阵，C是n个幸存的NMS和得分阈值实例的掩模系数的n x k矩阵。其他更复杂的组合步骤也是可能的。但是，我们通过基本的线性组合使其保持简单（快速）。

LOSS 我们使用三种损失来训练模型：分类损失Lcls，框回归损失Lbox和Mask Loss(Lmask)，权重分别为1、1.5和6.125的。 Lcls和Lbox的定义方法与[30]中相同。然后，要计算Mask Loss，我们只需简单地获取已组装mask M与真实Mask $M_{gt}$ 之间的像素级二进制交叉熵： $L_{mask} = BCE（M,M_{gt}）$

Cropping Masks 我们在评估过程中使用预测的边界框裁剪最终Mask。在训练过程中，我们改用地面实况边界框进行裁剪，然后将Lmask除以真实边界框区域，以保留原型中的小对象。

3.4. Emergent Behavior

我们的方法似乎令人惊讶，因为围绕实例分割的普遍共识是，由于FCN是平移不变的，因此该任务需要在[24]中添加平移差异。因此，诸如FCIS [24]和Mask R-CNN [18]之类的方法尝试显式添加平移方差，无论是通过方向图和位置敏感的重现，还是通过将mask分支置于第二阶段，因此都不必处理本地化实例。在我们的方法中，我们添加的唯一平移方差是使用预测的边界框裁剪最终的Mask。但是，我们发现我们的方法也无需裁剪就可以处理大中型对象，因此这不是裁剪的结果。相反，YOLACT学习如何通过其原型中的不同激活来自行对实例进行本地化。

…

4. Backbone Detector

对于我们的骨干检测器，我们优先考虑速度和功能丰富性，因为预测这些原型和系数是一项艰巨的任务，需要良好的功能才能做好。因此，我们的骨干探测器的设计紧跟RetinaNet [27]，并着重于速度。

YOLACTDetector **我们使用ResNet-101 [19]和FPN [26]作为默认特征主干，并且基本图像尺寸为550x550。**为了获得一致的评估时间，我们不保留纵横比。像RetinaNet一样，我们通过不生成P2以及不生成P6和P7来修改FPN，从P5（不是C5）开始连续3x3,步长为2转换层，并放置3个宽高比为[1，1/2 , 2]。 P3的锚点的面积为24像素平方，并且每个后续层的大小都是前一个的两倍（结果为[24; 48; 96; 192; 384]）。对于每个Pi附加的预测头，我们三个分支共享一个3x3 conv，然后每个分支并行获得自己的3x3 conv。与RetinaNet相比，我们的预测头设计（参见图4）更轻巧，更快。我们将平滑L1损失应用于训练盒回归器，并以与SSD [30]相同的方式对盒回归坐标进行编码。为了训练班级预测，我们使用带有c个正标记和1个背景标记的softmax交叉熵，使用OHEM [39]以3：1 neg：pos的比率选择训练示例。因此，与RetinaNet不同，我们不使用Focal loss，我们发现这种在我们的情况下不可行。

通过这些设计选择，我们发现该主干网比具有相同镜像大小的修改为使用ResNet-101 [19]的SSD [30]更好和更快。

5. Other Improvements

我们还将讨论其他改进，这些改进要么提高速度而对性能几乎没有影响，要么提高性能而没有速度损失。

快速NMS在为每个锚点生成边界框回归系数和类置信度之后，像大多数对象检测器一样，我们执行NMS来抑制重复检测。在许多先前的工作[35、36、30、37、18、27]中，NMS是按顺序执行的。也就是说，对于数据集中的每个c类，对检测到的框按置信度降序进行排序，然后对于每个检测，删除所有置信度比其低且IoU重叠大于某个阈值的框。尽管此顺序方法在大约5 fps的速度下足够快，但它却成为获取30 fps的障碍。例如，以5 fps的速度提高10毫秒可提高0.26 fps，而以30 fps的速度提高10毫秒则可提高12.9 fps。

为了解决传统NMS的顺序性问题，我们引入了Fast NMS，它是NMS的一种版本，可以确定每个实例并行保留还是丢弃。为此，我们只允许已经删除的检测来抑制其他检测，这在传统NMS中是不可能的。这种放松使我们能够完全在标准GPU加速矩阵操作中实施Fast NMS。

由于放松，快速NMS的作用是删除过多的盒子。但是，与速度的急剧提高相比，由此造成的性能下降可以忽略不计（参见表2a）。在我们的代码库中，快速NMS比传统NMS的Cython实现快11.8毫秒，而性能仅降低0.1mAP。在Mask R-CNN基准套件[18]中，快速NMS比其传统NMS的CUDA实施快15.0 ms，而性能损失仅为0.3 mAP。

Semantic Segmentation Loss 尽管Fast NMS牺牲了少量的性能以提高速度，但仍有许多方法可以提高性能而不会降低速度。其中一种方法是在训练期间使用未在测试时执行的模块对模型施加额外的损失。这有效地增加了功能丰富性，而没有速度损失。

因此，我们使用仅在训练期间评估的图层将语义分割损失应用于特征空间。请注意，由于我们是通过实例注释来构造这种损失的基本事实，因此这不能严格捕获语义分段（即，我们不对每个像素强制执行标准的一类）。要在训练期间创建预测，我们只需将带有c个输出通道的1x1转换层直接附加到骨干网中最大的特征图（P3）。由于每个像素可以分配给多个类别，因此我们使用S形和c通道，而不是softmax和c +1。此损耗的权重为1，导致+0：4 mAP增强。

6. Results

我们使用标准指标在MS COCO [28]和Pascal 2012 SBD [16]上报告实例分割结果。对于MS COCO，我们在train2017上进行训练，并在val2017和test-dev上进行评估。

Implementation Details 我们使用ImageNet [10]预训练权重在一个GPU上训练了批处理大小为8的所有模型。我们发现这是足够的批处理大小，可以使用批处理规范，因此我们不冻结预训练的批处理规范，但不添加任何额外的bn 层。我们使用SGD进行了800k迭代训练，初始学习率为10e-3，然后在280k，600k，700k和750k迭代中除以10，使用了5x10e-4的权重衰减，0.9的动量以及所有 SSD中使用的数据增强[30]。对于Pascal，我们训练了12万次迭代，并将学习率除以60k和100k。随着目标趋于更大，我们还将锚定比例乘以4/3。一台Titan Xp在COCO数据集上训练需要4-6天（取决于配置），而在Pascal上则需要不到1天的。

我们还在表1中其他可选模型。除了基本的550 x 550图像尺寸模型之外，我们还训练了400 x 400（YOLACT-400）和700 x 700（YOLACT-700）模型，并相应地调整了锚点比例（sx = s550 / 550 x）。 减小图像大小会导致性能大幅下降，这表明实例分割自然需要更大的图像。然后，如预期的那样，增大图像大小会显着降低速度，但也会提高性能。

Mask Results 我们首先将YOLACT与表1中MS COCO的测试开发集上的最新方法进行比较。由于我们的主要目标是速度，因此我们将其与没有测试时间增加的其他单个模型结果进行了比较。我们报告所有在单个Titan Xp上计算的速度，因此列出的某些速度可能比原始论文中的速度更快。

除了ResNet-101 [19]的基本骨干之外，我们还测试了ResNet-50和DarkNet-53 [36]，以获得更快的结果。如果更高的速度是可取的，我们建议使用ResNet-50或DarkNet-53而不是减小图像图像的大小，因为这些配置的性能比YOLACT-400好得多，而速度却稍慢一些。最后，我们还在表3中针对Pascal 2012 SBD训练和评估了ResNet-50模型。YOLACT明显优于报告SBD性能的流行方法，而且速度明显更快。

Mask Quality 因为我们生成的最终Mask的尺寸为138 x 138，并且因为我们直接从原始特征创建了Mask（没有进行重新合并以转换和潜在地错位特征），所以用于大型目标的Mask的质量明显高于Mask R-CNN [18]和FCIS [24]。例如，在图7中，YOLACT产生了一个清晰地沿着手臂边界的Mask，而FCIS和Mask R-CNN都具有更多的噪音。此外，尽管总体情况下差了5.9 mAP，但在95％IoU阈值的情况下，我们的基本模型仍达到了1.6 AP，而Mask R-CNN获得了1.3 AP。这表明repooling确实会导致掩模质量的量化下降。\

Temporal Stability 尽管我们仅使用静态图像进行训练，而未应用任何时间平滑，但我们发现，与Mask R-CNN相比，即使对象静止不动，其模型也会在帧之间抖动，因此我们的模型在视频上产生的时间稳定性更高。我们认为我们的掩码更稳定，部分是因为它们的质量更高（因此帧之间的误差空间较小），但主要是因为我们的模型是单阶段的。采用两阶段方法生产的掩码在第一阶段高度依赖于其区域建议。与我们的方法相反，即使模型在帧中预测不同的盒子，原型也不会受到影响，从而产生了时间上更稳定的掩码。

7. Discussion

尽管我们的掩码质量更高，并且具有诸如时间稳定性之类的良好属性，但我们在整体性能方面仍落后于最新的实例分割方法，尽管速度要快得多。大多数错误是由检测器中的错误引起的：分类错误，盒子未对准等。但是，我们已经确定了两种典型的错误，这些错误是由YOLACT的掩模生成算法引起的。

Localization Failure 如果场景中一个点的对象太多，则网络可能无法在其自己的原型中定位每个对象。在这些情况下，网络将输出比组中某些对象的实例分割更接近前景Mask的内容。例如，在图6的第一张图片（第1行第1列）中，红色飞机下方的蓝色卡车未正确定位。

Leakage 我们的网络利用了在组装后对掩码进行裁剪的事实，并且没有试图抑制裁剪区域之外的噪声。当边界框准确时，此方法效果很好，但如果边界框不正确，则噪声可能会渗入实例掩码中，从而从裁剪区域的外部产生一些“泄漏”。当两个实例彼此相距很远时，也会发生这种情况，因为网络已了解到它不需要对很远的实例进行定位-裁剪会照顾好它。但是，如果预测的边界框太大，则掩码也将包含某些远处实例的掩码。例如，图6（第2行第4列）显示了这种泄漏，因为面罩分支认为这三个滑雪者的距离足够远，不必将它们分开。

Understanding the AP Gap仅定位失败和泄漏不足以解释YOLACT基本模型与Mask R-CNN之间的近6 mAP差距。确实，我们基于COCO的基础模型的测试开发掩码与框mAP（29.8蒙版，32.3框）之间只有2.5 mAP的差异，这意味着即使使用完美的Mask，我们的基础模型也只能获得几分mAP。此外，Mask R-CNN具有相同的mAP差异（35.7 mask，38.2 box），这表明这两种方法之间的差距在于检测器性能相对较差，而不是我们生成mask的方法。

霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
Halcon学习之select_shape（）算子参数介绍
一、算子介绍select_shape()是HALCON中用于基于形状特征筛选区域的关键算子，广泛应用于图像分割、目标检测和工业质检等领域。它允许用户根据指定的几何特征从输入区域集合中选择符合条件的区域。至于为什么单独介绍这个算子呢，因为他筛选特征的方式有太多种了，如果可以熟练的掌握这些特征，那在后面的例程学习以及实际应用中，可谓是得心应手了。二、算子参数select_shape(Regions:S
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D