在计算机视觉领域,基于Transformer架构的视觉基础模型(Vision Foundation Models,VFMs)取得了显著的进展,不仅在性能上有所提升,而且在泛化能力上也有所增强。其中,Segment Anything Model(SAM)作为一种通用的分割模型,展现出了其在泛化分割任务上的能力。然而,大多数VFMs无法实现实时运行,这限制了它们在多个产品中的应用。另一方面,当前的实时分割主要针对单一目的,例如驾驶场景的语义分割。在实际应用中,多样化的输出需求日益增长。因此,本研究探索了一种新的实时分割设置,即实时全能分割(All-purpose Segmentation in Real-time),旨在将VFMs实时部署。该设置包含交互式分割、全景分割和视频分割三种不同任务,我们的目标是使用一个模型实时完成上述任务。本文提出了一种高效的编码器和解码器,通过提示驱动解码(prompt-driven decoding)来实现这一目标,并进一步探索了不同的训练策略和调优方法,以进一步提升联合训练的性能。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
神奇口令: 小瑶读者 (前100位有效)
1. 论文标题、机构、论文链接和项目地址
2. RAP-SAM模型简介
RAP-SAM(Real-Time All-Purpose Segment Anything Model)是一个实时全能分割模型,它包含一个高效的编码器和一个解耦的解码器,用于执行提示驱动的解码。RAP-SAM的设计避免了以往工作中使用的级联架构,并且在执行动态卷积时只使用一次金字塔特征。通过大量实验,采用基于池化的动态卷积替代逐像素交叉注意力,以实现更好的准确性和速度权衡。
3. 主要贡献点概述
1. 现有视觉基础模型的局限性
在计算机视觉领域,尽管基于Transformer架构的视觉基础模型(VFMs)在性能和泛化能力上取得了显著进步,但大多数模型无法实时运行,这限制了它们在实际视觉应用中的可用性。例如,Segment Anything Model (SAM) 是一个通用的分割模型,但其重型编码器和级联解码器的设计使得它难以与移动设备兼容。
2. 实时全能分割的定义与应用场景
实时全能分割是一种新的实时分割设置,旨在将VFMs实时部署。它包括三种不同的任务:交互式分割、全景分割和视频分割。目标是使用一个模型在实时内完成上述任务。然而,目前的研究主要集中在单一应用目的的实时分割上,如自动驾驶场景的语义分割,而没有研究能够执行通用分割任务的模型。
3. 研究问题的提出
鉴于计算资源和模型容量的限制,如何开发一个高效的全能分割模型成为一个关键问题。这涉及到创建一个能够实时对每个像素进行分割、跟踪和分类的单一模型,类似于执行SAM类似的交互式分割。
1. 整体架构与输入输出
RAP-SAM是一个简单的编码器和解码器架构,包括一个轻量级的特征提取器、一个统一的动态卷积解码器和两个轻量级解耦适配器。它接受图像、视频和视觉提示作为输入,并输出相应的掩码、标签和实例ID。
2. 轻量化特征提取器
为了限制计算成本,RAP-SAM探索了轻量级的骨干网络,包括ResNet18、STDC-v1和SeaFormer。它采用具有可变形卷积的特征金字塔网络来融合多尺度特征,并获得更对齐的特征表示。
3. 统一动态卷积解码器
与依赖于重型级联层和逐像素交叉注意力机制的方法不同,RAP-SAM采用基于池化的动态卷积框架来提高解码器的效率。解码器的目标是细化对象查询,通过多层感知器(MLP)生成门控参数,并将其反馈到原始查询输入中。
4. 轻量级解耦适配器
在共享解码器之后,RAP-SAM还添加了两个轻量级适配器,Aobj和Aprompt,以更好地适应共享解码器的知识。特别是,它们采用了不对称的设计,Aobj使用相同的动态卷积设计进一步细化对象查询,而Aprompt使用逐像素交叉注意力设计。
1. 联合图像与视频分割共同训练
在RAP-SAM模型的训练过程中,目标是通过联合训练来处理图像和视频分割任务。这种方法旨在使用单一模型同时实现多种分割任务,包括交互式分割、全景分割和视频分割。为了实现这一点,研究者们采用了COCO和YouTube-VIS 2019数据集进行联合训练,并使用相同的超参数。此外,除了用于语义级分割的语义查询外,还引入了SAM中的视觉提示查询以进行交互式分割。训练目标是为所有三种不同情况的实体标签和掩码提供一个实体。实体可以是物体、材质、类别不明确的掩码及其对应的标签。在训练期间,通过匈牙利匹配算法将预测的实体掩码与真实的视频/图像实体掩码进行匹配,然后监督它们的预测掩码和分类。
2. 损失函数与优化器选择
RAP-SAM的损失函数是由多个部分组成的,包括掩码分类的交叉熵(CE)损失、掩码交叉熵(CE)损失和Dice损失。这些损失函数的组合有助于模型在各种分割任务上的性能优化。在实验中,默认设置了损失函数的权重参数,例如λcls = 2, λce = 5, λdice = 5。此外,为了避免跨数据集分类冲突,分类器被CLIP文本嵌入所替代。
1. 基准测试与RAP-SAM性能对比
在实验中,RAP-SAM在提出的基准测试中表现出了最佳的速度和准确性权衡。与Mask2Former等非实时模型相比,RAP-SAM在速度上有显著优势,同时在准确性上也有可比的表现。此外,RAP-SAM在VIP-Seg和ADE-20k数据集上的性能也得到了验证,显示出在更具挑战性的视频分割任务上的有效性。
2. 与特定设计模型在VIP-Seg和ADE-20k数据集上的比较
RAP-SAM在VIP-Seg数据集上的视频全景分割任务中,与最近的工作相比,也展现出了最佳的速度和准确性权衡。在ADE-20k数据集上,RAP-SAM在实时模型中仍然展现出较强的结果。
3. 适配器设计的消融研究
通过对共享解码器设计的消融研究,发现简单的基于池化的动态卷积在实时设置下表现良好。此外,研究者们还探索了元架构设计,发现使用共享解码器架构在参数和性能权衡方面表现最佳。在适配器设计方面,使用不对称适配器对于平衡对象查询和提示查询的结果非常有效,因为两种查询的目标不同。前者需要时空和场景级别的上下文,而后者只关注输入位置指导下的区域上下文。
RAP-SAM(Real-Time All Purpose Segment Anything Model)作为一种新型的实时全能分割模型,展现出了在多任务分割领域的巨大潜力。它不仅能够处理图像和视频的分割任务,还能够进行交互式分割,这一点在实际应用中尤为重要。RAP-SAM通过轻量级的特征提取器和统一的动态卷积解码器,实现了对于图像、视频和交互式输入的有效处理。此外,RAP-SAM的双重适配器设计(对象适配器和提示适配器)进一步优化了模型的性能,使其在速度和准确性之间取得了良好的平衡。
在实际应用中,RAP-SAM的多功能性意味着它可以被部署在各种场景中,如自动驾驶、视频监控、移动设备等,为这些领域提供实时且准确的分割能力。特别是在交互式分割方面,RAP-SAM能够根据用户输入的提示(如点或框)快速生成对应的分割掩码,这对于视频编辑、游戏交互等领域具有重要意义。
尽管RAP-SAM已经取得了显著的成果,但仍有进一步的研究和改进空间。首先,模型的平衡性能可以通过更高效的训练策略和调优方法来进一步提升。例如,探索不同的知识蒸馏方法,以将视觉基础模型(Vision Foundation Models)的能力转移到实时全能模型中。
其次,RAP-SAM目前仅支持点提示,未来可以扩展到更多类型的视觉提示,如框提示或掩码提示,以增强模型的适应性和灵活性。此外,模型的速度可以通过算法优化和硬件加速进一步提高,以满足边缘设备上的部署需求。
最后,RAP-SAM在处理高度重叠的多个对象时存在一定的挑战,未来的研究可以致力于改善模型在复杂场景中的分割能力,特别是在拥挤场景下的表现。
RAP-SAM模型的提出,标志着实时全能分割领域的一个新里程碑。它不仅在速度和准确性上取得了优异的平衡,而且在多任务分割任务上展现了卓越的性能。RAP-SAM的设计理念和架构为未来的研究提供了新的方向,特别是在实时、多功能和交互式分割任务的融合上。随着技术的进一步发展,RAP-SAM及其未来的改进版本有望在各种实际应用中发挥重要作用,推动实时分割技术的发展和应用。
声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。
智能体传送门:赛博马良-AI论文解读达人
神奇口令: 小瑶读者 (前100位有效)