视频切割器:令人惊讶的简单无监督视频实例分割
https://arxiv.org/abs/2308.14710
无监督视频实例分割的现有方法通常依赖于运动估计并且经历跟踪小的或发散的运动的困难。我们提出了VideoCutLER,这是一种简单的无监督多实例视频分割方法,无需使用基于运动的学习信号,如光流或自然视频训练。我们的关键见解是,使用高质量的伪掩码和简单的视频合成方法进行模型训练是令人惊讶的足以使所得视频模型有效地分割和跟踪跨视频帧的多个实例。我们在具有挑战性的YouTubeVIS-2019基准测试上展示了第一个有竞争力的无监督学习结果,实现了50.7%的APvideo 1,大大超过了之前的最先进水平。VideoCutLER还可以作为监督视频实例分割任务的强大预训练模型,在APvideo方面,在YouTubeVIS-2019上超过DINO 15.9%。
点云分割中领域自适应的组合语义混合算法
https://arxiv.org/abs/2308.14619
用于3D点云语义分割的深度学习模型在使用不同传感器捕获的数据或由于域移位而在不同环境中进行训练和测试时表现出有限的泛化能力。可以采用域自适应方法来减轻这种域偏移,例如,通过模拟传感器噪声、开发域不可知生成器或训练点云完成网络。通常,这些方法是针对范围视图地图定制的,或者需要多模态输入。相比之下,图像域中的域自适应可以通过样本混合来执行,这强调输入数据操纵而不是采用不同的自适应模块。在这项研究中,我们介绍了组合语义混合的点云域适应,代表第一个无监督域适应技术的基础上的语义和几何样本混合的点云分割。我们提出了一个双分支对称网络架构,能够同时处理来自源域的点云(例如:合成的)和来自目标域(例如,真实世界)。每个分支通过集成来自另一个域的所选数据片段并利用从源标签和目标(伪)标签导出的语义信息来在一个域内操作。此外,我们的方法可以利用有限数量的人类点级注释(半监督),以进一步提高性能。我们使用LiDAR数据集在合成到真实和真实到真实场景中评估了我们的方法,并证明它在无监督和半监督设置中显著优于最先进的方法。
基于文本监督的参考图像分割
https://arxiv.org/abs/2308.14575
现有的参考图像分割(RIS)方法通常需要昂贵的像素级或框级注释来进行监督。在本文中,我们观察到,在RIS中使用的参考文本已经提供了足够的信息,以本地化的目标对象。因此,我们提出了一种新的弱监督RIS框架制定的目标定位问题作为一个分类过程,以区分积极和消极的文本表达。当图像的引用文本表达被用作肯定表达时,来自其他图像的引用文本表达可以被用作该图像的否定表达。我们的框架有三个主要的新颖之处。首先,我们提出了一个双边提示的方法,以促进分类过程中,通过协调视觉和语言特征之间的域差异。其次,我们提出了一种校准方法,以减少嘈杂的背景信息,提高目标物体定位的响应图的正确性。第三,我们提出了一个积极的响应图选择策略,从增强的响应图生成高质量的伪标签,用于训练RIS推理的分割网络。对于评估,我们提出了一个新的度量来衡量定位精度。四个基准测试的实验表明,我们的框架实现了有前途的表现,现有的全监督RIS方法,同时优于国家的最先进的弱监督方法,适应相关领域。代码可在https://github.com/fawnliu/TRIS上获得。
半监督学习在视觉鸟瞰语义分割中的应用
https://arxiv.org/abs/2308.14525
视觉鸟瞰图(BEV)语义分割帮助自动驾驶车辆仅从图像理解周围环境,包括静态元素(例如,道路)和动态元素(例如,车辆、行人)。然而,全监督方法的注释过程的高成本限制了视觉BEV语义分割的能力,其通常需要HD图、3D对象边界框和相机外部矩阵。在本文中,我们提出了一种新的半监督框架,用于视觉BEV语义分割,以提高性能,在训练过程中利用未标记的图像。然后提出了一种充分利用未标记数据的一致性损失,不仅限制了模型的语义预测,而且限制了BEV特征。此外,我们提出了一种新的和有效的数据增强方法命名为联合旋转,合理地增加数据集,同时保持前视图图像和BEV语义分割之间的几何关系。在nuScenes和Argoverse数据集上的大量实验表明,我们的半监督框架可以有效地提高预测精度。据我们所知,这是探索使用未标记数据改进视觉BEV语义分割性能的第一项工作。该代码将公开提供。
基于骨架的动作分割潜在动作合成方法–Lac
https://arxiv.org/abs/2308.14500
基于骨架的动作分割需要识别未修剪视频中的可组合动作。目前的方法解耦这个问题,首先提取局部视觉特征的骨架序列,然后处理它们的时间模型分类帧的行动。然而,他们的表现仍然有限的视觉功能不能充分表达组合的行动。在这种情况下,我们提出了潜在的行动组成(LAC),一种新的自我监督的框架,旨在学习合成的可组合运动的骨架为基础的动作分割。LAC由一个新的生成模块组成,用于合成新的序列。具体来说,我们设计了一个线性的潜在空间中的生成器来表示原始运动。通过简单地对多个输入骨架序列的潜在表示执行算术运算,可以合成新的合成运动。LAC利用这样的合成序列,其具有很大的多样性和复杂性,用于通过对比学习来学习序列和帧空间中的骨架的视觉表示。由此产生的视觉编码器具有很高的表达能力,可以有效地转移到行动分割任务的端到端的微调,而不需要额外的时间模型。我们进行了一项专注于迁移学习的研究,我们表明,从预先训练的LAC中学习到的表示在TSU,Charades,PKU-MMD数据集上的表现远远优于最先进的表示。
ExpCLIP:通过语义对齐连接文本和面部表情
https://arxiv.org/abs/2308.14448
语言驱动的面部动画的目标是创建包含特定情感表达的动画。现有方法通常依赖于预先建立的情感标签或面部表情模板,这可能限制准确传达用户意图的必要灵活性。在这项研究中,我们介绍了一种技术,使控制任意风格,利用自然语言作为情感提示。该技术在灵活性和用户友好性方面呈现出益处。为了实现这一目标,我们首先构建了一个文本-表情对齐数据集(TEAD),其中每个面部表情都与几个类似提示的描述配对。我们提出了一种创新的自动标注方法,支持大语言模型(LLM),以加快数据集的构建,从而消除了大量的人工标注费用。在此之后,我们利用TEAD来训练一个基于CLIP的模型,称为ExpCLIP,它将文本和面部表情编码成语义对齐的样式嵌入。嵌入随后被集成到面部动画生成器中,以产生富有表现力和可控的面部动画。鉴于现有的语音驱动的面部动画训练数据中面部情绪的有限多样性,我们进一步引入了一种有效的表情提示增强(EPA)机制,使动画生成器能够支持前所未有的丰富风格控制。综合实验表明,我们的方法完成富有表情的面部动画生成,并提供了增强的灵活性,有效地传达所需的风格。
用于孟加拉文档版面分割的无锚点模型集成
https://arxiv.org/abs/2308.14397
在本研究论文中,我们提出了一个创新的系统,目的是分割孟加拉文文件的布局。我们的方法涉及利用YOLOv 8模型的复杂集合,精心适应DL Sprint 2.0 - BUET CSE Fest 2023竞赛,该竞赛以孟加拉语文档布局分割为中心。我们的主要重点在于提升任务的各种元素,包括图像增强,模型架构和模型集成的使用等技术。我们有意降低文档图像子集的质量,以增强模型训练的弹性,从而提高交叉验证分数。采用贝叶斯优化,我们确定我们的模型集成的最佳置信度和IoU阈值。通过我们的方法,我们成功地展示了合并无锚模型的有效性,以实现强大的布局分割孟加拉文文档。
第五届LSVOS挑战赛第一名:视频实例分割
https://arxiv.org/abs/2308.14392
视频实例分割是一项具有挑战性的任务,它是许多下游应用的基石,包括视频编辑和自动驾驶。在这份报告中,我们提出了进一步的改进SOTA VIS方法,DVIS。首先,我们为可训练跟踪器引入了一种去噪训练策略,使其能够在复杂和长视频中实现更稳定和准确的对象跟踪。此外,我们探讨了视觉基础模型在视频实例分割中的作用。通过使用DINO v2预训练的冻结VIT-L模型,DVIS表现出显着的性能改进。通过这些增强,我们的方法在开发和测试阶段分别达到57.9 AP和56.0 AP,并最终在第五届LSVOS挑战赛的VIS赛道中排名第一。该代码将在https://github.com/zhang-tao-whu/DVIS上获得。
基于图像到点云显著转移的注意力制导激光雷达分割和里程测量
https://arxiv.org/abs/2308.14332
LiDAR里程估计和3D语义分割是自动驾驶的关键,最近取得了显着的进展。然而,这些任务是具有挑战性的,由于点在不同的语义类别的3D语义分割和动态对象的影响,激光雷达测距估计,这增加了使用代表性/显着的地标作为参考点的鲁棒特征学习的重要性的不平衡。为了解决这些挑战,我们提出了一种显着性引导的方法,利用注意力信息来提高LiDAR测距估计和语义分割模型的性能。与图像域不同,由于缺乏带注释的训练数据,只有少数研究解决了点云显着性信息。为了缓解这一点,我们首先提出了一个通用的框架,将显着性分布知识从彩色图像转移到点云,并使用它来构建伪显着性数据集(即FordSaliency)用于点云。然后,我们采用基于点云的主干从伪显着性标签学习显着性分布,然后是我们提出的SalLiDAR模块。SalLiDAR是一种显著性引导的3D语义分割模型,它集成了显著性信息以提高分割性能。最后,我们介绍了SalLONet,这是一个自监督的显着性引导的LiDAR里程计网络,它使用SalLiDAR的语义和显着性预测来实现更好的里程计估计。我们在基准数据集上的大量实验表明,所提出的SalLiDAR和SalLONet模型与现有方法相比具有最先进的性能,突出了图像到LiDAR显着性知识转移的有效性。源代码将在https://github.com/nevrez/SalLONet上提供。
无源域自适应医学图像分割的局部-全局伪标签校正
https://arxiv.org/abs/2308.14312
域偏移是医学成像解决方案中经常遇到的问题,主要由成像设备和数据源的变化引起。为了缓解这个问题,已经采用了无监督域自适应技术。然而,关于患者隐私和潜在的图像质量下降的担忧已经导致对无源域适应的关注增加。在这项研究中,我们解决的问题,假标签的自训练为基础的无源域自适应医学图像分割方法。为了纠正错误的伪标签,我们提出了一种新的方法,称为局部-全局伪标签校正(LGDA)方法的无源域自适应医学图像分割。我们的方法由两部分组成:一种离线基于局部上下文的伪标签校正方法,其利用图像空间中的局部上下文相似性。提出了一种基于类原型的在线全局伪标签校正方法,该方法通过考虑像素级特征向量与类原型向量之间的相对距离来校正错误预测的伪标签。我们评估了我们的方法的三个基准眼底图像数据集的视盘和杯分割的性能。我们的方法实现了优越的性能相比,国家的最先进的方法,即使不使用任何源数据。
基于少数样本微调SAM的医学图像分割的廉价午餐
https://arxiv.org/abs/2308.14133
Segment Anything Model(SAM)已经展示了扩展分割模型的卓越功能,可以在各种领域实现zero-shot泛化。通过利用大规模基础模型作为预训练模型,可以自然地对特定领域的SAM进行微调,以进一步提高性能。然而,在医疗领域中采用基础模型提出了一个挑战,由于标记足够的数据,以适应医院系统内的困难和费用。在本文中,我们介绍了一种高效和实用的方法微调SAM使用有限数量的样本,使其适合这种情况。我们的方法结合了文献中的两种已建立的技术:一个范例引导的合成模块和广泛认可的低秩自适应(LoRA)微调策略,分别作为数据级和模型级的尝试。有趣的是,我们的实证研究结果表明,SAM可以有效地在医学领域内对齐,即使很少的标记数据。我们通过脑肿瘤分割(BraTS)和多器官CT分割(Synapse)的实验验证了我们的方法。综合结果强调了这种方法的可行性和有效性,为SAM在医学领域的实际应用铺平了道路。
内窥镜场景中连续语义分割的样本反思:基于熵的小批量伪重放
https://arxiv.org/abs/2308.14100
内窥镜检查是用于疾病的早期检测或机器人辅助微创手术(RMIS)的广泛使用的技术。已经开发了许多基于深度学习(DL)的研究工作用于内窥镜视图的自动诊断或处理。然而,现有的DL模型可能遭受灾难性遗忘。随着时间的推移或跨机构引入新的目标类时,旧类的性能可能会严重下降。更严重的是,数据隐私和存储问题可能导致更新模型时旧数据不可用。因此,有必要开发一种持续学习(CL)方法来解决内窥镜图像分割中的灾难性遗忘问题。为了解决这个问题,我们提出了一个内窥镜连续语义分割(EndoCSS)框架,不涉及样本数据的存储和隐私问题。该框架包括一个小批量伪重放(MB-PR)机制和一个自适应噪声交叉熵(SAN-CE)损失。MB-PR策略通过生成模型生成伪重放图像来规避隐私和存储问题。同时,MB-PR策略还可以修正由于当前和回放图像数量的显著差异而引起的模型偏差。因此,该模型可以执行有效的表示学习新旧任务。SAN-CE损失可以通过调整模型的输出logits来帮助模型拟合,并且还可以提高训练的鲁棒性。在公共数据集上进行的大量连续语义分割(CSS)实验表明,该方法能够鲁棒有效地解决内窥镜场景中类增量带来的灾难性遗忘问题。结果表明,我们的框架具有很好的潜力,在现实世界中的部署流学习的方式。
基于AI的分割增强血迹分析:利用Segment Anything模型进行犯罪现场调查
https://arxiv.org/abs/2308.13979
血迹模式分析在犯罪现场调查中起着至关重要的作用,通过对独特的血迹模式的研究提供有价值的信息。传统的图像分析方法,如阈值和对比度,对图像背景提出严格的要求,并且在液滴图像分割的上下文中是劳动密集型的。分割任意模型(SAM),最近提出的广泛的图像识别方法,尚未充分评估其准确性和效率的血迹图像分割。本文探讨了预训练SAM和微调SAM在不同背景下的血迹图像分割中的应用。实验结果表明,经过预训练和微调的SAM都能以令人满意的精度和效率完成血迹图像的分割任务,而微调的SAM比预训练的SAM在准确率上提高了2.2%,在图像识别速度上提高了4.70%.分析了影响血迹识别的因素。本研究展示了SAM在血迹图像分割中的潜在应用,展示了人工智能在犯罪学研究中的有效性。我们在\url{https://github.com/Zdong104/Bloodstain_Analysis_Ai_Tool}发布了所有代码和演示
基于边缘上下文信息的半监督语义切分
https://arxiv.org/abs/2308.13900
我们提出了一种新的置信度细化方案,增强伪标签在半监督语义分割。与当前领先的方法,过滤像素与低置信度预测隔离,我们的方法利用空间相关性的标签分割图分组相邻像素和考虑他们的伪标签。有了这种上下文信息,我们的方法,命名为S4MC,增加了训练期间使用的未标记数据的量,同时保持伪标签的质量,所有这些都具有可忽略的计算开销。通过对标准基准测试的广泛实验,我们证明,S4MC优于现有的最先进的半监督学习方法,提供了一个有前途的解决方案,以降低成本获取密集注释。例如,S4MC在具有366幅注释图像的PASCAL VOC 12上实现了1.29mIoU的改进。复制我们实验的代码可在https://s4mcontext.github.io/上获得
超越一对一:对指代图像分割的再思考
https://arxiv.org/abs/2308.13853
引用图像分割的目的是分割自然语言表达所引用的目标对象。然而,以前的方法依赖于一个句子必须描述图像中的一个目标的强假设,这在现实世界的应用中通常不是这样的。因此,当表达式引用不对象或引用多个对象时,此类方法将失败。在本文中,我们从两个角度来解决这个问题。首先,我们提出了一个双多模交互(DMMI)网络,它包含两个解码器分支,并使信息流在两个方向。在文本到图像解码器中,利用文本嵌入来查询视觉特征并定位相应的目标。同时,实现了图像到文本解码器,以重构被擦除的实体短语的视觉特征。通过这种方式,视觉特征被鼓励包含关于目标实体的关键语义信息,这反过来支持在文本到图像解码器中的准确分割。其次,我们收集了一个新的具有挑战性但现实的数据集,称为Ref-ZOM,其中包括不同设置下的图像-文本对。大量的实验表明,我们的方法在不同的数据集上实现了最先进的性能,Ref-ZOM训练模型在各种类型的文本输入上表现良好。代码和数据集见https://github.com/toggle1995/RIS-DMMI。
SamDSK:结合Segment Anything模型和特定领域知识的医学图像分割半监督学习
https://arxiv.org/abs/2308.13759
段任何模型(SAM)表现出分割自然图像中的各种对象的能力,作为各种下游图像分割任务的通用感知工具。相比之下,医学图像分割任务通常依赖于特定领域知识(DSK)。在本文中,我们提出了一种新的方法,该方法结合了分割基础模型(即,SAM),用于在构建医学图像分割模型时可靠地利用未标记图像。我们的新方法是迭代的,包括两个主要阶段:(1)分割模型训练;(2)通过使用训练的分割模型、未标记集合、SAM和领域特定知识来扩展标记集合。重复这两个阶段,直到没有更多的样本被添加到标记的集合。开发了一种新的基于最佳匹配的方法,用于将SAM生成的分割建议与像素级和图像级DSK相结合,以在迭代阶段(2)中构建未标记图像的注释。在实验中,我们证明了我们所提出的方法的有效性,在超声图像中的乳腺癌分割,息肉内窥镜图像分割,皮肤病变皮肤镜图像分割。我们的工作开创了医学图像分割半监督学习的新方向:分割基础模型可以被利用为用于医学图像分割中的标签有效分割学习的有价值的工具。
PE-MED:交互式医学图像分割的快速增强
https://arxiv.org/abs/2308.13746
交互式医学图像分割是指通过交互(例如,点击)。近年来,它已被广泛研究,因为它不太依赖于丰富的注释数据,并且比全自动分割更灵活。然而,当前的研究尚未完全探索用户提供的提示信息(例如,点),包括在一个交互中挖掘的知识,以及多个交互之间的关系。因此,在本文中,我们介绍了一种新的框架,配备了及时增强,称为PE-MED,交互式医学图像分割。首先,我们引入了一个自循环策略来生成温暖的初始分割结果的基础上的第一个提示。它可以防止非常不利的情况,例如在第一次交互后遇到空白掩码作为初始输入。其次,我们提出了一个新的提示注意学习模块(PALM)挖掘有用的提示信息在一个互动,提高网络的响应用户点击。最后,我们建立了一个时间序列信息传播(TSIP)机制,以提取多个相互作用之间的时间关系,提高模型的稳定性。与其他国家的最先进的(SOTA)的医学图像分割算法的比较实验表明,我们的方法具有更好的分割精度和稳定性。
VesselShott:用于脑血管分割的Few-Shot学习
https://arxiv.org/abs/2308.14626
血管造影术广泛用于检测、诊断和治疗脑血管疾病。虽然已经提出了许多技术来从不同的成像模式分割血管网络,但深度学习(DL)已经成为一种有前途的方法。然而,现有的DL方法通常依赖于专有数据集和大量的手动注释。此外,专门用于医疗领域和3D体积的预训练网络的可用性是有限的。为了克服这些挑战,我们提出了一种称为VesselShot的脑血管分割的Few-Shot学习方法。VesselShot利用了来自一些注释支持图像的知识,并减轻了标记数据的稀缺性和对脑血管分割中的广泛注释的需求。我们使用公开可用的TubeTK数据集评估了VesselShot的分割任务性能,实现了0.62(0.03)的平均Dice系数(DC)。
ReFuSeg:用于脑肿瘤精确分割的正则化多模式融合
https://arxiv.org/abs/2308.13883
脑肿瘤的语义分割是医学图像分析中的一项基本任务,可以帮助临床医生诊断患者并跟踪任何恶性实体的进展。脑病变的准确分割对于医学诊断和治疗计划是必不可少的。然而,无法获取特定的MRI成像模式可能会阻止应用程序在关键情况下运行,从而引发对其可靠性和整体可信度的担忧。本文提出了一种新的多模态脑病变分割方法,利用四种不同的成像模式的信息,同时对现实世界中的缺失模式,如T1,T1c,T2和FLAIR MRI的大脑是强大的。我们提出的方法可以帮助解决由于数据采集错误(如患者运动)或重建算法无法表示解剖结构,同时确保在准确性的权衡在医学图像中的伪影所带来的挑战。我们提出的正则化模块使其对这些场景具有鲁棒性,并确保了病变分割的可靠性。
FFPN:傅里叶特征金字塔网络用于超声图像分割
https://arxiv.org/abs/2308.13790
超声(US)图像分割是一个活跃的研究领域,在许多场景中需要实时和高度准确的分析。最近已经提出了检测到分段(DTS)框架来平衡准确性和效率。然而,现有的方法可能遭受不充分的轮廓编码或未能有效地利用编码的结果。在本文中,我们介绍了一种新的傅立叶锚为基础的DTS框架,称为傅立叶特征金字塔网络(FFPN),以解决上述问题。本文的贡献是两方面的。首先,FFPN利用傅立叶描述符来充分编码轮廓。具体地,它将具有相似幅度和频率的傅立叶级数映射到特征图的相同层中,从而有效地利用编码的傅立叶信息。其次,我们提出了一个轮廓采样细化(CSR)模块的基础上的轮廓建议和细化功能的FFPN。该模块提取预测轮廓周围的丰富特征,以进一步捕获详细信息并细化轮廓。在三个大型且具有挑战性的数据集上进行的大量实验结果表明,我们的方法在准确性和效率方面优于其他DTS方法。此外,我们的框架可以很好地推广到其他检测或分割任务。
50 ↩︎