【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 12 日论文合集)

文章目录

  • 一、检测相关(13篇)
    • 1.1 An Effective Two-stage Training Paradigm Detector for Small Dataset
    • 1.2 CitDet: A Benchmark Dataset for Citrus Fruit Detection
    • 1.3 On the detection of Out-Of-Distribution samples in Multiple Instance Learning
    • 1.4 Zero-Shot Co-salient Object Detection Framework
    • 1.5 Collective PV-RCNN: A Novel Fusion Technique using Collective Detections for Enhanced Local LiDAR-Based Perception
    • 1.6 MultIOD: Rehearsal-free Multihead Incremental Object Detector
    • 1.7 Gall Bladder Cancer Detection from US Images with Only Image Level Labels
    • 1.8 A Skeleton-based Approach For Rock Crack Detection Towards A Climbing Robot Application
    • 1.9 Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels
    • 1.10 Timely Fusion of Surround Radar/Lidar for Object Detection in Autonomous Driving Systems
    • 1.11 UnitModule: A Lightweight Joint Image Enhancement Module for Underwater Object Detection
    • 1.12 A Spatial-Temporal Deformable Attention based Framework for Breast Lesion Detection in Videos
    • 1.13 EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras

一、检测相关(13篇)

1.1 An Effective Two-stage Training Paradigm Detector for Small Dataset

一种适用于小数据集的有效两阶段训练范型检测器

https://arxiv.org/abs/2309.05652

从有限数量的标记数据到预训练模型的学习一直被视为一项具有挑战性的任务。在这份报告中,一个有效和强大的解决方案,两阶段训练范式YOLOv 8检测器(TP-YOLOv 8),是为VIPriors Challenge 2023中的物体检测轨道设计的。首先,YOLOv 8的骨干被预训练为使用掩蔽图像建模技术的编码器。然后,探测器被微调与精心的增强。在测试阶段,测试时间增强(TTA)被用来增强每个模型,并实现加权盒融合(WBF)进一步提高性能。通过设计良好的结构,我们的方法在DelftBikes测试集上实现了30.4%的平均精度从0.50到0.95,排名第四。

1.2 CitDet: A Benchmark Dataset for Citrus Fruit Detection

CitDet:柑橘果实检测的基准数据集

https://arxiv.org/abs/2309.05645

在这封信中,我们提出了一个新的数据集,以推进检测柑橘类水果的最新技术水平,并通过成像准确地估计受黄龙病(HLB)在果园环境中影响的树木产量。尽管在解决水果检测问题方面取得了重大进展,但由于缺乏公开可用的数据集,结果的直接比较变得复杂。例如,柑橘检测长期以来一直是农业研究界的兴趣,但缺乏工作,特别是涉及受HLB影响的柑橘的公共数据集。为了解决这个问题,我们增强了国家的最先进的对象检测方法,用于典型的果园设置。具体地说,我们提供了高分辨率的图像,柑橘树位于一个已知的高度受HLB影响的区域,以及高品质的边界框注释的柑橘类水果。树和地面上的果实都被标记以允许识别果实位置,这有助于提高产量估计和通过果实掉落的HLB影响的潜在测量。该数据集由579张高分辨率图像中包含的水果实例的32,000多个边界框注释组成。总之,我们的贡献如下:(i)我们引入了一个新的数据集以及多个当代对象检测算法的基线性能基准,(ii)我们展示了准确捕获树上或地上水果位置的能力,最后(ii)我们提出了我们的结果与产量估计的相关性。

1.3 On the detection of Out-Of-Distribution samples in Multiple Instance Learning

多示例学习中非分布样本的检测方法研究

https://arxiv.org/abs/2309.05528

在现实世界场景中部署机器学习解决方案通常涉及解决分发外(OOD)检测的挑战。虽然在经典的监督设置中致力于OOD检测,但弱监督学习的背景下,特别是多实例学习(MIL)框架,仍然未得到充分探索。在这项研究中,我们解决了这一挑战,适应后组织OOD检测方法的MIL设置,同时引入了一个新的基准,专门设计来评估OOD检测性能弱监督的情况下。基于不同的公共数据集的大量实验没有揭示出一个单一的方法比其他方法有明显的优势。虽然DICE作为整体性能最好的方法出现,但它在一些数据集上表现出显着的缺点,强调了这个尚未充分探索和具有挑战性的主题的复杂性。我们的研究结果揭示了MIL框架下OOD检测的复杂性,强调了开发新颖的,强大的,可靠的方法的重要性,可以有效地推广弱监督的背景下。该论文的代码可在这里获得:https://github.com/loic-lb/OOD_MIL。

1.4 Zero-Shot Co-salient Object Detection Framework

Zero-Shot共显著目标检测框架

https://arxiv.org/abs/2309.05499

共显对象检测(CoSOD)努力复制人类视觉系统识别图像集合内的常见和显着对象的能力。尽管深度学习模型最近取得了进展,但这些模型仍然依赖于使用注释良好的CoSOD数据集进行训练。无训练zero-shot CoSOD框架的探索受到了限制。在本文中,从基础计算机视觉模型的zero-shot传输能力中获得灵感,我们介绍了第一个零拍摄CoSOD框架,该框架利用这些模型而无需任何训练过程。为了实现这一点,我们在我们提出的框架中引入了两个新组件:组提示生成(GPG)模块和共显著图生成(CMP)模块。我们评估了广泛使用的数据集框架的性能,并观察到令人印象深刻的结果。我们的方法超越了现有的无监督方法,甚至超过了2020年之前开发的全监督方法,同时与2022年之前开发的一些全监督方法保持竞争力。

1.5 Collective PV-RCNN: A Novel Fusion Technique using Collective Detections for Enhanced Local LiDAR-Based Perception

集合PV-RCNN:一种新的基于集合检测的增强局部LiDAR感知融合技术

https://arxiv.org/abs/2309.05380

对环境的全面感知对于自动驾驶汽车的安全运行至关重要。然而,由于遮挡、有限的传感器范围或环境影响,自动驾驶车辆的感知能力受到限制。集体感知(CP)旨在通过实现车辆之间的信息交换来缓解这些问题。CP中的一个主要挑战是交换信息的融合。由于早期融合方法的巨大带宽需求和中间融合方法的互换性问题,只有共享检测的后期融合是实用的。目前的后期融合方法忽略了局部检测的有价值的信息,这就是为什么我们提出了一种新的融合方法来融合本地基于LiDAR的检测流水线内的合作车辆的检测。因此,我们提出集体PV-RCNN(CPV-RCNN),它扩展了PV-RCNN++框架,以融合集体检测。代码可在https://github.com/ekut-es上获得

1.6 MultIOD: Rehearsal-free Multihead Incremental Object Detector

MultIOD:免排练多头增量式目标探测器

https://arxiv.org/abs/2309.05334

类增量学习(CIL)是人工代理在新类出现在流中时适应新类的能力。它是特别有趣的,在不断发展的环境中,代理有限的访问内存和计算资源。类增量学习的主要挑战是灾难性遗忘,即神经网络在学习新知识时无法保留过去的知识。不幸的是,大多数现有的类增量对象检测器应用于两阶段算法,如Faster-RCNN,并依赖于排练记忆来保留过去的知识。我们认为,目前的基准是不现实的,更多的努力应该致力于无锚和无排练的目标检测。在这种情况下,我们提出MultIOD,一个类增量对象检测器的基础上CenterNet。我们的主要贡献是:(1)我们提出了一个多头特征金字塔和多头检测架构来有效地分离类表示,(2)我们在最初学习的类和增量学习的类之间采用迁移学习来解决灾难性遗忘,以及(3)我们使用类非最大值抑制作为后处理技术来去除冗余框。没有花里胡哨的,我们的方法在两个Pascal VOC数据集上优于一系列最先进的方法。

1.7 Gall Bladder Cancer Detection from US Images with Only Image Level Labels

仅使用图像级别标签的US图像中的胆囊癌检测

https://arxiv.org/abs/2309.05261

从超声图像中自动检测胆囊癌(GBC)是一个重要的问题,已引起研究者越来越多的兴趣。然而,这些作品中的大多数使用难以获取的信息,如边界框注释或额外的美国视频。在本文中,我们专注于GBC检测仅使用图像级标签。这样的注释通常基于患者的诊断报告而可用,并且不需要来自医师的额外注释努力。然而,我们的分析表明,这是很难训练一个标准的图像分类模型GBC检测。这是由于低的类间方差(恶性区域通常仅占据US图像的一小部分)、高的类内方差(由于US传感器捕获3D对象的2D切片导致大的视点变化)以及低的训练数据可用性。我们假设,即使我们只有图像级别的标签,仍然将问题表述为对象检测(带有边界框输出)有助于深度神经网络(DNN)模型专注于相关的感兴趣区域。由于没有边界框注释可用于训练,我们提出的弱监督对象检测(WSOD)的问题。在对象检测的Transformer模型最近取得的成功的动机,我们训练这样一个模型,DETR,使用多实例学习(MIL)与自我监督的实例选择,以适应WSOD任务。我们所提出的方法证明了基于SOTA变换器和基于CNN的WSOD方法的AP和检测灵敏度的改进。项目页面位于https://gbc-iitd.github.io/wsod-gbc

1.8 A Skeleton-based Approach For Rock Crack Detection Towards A Climbing Robot Application

面向攀爬机器人应用的基于骨架的岩石裂纹检测方法

https://arxiv.org/abs/2309.05139

传统的轮式机器人无法穿越科学上有趣但危险的洞穴环境。多肢攀爬机器人设计,如ReachBot,能够抓取不规则表面特征,并执行攀爬动作以克服障碍,给定合适的抓取位置。为了支持抓取现场识别,我们提出了一种用于检测岩石裂缝和边缘的方法,Skeleton相交损失(SKIL)。SKIL是一种损耗,用于薄对象分割,利用标签的骨架。收集岩石面图像的数据集,手动注释,并用生成的数据增强。一组新的度量,LineAcc,已被提出薄对象分割,使得对象宽度对得分的影响最小化。此外,该度量对平移不太敏感,这在计算经典度量(例如薄对象上的骰子)时通常会导致零得分。我们的微调模型优于以前的方法类似的薄对象分割任务,如血管分割,并显示出集成到机器人系统的承诺。

1.9 Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels

利用CLIP进行零射HOI检测需要多层次的知识提炼

https://arxiv.org/abs/2309.05069

在本文中,我们研究的任务zero-shot人-物体交互(HOI)检测,一种新的范式识别HOI,而不需要特定于任务的注释。为了解决这个具有挑战性的任务,我们采用CLIP,一个大规模的预训练视觉语言模型(VLM),知识提炼在多个层次。具体来说,我们设计了一个多分支神经网络,利用CLIP学习各种级别的HOI表示,包括全局图像,局部联合区域,包括人-对象对,以及人或对象的个体实例。为了训练我们的模型,CLIP用于为全局图像和用作监督信号的局部联合区域生成HOI分数。大量的实验证明了我们的新的多级CLIP知识集成策略的有效性。值得注意的是,该模型实现了强大的性能,甚至可以与公共HICO-DET基准上的一些全监督和弱监督方法相媲美。

1.10 Timely Fusion of Surround Radar/Lidar for Object Detection in Autonomous Driving Systems

自主驾驶系统中目标检测的环绕雷达/激光雷达实时融合

https://arxiv.org/abs/2309.04806

融合雷达和激光雷达传感器数据可以充分发挥其互补优势,为自动驾驶系统提供更准确的周围环境重建。环绕雷达/激光雷达可以以最低的成本提供360度视角采样,是自动驾驶系统中有前途的传感硬件解决方案。然而,由于固有的物理约束,环绕雷达的旋转速度以及因此生成雷达数据帧的频率远低于环绕激光雷达。现有的雷达/激光雷达融合方法只能工作在环绕雷达的低频率下,无法满足自动驾驶系统的高响应性要求,本文基于最新的目标检测模型MVDNet,提出了一种工作频率仅受环绕激光雷达速度限制的雷达/激光雷达融合方法。我们的方法的基本思想很简单:我们让MVDNet处理来自雷达/激光雷达的时间上未对齐的数据,以便在新的激光雷达数据帧到达时的任何时间进行融合,而不是等待缓慢的雷达数据帧。然而,直接将MVDNet应用于时间上未对准的雷达/激光雷达数据大大降低了其目标检测精度。在本文中揭示的关键信息是,我们可以实现高输出频率与小精度损失,通过增强训练过程探索MVDNet的时间冗余,使其能够容忍输入数据的时间不对齐。我们探讨了几种不同的训练增强方法,并与实验进行了定量比较。

1.11 UnitModule: A Lightweight Joint Image Enhancement Module for Underwater Object Detection

UnitModule:一种轻量级水下目标检测联合图像增强模块

https://arxiv.org/abs/2309.04708

水下目标检测面临着水下图像退化的问题,影响了检测器的性能。基于降噪和图像增强的水下目标检测方法通常不提供由检测器偏好的图像或需要额外的数据集。在本文中,我们提出了一个即插即用的水下联合图像增强模块(UnitModule),提供的输入图像的首选检测器。我们设计了一个无监督的学习损失的联合训练的UnitModule与检测器没有额外的数据集,以改善UnitModule和检测器之间的相互作用。此外,色偏预测与辅助色偏损失和数据增强称为水下颜色随机传输(UCRT)的设计,以提高性能的UnitModule对不同的水下图像的色偏。在DUO上针对不同的目标检测模型进行了大量的实验,其中UnitModule在YOLOv 5-S上实现了2.6 AP的最高性能提升,并在全新的测试集(URPCtest)上获得了3.3 AP的提升。UnitModule显著提高了我们测试的所有对象检测模型的性能,尤其是参数较少的模型。此外,31 K参数较少的UnitModule对原始物体检测模型的推理速度影响不大。我们的定量和视觉分析也证明了UnitModule在增强输入图像和提高检测器对对象特征的感知能力方面的有效性。

1.12 A Spatial-Temporal Deformable Attention based Framework for Breast Lesion Detection in Videos

一种基于时空变形注意力的视频乳腺病变检测框架

https://arxiv.org/abs/2309.04702

在视频中检测乳腺病变是计算机辅助诊断的关键。现有的基于视频的乳腺病变检测方法通常基于自注意操作执行深骨干特征的时间特征聚合。我们认为,这种策略难以有效地执行深度特征聚合,忽略了有用的本地信息。为了解决这些问题,我们提出了一个时空变形的注意力为基础的框架,名为STNet。我们的STNet引入了一个时空变形注意模块来执行局部时空特征融合。空间-时间可变形注意力模块使得能够在编码器和解码器两者的每个阶段中进行深度特征聚合。为了进一步加快检测速度,我们引入了一个编码器特征混洗策略的多帧预测推理。在我们的编码器特征混洗策略中,我们共享主干和编码器特征,并且将编码器特征混洗以供解码器生成多个帧的预测。在公共乳腺病变超声视频数据集上的实验表明,我们的STNet获得了最先进的检测性能,同时操作两倍的快速推理速度。代码和型号可在https://github.com/AlfredQin/STNet获得。

1.13 EGOFALLS: A visual-audio dataset and benchmark for fall detection using egocentric cameras

EGOFALLS:使用以自我为中心的摄像机进行跌倒检测的视听数据集和基准

https://arxiv.org/abs/2309.04579

跌倒对于老年人等弱势群体来说是严重的,并且通常是致命的。以前的工作已经解决了通过依赖于由单个传感器、图像或加速度计的数据捕获来检测跌倒。在这项工作中,我们依赖于多模态描述符提取自以自我为中心的相机的视频。我们提出的方法包括一个后期决策融合层,建立在提取的描述符之上。此外,我们收集了一个新的数据集,我们评估我们提出的方法。我们相信这是同类数据中的第一个公共数据集。该数据集包括14个主题的10,948个视频样本。我们进行了消融实验,以评估性能的个人特征提取器,视觉信息的融合,视觉和音频信息的融合。此外,我们还尝试了内部和外部交叉验证。我们的研究结果表明,通过后期决策融合的音频和视觉信息的融合提高了检测性能,使其成为一个有前途的工具,为跌倒预防和缓解。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,目标检测,人工智能)