【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(11 月 30 日论文合集)(下)

文章目录

    • 1.7 LEOD: Label-Efficient Object Detection for Event Cameras
    • 1.8 End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames
    • 1.9 Feedback RoI Features Improve Aerial Object Detection
    • 1.10 Large Model Based Referring Camouflaged Object Detection
    • 1.11 DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection
    • 1.12 Unsupervised Multimodal Deepfake Detection Using Intra- and Cross-Modal Inconsistencies

1.7 LEOD: Label-Efficient Object Detection for Event Cameras

LEOD:适用于活动摄像机的高效标签目标检测

https://arxiv.org/abs/2311.17286

使用事件摄像机进行的目标检测具有低延迟和高动态范围的特性,适用于自动驾驶等安全关键场景。然而,为监督训练标记具有高时间分辨率的事件流是昂贵的。我们解决这个问题与LEOD,第一个框架标签效率的基于事件的检测。我们的方法将弱监督和半监督对象检测与自训练机制相结合。我们首先利用在有限标签上预训练的检测器来在未标记的事件上产生伪地面真值,然后用真实和生成的标签重新训练检测器。利用事件的时间一致性,我们运行双向推理并应用基于跟踪的后处理来提高伪标签的质量。为了稳定训练,我们进一步设计了一个软锚分配策略来减轻标签中的噪声。我们引入了新的实验协议来评估Gen 1和1 Mpx数据集上基于事件的标签高效检测任务。LEOD在各种标签比率中始终优于监督基线。例如,在Gen 1上,对于使用1%和2%标签训练的RVT-S,它将mAP提高了8.6%和7.8%。在1 Mpx上,具有10%标签的RVT-S甚至超过了使用100%标签的完全监督对应物。即使所有标记数据都可用,LEOD仍保持其有效性,达到最先进的新结果。最后,我们表明,我们的方法很容易扩展,以改善更大的检测器。

1.8 End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames

1B参数跨越1000帧的端到端时间动作检测

https://arxiv.org/abs/2311.17241

最近,时间动作检测(Temporal Action Detection,简称TACT)在端到端训练中表现出了显著的性能提升。然而,由于内存瓶颈,只有有限规模和有限数据量的模型才能提供端到端的训练,这不可避免地限制了可移植性。在本文中,我们减少了端到端训练的内存消耗,并设法将网络骨干扩展到10亿个参数,输入视频扩展到1,536帧,从而实现了显着的检测性能。我们的方法的关键在于我们提出的时间信息适配器(TIA),这是一种新型的轻量级模块,减少了训练记忆。使用TIA,我们解放了巨大的骨干从学习,以适应在TIA中的参数更新的任务。TIA还通过在时间上聚合来自整个骨干的相邻帧的上下文来导致更好的视频表示。我们在四个有代表性的数据集上评估了我们的模型。由于我们的高效设计,我们能够在VideoMAEv 2-giant上进行端到端的训练,并在THUMOS 14上实现75.4%的mAP,成为第一个优于最佳基于特征的方法的端到端模型。

1.9 Feedback RoI Features Improve Aerial Object Detection

反馈感兴趣区域特征改进空中目标检测

https://arxiv.org/abs/2311.17129

神经科学研究表明,人类视觉系统利用高层次的反馈信息来引导低层次的感知,从而能够适应不同特征的信号。鉴于此,我们提出了反馈多级特征提取器(Flex),以纳入类似的机制,用于对象检测。Flex根据图像和实例级反馈信息细化特征选择,以响应图像质量变化和分类不确定性。实验结果表明,Flex在具有挑战性的空中目标检测数据集(包括DOTA-v1.0,DOTA-v1.5和HRSC 2016)上对一系列现有SOTA方法提供了一致的改进。虽然该设计起源于航空图像检测,MS COCO上的进一步实验也揭示了我们的模块在一般检测模型中的功效。定量和定性分析表明,改善是密切相关的图像质量,这符合我们的动机。

1.10 Large Model Based Referring Camouflaged Object Detection

基于大模型的参考伪装目标检测

https://arxiv.org/abs/2311.17122

引用隐藏对象检测(Ref-COD)是最近提出的一个问题,旨在分割出与文本或视觉引用相匹配的指定隐藏对象。这项任务涉及两个主要挑战:COD特定领域的感知和多模态参考图像对齐。我们的动机是充分利用最近的多模态大型语言模型(MLLM)的语义智能和内在知识,以类似人类的方式分解这个复杂的任务。由于语言具有高度的浓缩性和归纳性,语言表达是人类知识学习的主要媒介,知识信息的传递遵循着由简单到复杂的多层次递进过程。在本文中,我们提出了一种基于大模型的多层知识引导的多模态Ref-COD方法MLKG,其中MLLM的多层知识描述被组织起来,以引导分割的大视觉模型逐步感知隐藏目标和隐藏场景,同时将文本参考与隐藏照片进行深度对齐。据我们所知,我们的贡献主要包括:(1)这是第一次研究MLLM知识的Ref-COD和COD。(2)本文首次提出将Ref-COD分解为目标感知和场景感知两个主要视角,并结合MLLM知识,提出了一种多层次知识引导的方法。(3)我们的方法在Ref-COD基准测试中达到了最先进的水平,优于众多强大的竞争对手。此外,由于注入了丰富的知识,它展示了zero-shot泛化能力的单峰COD数据集。我们将很快发布代码。

1.11 DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection

DyRA:用于尺度鲁棒目标检测的动态分辨率调整

https://arxiv.org/abs/2311.17098

在目标检测中,由于目标大小的可变性,实现恒定的准确性是具有挑战性的。这个问题的一个可能的解决方案是优化输入分辨率,称为多分辨率策略。以往的分辨率优化方法通常是基于预定义的分辨率或动态神经网络,但缺乏对现有架构的运行时分辨率优化的研究。在本文中,我们提出了一个自适应分辨率缩放网络称为DyRA,其中包括卷积和Transformer编码器块,现有的检测器。我们的DyRA从输入图像返回一个比例因子,这可以实现特定于实例的缩放。该网络与具有专门设计的损失函数(即ParetoScaleLoss和BalanceLoss)的检测器联合训练。ParetoScaleLoss从图像中产生自适应比例因子,而BalanceLoss根据数据集的本地化能力优化比例因子。损失函数的目的是尽量减少精度下降的对比目标的小和大的对象。我们在COCO,RetinaNet,Faster-RCNN,FCOS和Mask-RCNN上的实验比仅进行分辨率调整的多分辨率基线实现了1.3%,1.1%,1.3%和0.8%的准确性提高。该代码可在https://github.com/DaEunFullGrace/DyRA.git上获得。

1.12 Unsupervised Multimodal Deepfake Detection Using Intra- and Cross-Modal Inconsistencies

基于模内和模间不一致的无监督多模深伪检测

https://arxiv.org/abs/2311.17088

Deepfake视频对社会构成越来越大的威胁,对刑事司法、民主、个人安全和隐私产生潜在的负面影响。与此同时,大规模检测deepfake仍然是一项非常具有挑战性的任务,通常需要来自现有deepfake生成方法的标记训练数据。此外,即使是最准确的监督学习,deepfake检测方法也不能推广到使用新一代方法生成的deepfake。在本文中,我们介绍了一种新的无监督方法,通过测量多模态特征之间的模态内和跨模态一致性来检测deepfake视频;特别是视觉,音频和身份特征。所提出的检测方法背后的基本假设是,由于deepfake生成试图将一个身份的面部运动转移到另一个身份,因此这些方法最终会遇到运动和身份之间的权衡,这令人羡慕地导致可检测的不一致性。我们通过大量的实验验证了我们的方法,证明了deepfake视频中存在显著的模态内和跨模态不一致性,可以有效地利用这些不一致性来高精度地检测它们。我们提出的方法是可扩展的,因为它不需要原始的样本在推理,可推广的,因为它只在真实数据上训练,并且是可解释的,因为它可以精确定位模态不一致的确切位置,然后由人类专家验证。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,目标检测,人工智能)