【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 14 日论文合集)

文章目录

  • 一、检测相关(13篇)
    • 1.1 Polygon Intersection-over-Union Loss for Viewpoint-Agnostic Monocular 3D Vehicle Detection
    • 1.2 RadarLCD: Learnable Radar-based Loop Closure Detection Pipeline
    • 1.3 SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection
    • 1.4 FAIR: Frequency-aware Image Restoration for Industrial Visual Anomaly Detection
    • 1.5 Dynamic Causal Disentanglement Model for Dialogue Emotion Detection
    • 1.6 CCSPNet-Joint: Efficient Joint Training Method for Traffic Sihn Detection Under Extreme Conditions
    • 1.7 Video Infringement Detection via Feature Disentanglement and Mutual Information Maximization
    • 1.8 Remote Sensing Object Detection Meets Deep Learning: A Meta-review of Challenges and Advances
    • 1.9 MFL-YOLO: An Object Detection Model for Damaged Traffic Signs
    • 1.10 Integrating GAN and Texture Synthesis for Enhanced Road Damage Detection
    • 1.11 MTD: Multi-Timestep Detector for Delayed Streaming Perception
    • 1.12 ShaDocFormer: A Shadow-attentive Threshold Detector with Cascaded Fusion Refiner for document shadow removal' to the ICASSP 2024 online submission system
    • 1.13 DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention

一、检测相关(13篇)

1.1 Polygon Intersection-over-Union Loss for Viewpoint-Agnostic Monocular 3D Vehicle Detection

基于多边形交并损失的视点无关单目三维车辆检测

https://arxiv.org/abs/2309.07104

单目3D对象检测是一项具有挑战性的任务,因为深度信息难以从2D图像中获得。视点不可知的单目3D检测方法的子集在训练期间也不明确地利用场景单应性或几何形状,这意味着由此训练的模型可以从任意视点检测图像中的对象。这样的工作预测3D边界框在图像平面上的投影以估计3D框的位置,但是这些投影不是矩形的,因此这些投影的多边形之间的IoU的计算不是直接的。这项工作提出了一种有效的,完全可微的算法,用于计算两个凸多边形之间的IoU,它可以用来计算从任意角度观察到的两个3D包围盒足迹之间的IoU。我们在三个最先进的视点不可知的3D检测模型上测试了所提出的多边形IoU损失(PIoU损失)的性能。实验表明,所提出的PIoU损失比L1损失收敛得更快,并且在3D检测模型中,PIoU损失和L1损失的组合比单独的L1损失给出了更好的结果(汽车上MonoCon的AP 70为+1.64%,汽车上RTM 3D的AP 70为+0.18%,骑自行车的MonoRCNN的AP 50/AP 25为+0.83%/+2.46%)。

1.2 RadarLCD: Learnable Radar-based Loop Closure Detection Pipeline

RadarLCD:基于雷达的可学习环路检测流水线

https://arxiv.org/abs/2309.07094

闭环检测(LCD)是机器人和计算机视觉中的一项重要任务,是不同领域各种应用的基本组件。这些应用包括对象识别、图像检索和视频分析。LCD包括识别机器人是否已经返回到先前访问的位置,称为循环,然后估计相对于分析的位置的相关旋转平移。尽管雷达传感器具有许多优点,例如它们能够在不同的天气条件下操作并且与其他常用的传感器(例如,然而,由于固有的噪声和失真,集成雷达数据仍然是一项艰巨的任务。为了应对这一挑战,本研究引入了RadarLCD,这是一种新型的监督式深度学习管道,专门用于使用FMCW雷达(调频连续波)传感器进行闭环检测。RadarLCD是一种明确为雷达系统设计的基于学习的LCD方法,通过利用预训练的HERO(混合估计雷达测距)模型做出了重大贡献。HERO最初是为雷达测距而开发的,其功能用于选择LCD任务的关键点。该方法在各种FMCW雷达数据集场景中进行了评估,并与最先进的系统进行了比较,例如用于位置识别的扫描上下文和用于环路闭合的ICP。结果表明,RadarLCD在环路闭合检测的多个方面优于替代品。

1.3 SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection

SupFusion:用于3D目标检测的监督LiDAR-相机融合

https://arxiv.org/abs/2309.07084

在本文中,我们提出了一种名为SupFusion的新型训练策略,它为有效的LiDAR相机融合提供了辅助特征级监督,并显着提高了检测性能。我们的策略涉及一种名为Polar Sampling的数据增强方法,该方法对稀疏对象进行加密,并训练一个辅助模型来生成高质量的特征作为监督。然后,这些特征用于训练LiDAR-相机融合模型,其中融合特征被优化以模拟生成的高质量特征。此外,我们提出了一个简单而有效的深度融合模块,连续获得优越的性能相比,以前的融合方法与SupFusion策略。这样,我们的建议具有以下优点。首先,SupFusion引入了辅助特征级监督,可以在不引入额外推理成本的情况下提高LiDAR相机检测性能。其次,提出的深度融合可以不断提高探测器的能力。我们提出的SupFusion和深度融合模块是即插即用的,我们做了大量的实验来证明其有效性。具体来说,我们获得了约2%的3D mAP改进KITTI基准的基础上,多个激光雷达相机3D探测器。

1.4 FAIR: Frequency-aware Image Restoration for Industrial Visual Anomaly Detection

FIRE:用于工业视觉异常检测的频率感知图像恢复

https://arxiv.org/abs/2309.07068

基于图像重建的异常检测模型在工业视觉检测中得到了广泛的研究。然而,现有的模型通常遭受正常重建保真度和异常重建分辨率之间的权衡,这损害了性能。在本文中,我们发现,上述权衡可以更好地减轻利用正常和异常重建误差之间的不同的频率偏差。为此,我们提出了频率感知图像恢复(FAIR),一种新的自我监督的图像恢复任务,恢复图像的高频分量。它使正常模式的精确重建,同时减轻不利的泛化异常。仅使用简单的vanilla UNet,FAIR在各种缺陷检测数据集上实现了最先进的性能和更高的效率。代码:https://github.com/liutongkun/FAIR.

1.5 Dynamic Causal Disentanglement Model for Dialogue Emotion Detection

用于对话情感检测的动态因果解缠模型

https://arxiv.org/abs/2309.06928

情感检测是广泛应用于各个领域的关键技术。虽然常识知识的结合已被证明是有益的现有的情感检测方法,基于对话的情感检测遇到了许多困难和挑战,由于人类的代理和对话内容的可变性。然而,它们往往是隐含表达的。这意味着许多真实的情感仍然隐藏在大量的不相关的单词和对话中。在本文中,我们提出了一个基于隐变量分离的动态因果解纠缠模型,它是建立在隐变量分离的基础上的。该模型有效地分解对话的内容,并调查情绪的时间积累,从而使更精确的情感识别。首先,我们引入了一种新的因果有向无环图(DAG)建立隐藏的情感信息和其他观察到的元素之间的相关性。随后,我们的方法利用预提取的个人属性和话语主题的隐变量的分布的指导因素,旨在分离无关的。具体来说,我们提出了一个动态的时间解纠缠模型来推断话语和隐藏变量的传播,使整个会话的情感相关信息的积累。为了指导这个分解过程,我们利用ChatGPT-4.0和LSTM网络提取话语主题和个人属性作为观察信息。最后,我们在两个流行的对话情感检测数据集上测试了我们的方法,相关实验结果验证了模型的优越性。

1.6 CCSPNet-Joint: Efficient Joint Training Method for Traffic Sihn Detection Under Extreme Conditions

CCSPNet-Joint:极端条件下交通信号检测的高效联合训练方法

https://arxiv.org/abs/2309.06902

交通标志检测是智能驾驶中的一个重要研究方向。不幸的是,现有的方法往往忽略极端条件,如雾,雨,和运动模糊。此外,用于图像去噪和对象检测模型的端到端训练策略未能有效地利用模型间信息。为了解决这些问题,我们提出了CCSPNet,一个高效的特征提取模块,基于Transformers和CNN,有效地利用上下文信息,实现更快的推理速度,并提供更强的特征增强能力。此外,我们建立了目标检测和图像去噪任务之间的相关性,并提出了一个联合训练模型CCSPNet-Joint,以提高数据效率和泛化能力。最后,为了验证我们的方法,我们创建了CCTSDB-AUG数据集,用于极端情况下的交通标志检测。大量的实验表明,CCSPNet在极端条件下的交通标志检测中达到了最先进的性能。与端到端方法相比,CCSPNet-Joint的精度提高了5.32%,[email protected]的精度提高了18.09%。

1.7 Video Infringement Detection via Feature Disentanglement and Mutual Information Maximization

基于特征解缠和互信息最大化的视频侵权检测

https://arxiv.org/abs/2309.06877

自媒体时代为我们提供了海量的高质量视频。不幸的是,如今频繁发生的视频版权侵权事件严重损害了视频创作者的利益和积极性。因此,识别侵权视频是一项紧迫的任务。当前最先进的方法倾向于简单地将高维混合视频特征馈送到深度神经网络中,并依靠网络来提取有用的表示。尽管它的简单性,这种范式严重依赖于原始纠缠的功能,并缺乏约束,保证有用的任务相关的语义提取的功能。 在本文中,我们试图从两个方面解决上述挑战:(1)我们提出将原始高维特征分解成多个子特征,明确地将特征分解成排他性的低维分量。我们期望子特征编码的原始特征的非重叠语义,并去除冗余信息。 (2)在解纠缠的子特征之上,我们进一步学习辅助特征以增强子特征。我们从理论上分析了标签和解纠缠的特征之间的互信息,达到了最大限度地提取任务相关信息的损失。 在两个大规模基准数据集(即,SVD和VCSL)表明,我们的方法在大规模SVD数据集上实现了90.1%的TOP-100 mAP,并且还设置了新的国家的最新的VCSL基准数据集。我们的代码和模型已经在https://github.com/yyyoooooo/DMI/发布,希望能为社区做出贡献。

1.8 Remote Sensing Object Detection Meets Deep Learning: A Meta-review of Challenges and Advances

遥感目标检测与深度学习:挑战与进展述评

https://arxiv.org/abs/2309.06751

遥感目标检测是遥感领域最基本、最具挑战性的研究课题之一,一直受到人们的广泛关注。近年来,深度学习技术已经证明了强大的特征表示能力,并导致RSOD技术的发展取得了很大的飞跃。在这个技术快速发展的时代,本文旨在全面回顾基于深度学习的RSOD方法的最新成就。在这篇评论中涵盖了300多篇论文。我们确定了RSOD中的五个主要挑战,包括多尺度对象检测,旋转对象检测,弱对象检测,微小对象检测和有限监督的对象检测,并系统地回顾了相应的方法开发的层次划分的方式。我们还回顾了广泛使用的基准数据集和评价指标领域的RSOD,以及应用场景的RSOD。为进一步推动RSOD的研究提供了今后的研究方向。

1.9 MFL-YOLO: An Object Detection Model for Damaged Traffic Signs

MFL-YOLO:一种受损交通标志目标检测模型

https://arxiv.org/abs/2309.06750

交通标志是保证交通安全和畅通的重要设施,但由于多种原因可能会损坏,存在很大的安全隐患。因此,研究一种检测受损交通标志的方法具有重要意义。现有的目标检测技术仍然缺乏损坏的交通标志。由于损坏的交通标志在外观上更接近正常的交通标志,这是很难捕捉到详细的局部损坏特征,使用传统的目标检测方法。本文提出了一种改进的基于YOLOv 5s的目标检测方法,即MFL-YOLO(Mutual Feature Levels Loss enhanced YOLO)。我们设计了一个简单的跨层损失函数,使模型的每一层都有自己的角色,这有利于模型能够学习更多样化的特征,提高细粒度。该方法可以作为即插即用模块应用,并且在提高精度的同时不增加结构复杂度或计算复杂度。我们还在YOLOv 5s的颈部用GSConv和VoVGSCSP取代了传统的卷积和CSP,以减少规模和计算复杂度。与YOLOv 5s相比,我们的MFL-YOLO在F1评分和mAP方面提高了4.3和5.1,同时将FLOP降低了8.9%。Grad-CAM热图可视化表明,我们的模型可以更好地专注于损坏的交通标志的局部细节。此外,我们还进行了实验CCTSDB 2021和TT 100 K,以进一步验证我们的模型的泛化。

1.10 Integrating GAN and Texture Synthesis for Enhanced Road Damage Detection

集成GaN和纹理合成的增强道路损伤检测

https://arxiv.org/abs/2309.06747

在交通安全和道路养护领域,准确检测道路损伤对于确保行车安全和延长道路耐久性至关重要。然而,由于数据有限,目前的方法往往不足。先前的尝试已经使用生成对抗网络来生成具有不同形状的损伤,并手动将其集成到适当的位置。然而,该问题尚未得到很好的探索,面临着两个挑战。首先,它们只丰富了损伤的位置和形态,而忽略了损伤严重程度的多样性,真实性还有待进一步提高。其次,它们需要大量的人工努力。为了应对这些挑战,我们提出了一种创新的方法。除了使用GAN来产生不同形状的损伤外,我们还采用纹理合成技术来提取道路纹理。然后,这两个元素与不同的权重混合,允许我们控制合成损伤的严重性,然后通过泊松混合嵌入到原始图像。我们的方法确保了丰富的破坏严重程度和更好地与背景对齐。为了节省劳动力成本,我们利用结构相似性在嵌入过程中进行自动样本选择。原始图像的每个增强数据包含具有不同严重性级别的版本。我们实施了一个简单的筛选策略,以减轻分布漂移。在公共道路损坏数据集上进行实验。所提出的方法不仅消除了对手工劳动的需要,而且实现了显着的增强,提高了4.1%的mAP和4.5%的F1分数。

1.11 MTD: Multi-Timestep Detector for Delayed Streaming Perception

MTD:用于延迟流感知的多时间步检测器

https://arxiv.org/abs/2309.06742

自动驾驶系统需要实时的环境感知,以确保用户的安全和体验。流式感知是一项报告当前世界状态的任务,用于评估自动驾驶系统的延迟和准确性。在实际应用中,硬件限制和高温等因素不可避免地会导致自动驾驶系统的延迟,从而导致模型输出与世界状态之间的偏移。为了解决这个问题,本文提出了多时间步检测器(MTD),它是一种端到端检测器,使用动态路由进行多分支的未来预测,使模型具有抵抗时延波动的能力。延迟分析模块(DAM)提出了优化现有的延迟感测方法,连续监测模型推理堆栈和计算延迟的趋势。此外,一个新的时间步分支模块(TBM)的构造,它包括静态流和自适应流,以自适应地预测特定的时间步,根据延迟的趋势。所提出的方法已被评估的Argoverse-HD数据集,实验结果表明,它已达到国家的最先进的性能在各种延迟设置。

1.12 ShaDocFormer: A Shadow-attentive Threshold Detector with Cascaded Fusion Refiner for document shadow removal’ to the ICASSP 2024 online submission system

ShaDocFormer:ICASSP 2024在线提交系统的阴影注意阈值检测器和级联融合精炼器,用于消除文档阴影

https://arxiv.org/abs/2309.06670

文档阴影是使用移动设备捕获文档时出现的一个常见问题,它严重影响了文档的可读性。当前的方法遇到各种挑战,包括阴影掩模的不准确检测和照明的估计。在本文中,我们提出了ShaDocFormer,这是一种基于Transformer的架构,它集成了传统方法和深度学习技术,以解决文档阴影去除的问题。ShaDocFormer架构包括两个组件:阴影注意阈值检测器(STD)和级联融合细化器(CFR)。STD模块采用传统的阈值技术,并利用Transformer的注意力机制收集全局信息,从而实现阴影掩模的精确检测。CFR模块的级联和聚合结构有利于整个图像的从粗到细的恢复过程。因此,ShaDocFormer擅长准确地检测和捕获阴影和照明的变化,从而能够有效地去除阴影。大量的实验表明,ShaDocFormer在定性和定量测量方面都优于当前最先进的方法。

1.13 DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention

DF-TURING:基于唇音交叉注意和面部自我注意的多模式深伪检测

https://arxiv.org/abs/2309.06511

随着被操纵媒体的兴起,deepfake检测已经成为保护数字内容真实性的当务之急。在本文中,我们提出了一种新的多模态音频-视频框架,旨在同时处理音频和视频输入,以执行深度伪造检测任务。我们的模型通过交叉注意机制利用与输入音频的唇同步,同时通过微调的VGG-16网络提取视觉线索。随后,采用Transformer编码器网络来执行面部自注意。我们进行了多项消融研究,突出了我们方法的不同优势。我们的多模态方法在F-1和每个视频的AUC分数方面优于最先进的多模态深度伪造检测技术。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,目标检测,人工智能)