【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月 21 日论文合集)

文章目录

  • 一、检测相关(14篇)
    • 1.1 CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection
    • 1.2 Depth and DOF Cues Make A Better Defocus Blur Detector
    • 1.3 Spatiotemporal Pyramidal CNN with Depth-Wise Separable Convolution for Eye Blinking Detection in the Wild
    • 1.4 AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator
    • 1.5 Understanding Depth Map Progressively: Adaptive Distance Interval Separation for Monocular 3d Object Detection
    • 1.6 Robust Defect Detection with Contrastive Localization
    • 1.7 Frame Fusion with Vehicle Motion Prediction for 3D Object Detection
    • 1.8 Balanced Energy Regularization Loss for Out-of-distribution Detection
    • 1.9 Ladder: A software to label images, detect objects and deploy models recurrently for object detection
    • 1.10 A New Perspective for Shuttlecock Hitting Event Detection
    • 1.11 Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection
    • 1.12 FABLE : Fabric Anomaly Detection Automation Process
    • 1.13 nowledge-informed deep learning for lacune detection and quantification using multi-site brain MRI
    • 1.14 Vision Guided MIMO Radar Beamforming for Enhanced Vital Signs Detection in Crowds

一、检测相关(14篇)

1.1 CrossKD: Cross-Head Knowledge Distillation for Dense Object Detection

CrossKD:面向密集目标检测的交叉头知识提取

论文地址:

https://arxiv.org/abs/2306.11369

在这里插入图片描述
知识蒸馏(KD)已被验证为用于学习紧凑对象检测器的有效模型压缩技术。现有的用于对象检测的最先进的KD方法大多基于特征模仿,这通常被观察到比预测模仿更好。在本文中,我们表明,地面实况信号和蒸馏目标之间的优化目标的不一致是预测模仿效率低下的关键原因。为了缓解这个问题,我们提出了一个简单而有效的蒸馏方案,称为CrossKD,它提供了中间功能的学生的检测头的教师的检测头。由此产生的十字头预测,然后被迫模仿教师的预测。这样的蒸馏方式使学生的头部免于接收来自地面实况注释和教师的预测的矛盾监督信号,从而极大地提高了学生的检测性能。在MS COCO上,仅应用模拟损失的预测,我们的CrossKD将GFL ResNet-50的平均精度从40.2提高到43.7,优于所有现有的KD方法用于对象检测。代码可在www.example.com获得https://github.com/jbwang1997/CrossKD。

1.2 Depth and DOF Cues Make A Better Defocus Blur Detector

深度和DOF提示是更好的散焦模糊检测器

论文地址:

https://arxiv.org/abs/2306.11334

在这里插入图片描述
散焦模糊检测(DBD)分离图像中的对焦区域和离焦区域。先前的方法错误地将焦点中的均匀区域误认为散焦模糊区域,这可能是由于没有考虑引起散焦模糊的内部因素。受深度,景深(DOF)和散焦定律的启发,我们提出了一种称为D-DFFNet的方法,它以隐式的方式将深度和DOF线索结合起来。这允许模型以更自然的方式理解散焦现象。我们的方法提出了一种深度特征提取策略,以从预先训练的单眼深度估计模型中获得深度知识,并使用自由度边缘损失来了解自由度和深度之间的关系。我们的方法优于最先进的方法,公共基准和新收集的大型基准数据集,EBD。源代码和EBD数据集可在以下网址获得:https:github.com/yuxinjin-whu/D-DFFNet。

1.3 Spatiotemporal Pyramidal CNN with Depth-Wise Separable Convolution for Eye Blinking Detection in the Wild

基于深度可分离卷积的时空金字塔CNN用于野外眨眼检测

论文地址:

https://arxiv.org/abs/2306.11287

在这里插入图片描述
野外眨眼检测在欺骗检测、驾驶疲劳检测等方面起着至关重要的作用。尽管已经进行了许多尝试,但是大多数尝试都遇到了困难,例如随着面部和相机之间的距离的变化,所导出的眼睛图像具有不同的分辨率;或者轻量级检测模型获得短推断时间以便实时执行的要求。在这项研究中,解决了两个问题:眨眼检测模型如何能够在不同条件下从眼睛图像的不同分辨率中有效地学习;以及如何减小检测模型的大小以获得更快的推断时间。我们建议利用上采样和下采样的输入眼睛图像相同的分辨率作为第一个问题的一个潜在的解决方案,然后找出哪种插值方法可以导致检测模型的最高性能。对于第二个问题,尽管最近用于眨眼检测的时空卷积神经网络具有很强的提取空间和时间特征的能力,但它仍然具有大量的网络参数,导致高推理时间。因此,本文认为在每个分支内使用深度可分离卷积而不是常规卷积层是可行的解决方案。

1.4 AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator

AVOIDDS:基于飞机视觉的入侵者检测数据集和模拟器

https://arxiv.org/abs/2306.11203

在这里插入图片描述
设计强大的机器学习系统仍然是一个悬而未决的问题,并且需要涵盖环境变化和下游任务评估的基准问题。在这项工作中,我们介绍了AVOIDDS,一个现实的目标检测基准的基于视觉的飞机检测和避免的问题。我们提供了一个标记的数据集,包括72,000张真实感的入侵飞机图像,具有各种照明条件,天气条件,相对几何形状和地理位置。我们还提供了一个界面,用于评估该数据集切片上的训练模型,以识别性能随环境条件变化而发生的变化。最后,我们实现了一个完全集成的,基于视觉的检测和避免问题的闭环模拟器,以评估训练模型的下游避碰任务。该基准将使我们能够进一步研究用于安全关键应用的强大机器学习系统的设计。

1.5 Understanding Depth Map Progressively: Adaptive Distance Interval Separation for Monocular 3d Object Detection

渐进式理解深度图:用于单目三维目标检测的自适应距离间隔分离

论文地址:

https://arxiv.org/abs/2306.10921

在这里插入图片描述
单目3D目标检测的目的是在不同的场景中定位目标,只有一个单一的图像。由于缺乏深度信息,已经出现了依赖于来自深度估计任务的辅助深度图的若干单目3D检测技术。有多种方法可以理解深度图的表示,包括将其视为伪LiDAR点云,利用深度信息的隐式端到端学习,或将其视为图像输入。然而,这些方法具有某些缺点,诸如它们依赖于所估计的深度图的准确性以及由于它们的基于图像的性质而导致的深度图的次优利用。虽然基于LiDAR的方法和卷积神经网络(CNN)可以分别用于伪点云和深度图,但它始终是一种替代方案。在本文中,我们提出了一个框架称为自适应距离间隔分离网络(ADISN),采用了一个新的角度来理解深度图,作为一种形式,位于LiDAR和图像之间。我们利用一种自适应分离的方法,分区的深度图成各种子图的基础上的距离和对待这些子图作为一个单独的图像进行特征提取。在自适应分离之后,每个子图仅包含学习的间隔范围内的像素。如果在此范围内存在截断对象,则将出现明显的弯曲边缘,我们可以利用其使用CNN进行纹理提取,以获得像素中的丰富深度信息。同时,为了减轻深度估计的不准确性,我们设计了一个不确定性模块。为了利用图像和深度图,我们使用不同的分支来分别学习定位检测任务和外观任务。

1.6 Robust Defect Detection with Contrastive Localization

基于对比度定位的稳健缺陷检测

论文地址:

https://arxiv.org/abs/2306.10720

在这里插入图片描述
缺陷检测旨在检测和定位超出正态分布的区域。以往的工作依赖于建模的正态性来识别缺陷区域,这可能会导致非理想的泛化能力。本文提出了一个一阶段的框架,直接检测有缺陷的模式,没有建模过程。这种能力是通过三方共同努力而采用的:生成对抗网络(GAN),一个新提出的缩放模式损失,和一个动态掩蔽周期一致的辅助网络。有意排除可能指示缺陷位置的显式信息以避免学习任何直接映射。在MVTec AD数据集的纹理类上的实验结果表明,该方法在F1分数方面比SOTA方法高2.9%,在泛化能力方面明显优于SOTA方法。

1.7 Frame Fusion with Vehicle Motion Prediction for 3D Object Detection

基于帧融合和车辆运动预测的三维目标检测

论文地址:

https://arxiv.org/abs/2306.10699

在这里插入图片描述
在基于LiDAR的3D检测中,历史点云包含丰富的时间信息,有助于未来的预测。同样,历史探测应该有助于未来的探测。在本文中,我们提出了一种检测增强方法,即FrameFusion,它改善了3D对象的检测结果融合历史帧。在FrameFusion中,我们将历史帧“转发”到当前帧,并在密集边界框上应用加权非最大值抑制,以获得具有合并框的融合帧。为了“向前”帧,我们使用车辆运动模型来估计边界框的未来姿态。然而,常用的恒速模型自然失效的车辆转弯,所以我们探索两个车辆运动模型来解决这个问题。在Waymo Open Dataset上,我们的FrameFusion方法始终提高了各种3D检测器的性能,约2美元的车辆级别2 APH,延迟可以忽略不计,并略微增强了时间融合方法MPPNet的性能。我们还进行了广泛的实验运动模型的选择。

1.8 Balanced Energy Regularization Loss for Out-of-distribution Detection

用于非分布检测的平衡能量正则化损失

论文地址:

https://arxiv.org/abs/2306.10485

在这里插入图片描述
在分布外(OOD)检测领域,使用辅助数据作为OOD数据的先前方法已经显示出有希望的性能。然而,该方法向所有辅助数据提供相等的损失以将它们与内点区分开。然而,根据我们的观察,在各种任务中,在跨类的辅助OOD数据的分布中存在普遍的不平衡。我们提出了一个平衡的能量正则化损失,这是简单的,但一般有效的各种任务。我们的平衡能量正则化损失利用类的不同先验概率的辅助数据,以解决类的不平衡OOD数据。其主要概念是正规化辅助样本从多数类,更严重的是那些从少数类。我们的方法在语义分割,长尾图像分类和图像分类中的OOD检测比先验能量正则化损失更好。此外,我们的方法在两个任务中实现了最先进的性能:语义分割和长尾图像分类中的OOD检测。代码可在www.example.com获得https://github.com/hyunjunChhoi/Balanced_Energy。

1.9 Ladder: A software to label images, detect objects and deploy models recurrently for object detection

梯子:一个用于标记图像、检测对象和反复部署模型以进行对象检测的软件

论文地址:

https://arxiv.org/abs/2306.10372

在这里插入图片描述

目标检测(OD)是一种计算机视觉技术,可以对图像和视频中的目标进行定位和分类,这有可能显著提高精准农业的效率。为了简化OD应用过程,我们开发了Ladder -一种为用户提供友好的图形用户界面(GUI)的软件,该软件允许有效标记训练数据集,训练OD模型并部署训练模型。Ladder设计了一个交互式循环框架,该框架利用来自预训练OD模型的预测作为初始图像标记。在添加人类标签之后,可以将新标记的图像添加到训练数据中以重新训练OD模型。使用相同的GUI,用户还可以通过加载模型权重文件来部署经过良好训练的OD模型以检测新图像。我们使用Ladder开发了一个深度学习模型来访问由无人机(UAV)拍摄的RGB(红、绿、蓝)图像中的小麦条锈病。Ladder采用OD直接评估田间图像中小麦条锈病的不同严重程度,无需对基于无人机的图像进行照片拼接处理。低、中和高严重程度评分的准确性分别为72%、50%和80%。该案例展示了Ladder如何在精准农业和作物育种中实现OD。

1.10 A New Perspective for Shuttlecock Hitting Event Detection

羽毛球击球事件检测的新视角

论文地址:

https://arxiv.org/abs/2306.10293

在这里插入图片描述
介绍了一种新的毽球击球事件检测方法。而不是依赖于通用的方法,我们捕捉的击球动作的球员通过推理的一系列图像。为了学习视频剪辑中的命中事件的特征,我们专门使用了称为SwingNet的深度学习模型。该模型旨在捕捉与羽毛球击球行为相关的相关特征和模式。通过在所提供的视频片段上训练SwingNet,我们的目标是使模型能够根据其独特的特征准确地识别和识别击球事件的实例。此外,我们应用特定的视频处理技术,从视频中提取先验特征,这显着降低了模型的学习难度。所提出的方法不仅提供了一个直观和用户友好的方法,但也提出了一个新的角度来检测羽毛球击球事件的任务。源代码将在www.example.com上提供https://github.com/TW-yuhsi/A-New-Perspective-for-Shuttlecock-Hitting-Event-Detection。

1.11 Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection

用于视频异常检测的多尺度时空交互网络

论文地址:

https://arxiv.org/abs/2306.10239

在这里插入图片描述
视频异常检测(VAD)是信号处理中一项重要而又具有挑战性的任务。由于某些异常不能单独通过分析时间或空间信息来检测,因此两种类型的信息之间的相互作用被认为是VAD的关键。然而,当前的双流架构要么将两种类型的信息之间的交互限制到自动编码器的瓶颈,要么将与异常无关的背景像素纳入交互。为此,我们提出了一个多尺度时空交互网络(MSTI-Net)VAD。首先,要特别注意的对象和协调两个信息之间的显着语义差异,我们提出了一个基于注意力的时空融合模块(ASTM)作为传统的直接融合的替代品。此外,我们在双流网络的外观和运动路径之间注入多个基于ASTM的连接,以促进在所有可能的尺度上的时空交互。最后,从多个尺度学习的常规信息被记录在存储器中,以增强在测试阶段期间异常和正常事件之间的区分。在三个标准数据集上的实验结果验证了该方法的有效性,UCSD Ped 2的AUC为96.8%,CUHK Avenue为87.6%,ShanghaiTech数据集为73.9%。

1.12 FABLE : Fabric Anomaly Detection Automation Process

FABLE:结构异常检测自动化过程

论文地址:

https://arxiv.org/abs/2306.10089

在这里插入图片描述
工业中的无监督异常一直是一个备受关注的话题,也是实现高性能工业自动化过程的垫脚石。绝大多数面向行业的方法集中于从良好的样本中学习以检测异常,尽管一些特定的工业场景需要更少的特定训练,因此需要异常检测的泛化。一个明显的用例是织物异常检测,在这种情况下,我们必须处理非常广泛的颜色和类型的纺织品,并且不能考虑停止生产线进行培训。在本文中,我们提出了一个自动化的过程中,工业织物纹理缺陷检测领域广义异常检测的具体学习过程。结合泛化能力和学习过程,提供了一个快速和精确的异常检测和分割。本文的主要贡献如下:一个领域的泛化纹理异常检测方法实现了国家的最先进的性能,一个快速的具体训练的好样本提取的方法,一个自我评估的方法,基于自定义缺陷创建和自动检测已经看到的织物,以防止重新训练。

1.13 nowledge-informed deep learning for lacune detection and quantification using multi-site brain MRI

基于先验知识的深度学习用于脑部多部位磁共振缺陷区的检测和量化

论文地址:

https://arxiv.org/abs/2306.10622

在这里插入图片描述
假定血管起源的腔隙,也称为腔隙性梗死,对于评估脑小血管疾病和认知疾病如痴呆是重要的。然而,从成像数据的腔隙的视觉评级是具有挑战性的,耗时的,和评级依赖,由于其小的尺寸,稀疏,和模仿。尽管自动算法的最新发展已经表明,使腔隙的检测更快,同时保持灵敏度,它们也显示出大量的假阳性,这使得它们不切实际地用于临床实践或大规模研究。在这里,我们开发了一个新的框架,除了腔隙检测,输出分类负担评分。该评分可以提供对腔隙存在的更实际的估计,其简化并有效地加速腔隙的成像评估。我们假设,检测和分类评分的组合使程序对噪声标签不太敏感。

1.14 Vision Guided MIMO Radar Beamforming for Enhanced Vital Signs Detection in Crowds

用于增强人群生命体征检测的视觉制导MIMO雷达波束形成

论文地址:

https://arxiv.org/abs/2306.10515

在这里插入图片描述
雷达作为一种遥感技术,几十年来一直被用来分析人类活动。尽管具有运动敏感性、隐私保护、穿透性等所有重要功能,但与光学传感器相比,雷达的空间自由度有限,因此在没有先验信息的情况下感知拥挤的环境具有挑战性。在本文中,我们开发了一种新的双传感系统,其中的视觉传感器是利用引导数字波束形成在多输入多输出(MIMO)雷达。此外,我们开发了一种校准算法,以对齐两种类型的传感器,并表明,校准的双系统实现约两厘米的精度,在三维空间内的视场为 7 5 ∘ 75^\circ 75 6 5 ∘ 65^\circ 65和范围为两米。最后,我们表明,所提出的方法是能够检测的生命体征同时为一组密集的主题,坐着和站着,在一个杂乱的环境中,这突出了一个有前途的方向,在现实环境中的生命体征检测。

你可能感兴趣的:(目标检测经典论文导读,计算机视觉,计算机视觉,目标检测,深度学习,人工智能,arxiv)