【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(6月19日论文合集)

文章目录

  • 一、检测相关(7篇)
    • 1.1 Vehicle Occurrence-based Parking Space Detection
    • 1.2 Squeezing nnU-Nets with Knowledge Distillation for On-Board Cloud Detection
    • 1.3 MixedTeacher : Knowledge Distillation for fast inference textural anomaly detection
    • 1.4 Efficient Search and Detection of Relevant Plant Parts using Semantics-Aware Active Vision
    • 1.5 The Big Data Myth: Using Diffusion Models for Dataset Generation to Train Deep Detection Models
    • 1.6 Scaling Open-Vocabulary Object Detection
    • 1.7 Fusing Structural and Functional Connectivities using Disentangled VAE for Detecting MCI

一、检测相关(7篇)

1.1 Vehicle Occurrence-based Parking Space Detection

基于车辆发生的车位检测

论文地址:

https://arxiv.org/abs/2306.09940

在这里插入图片描述
智能停车解决方案使用传感器、摄像头和数据分析来提高停车效率并减少交通拥堵。近年来,基于计算机视觉的方法已被广泛用于解决停车场管理问题,但大多数工作都假设停车位是手动标记的,这影响了部署的成本和可行性。为了填补这一空白,这项工作提出了一种自动停车位检测方法,该方法接收停车场的图像序列,并返回识别检测到的停车位的坐标列表。所提出的方法采用实例分割来识别汽车,并使用车辆发生,生成停车位的热图。使用来自PKLot和CNRPark-EXT停车场数据集的12个不同子集的结果表明,该方法的AP 25得分高达95.60%,AP 50得分高达79.90%。

1.2 Squeezing nnU-Nets with Knowledge Distillation for On-Board Cloud Detection

基于知识蒸馏的NNU-Net压缩星载云检测

论文地址:

https://arxiv.org/abs/2306.09886

在这里插入图片描述
云检测是一个关键的卫星图像预处理步骤,可以在地面和卫星上执行,以标记有用的图像。在后一种情况下,它可以通过修剪多云区域来减少下行链路的数据量,或者通过数据驱动的采集重新调度来使卫星更加自主。我们使用nnU-Nets来完成这项任务,nnU-Nets是一种自重构框架,能够在各种数据集上执行分割网络的元学习。不幸的是,这样的模型通常是内存效率低,由于其(非常)大的架构。为了在机载处理中受益,我们将nnU-网络与知识蒸馏压缩成更小和更紧凑的U-网络。我们在Sentinel-2和Landsat-8图像上进行的实验表明,nnU-Nets无需任何手动设计即可提供最先进的性能。我们的方法在On Cloud N:云覆盖检测挑战赛,我们在超过10000张看不见的Sentinel-2图像上达到了0.882的Jaccard指数(获胜者获得了0.897,具有ResNet-34主干的基线U-Net:0.817,以及经典的Sentinel-2图像阈值:0.652)。最后,我们表明,与nnU-Nets相比,知识蒸馏能够精心制作更小(几乎280倍)的U-Nets,同时仍然保持其分割功能。

1.3 MixedTeacher : Knowledge Distillation for fast inference textural anomaly detection

MixedTeacher:用于快速推理纹理异常检测的知识提炼

论文地址:

https://arxiv.org/abs/2306.09859

在这里插入图片描述

长期以来,用于异常检测的无监督学习一直是图像处理研究的核心,也是高性能工业自动化过程的垫脚石。随着CNN的出现,已经提出了几种方法,例如自动编码器,GAN,深度特征提取等。在本文中,我们提出了一种新的方法的基础上有前途的知识蒸馏的概念,其中包括正常样本的训练网络(学生),同时考虑一个更大的预训练网络(教师)的输出。本文的主要贡献有两个方面:首先,提出了一个简化的学生结构与优化层选择,然后提出了一个新的学生-教师结构与网络偏差减少结合两个教师,以共同提高异常检测的性能和其定位精度。提出的纹理异常检测器具有一个出色的能力,以检测任何纹理和快速推理时间相比,SOTA方法。

1.4 Efficient Search and Detection of Relevant Plant Parts using Semantics-Aware Active Vision

基于语义感知主动视觉的植物相关部位高效搜索与检测

论文地址:

https://arxiv.org/abs/2306.09801

在这里插入图片描述
为了使用机器人自动收获和脱叶番茄植物,重要的是搜索和检测相关的植物部分,即番茄,茎和叶柄。这是具有挑战性的,由于在番茄温室中的高水平的闭塞。主动视觉是一种很有前途的方法,它可以帮助机器人有意识地规划摄像机视点,以克服遮挡,提高感知精度。然而,当前的主动视觉算法无法区分相关和不相关的植物部分,使得它们对于特定植物部分的目标感知效率低下。我们提出了一个语义主动视觉策略,使用语义信息来识别相关的植物部分,并优先考虑他们在视图规划使用的注意力机制。我们评估了我们的策略,使用不同的结构复杂性的番茄植物的3D模型,这密切代表了现实世界中的遮挡。我们使用模拟环境来深入了解我们的策略,同时确保可重复性和统计显著性。在十个观点结束时,我们的策略是能够正确地检测到85.5%的植物部分,约4个部分,平均每株植物相比,体积主动视觉策略。此外,与两个预定义策略相比,它检测到5和9个部分,与随机策略相比,它检测到11个部分。在96次实验中,每株植物正确检测到的对象中位数为88.9%。我们的策略也是强大的不确定性,在工厂和工厂部分的位置,工厂的复杂性,和不同的观点采样策略。我们相信,我们的工作可以显着提高番茄作物生产中自动收获和脱叶的速度和鲁棒性。

1.5 The Big Data Myth: Using Diffusion Models for Dataset Generation to Train Deep Detection Models

大数据神话:使用扩散模型生成数据集来训练深度检测模型

论文地址:

https://arxiv.org/abs/2306.09762

在这里插入图片描述
尽管深度目标检测模型取得了显着的成就,但仍然存在的一个主要挑战是需要大量的训练数据。获取这种真实世界数据的过程是一项艰苦的工作,这促使研究人员探索新的研究途径,如合成数据生成技术。本研究提出了一个框架,通过微调预训练的稳定扩散模型生成合成数据集。然后人工注释合成数据集并用于训练各种对象检测模型。这些检测器在331张图像的真实世界测试集上进行评估,并与在真实世界图像上训练的基线模型进行比较。这项研究的结果表明,在合成数据上训练的对象检测模型执行类似的基线模型。在果园中的苹果检测的上下文中,与基线的平均精度偏差范围为0.09至0.12。这项研究说明了合成数据生成技术的潜力,作为收集广泛的训练数据以训练深度模型的可行替代方案。

1.6 Scaling Open-Vocabulary Object Detection

缩放式开放词汇目标检测

论文地址:

https://arxiv.org/abs/2306.09683

在这里插入图片描述
开放词汇的对象检测已经大大受益于预训练的视觉语言模型,但仍然受到可用检测训练数据量的限制。虽然检测训练数据可以通过使用Web图像-文本对作为弱监督来扩展,但这还没有在与图像级预训练相当的规模上完成。在这里,我们扩大检测数据与自我训练,它使用现有的检测器生成伪框注释图像-文本对。缩放自训练的主要挑战是标签空间的选择、伪注释过滤和训练效率。我们提出了OWLv 2模型和OWL-ST自训练配方,以解决这些挑战。OWLv 2在相当的训练规模(约1000万个示例)上已经超越了以前最先进的开放词汇检测器的性能。然而,使用OWL-ST,我们可以扩展到超过1B的示例,从而获得进一步的巨大改进:使用L/14架构,OWL-ST将LVIS稀有类的AP从31.2%提高到44.6%(相对提高43%),其中模型没有看到人类框注释。OWL-ST为开放世界本地化解锁了Web规模的训练,类似于图像分类和语言建模。

1.7 Fusing Structural and Functional Connectivities using Disentangled VAE for Detecting MCI

解缠VAE融合结构和功能连接性检测MCI

论文地址:

https://arxiv.org/abs/2306.09629

在这里插入图片描述
脑网络分析是研究人类大脑疾病的一种有用方法,因为它可以通过检测异常连接来区分患者和健康人。由于多模态神经图像的互补信息,多模态融合技术具有很大的潜力,以提高预测性能。然而,有效地融合多模态医学图像以实现互补性仍然是一个具有挑战性的问题。本文提出了一种新的分层结构-功能连接融合(HSCF)模型,用于构建脑结构-功能连接矩阵,并基于功能磁共振成像(fMRI)和扩散张量成像(DTI)预测异常脑连接。具体地,将先验知识并入分离器中,用于通过图卷积网络(GCN)解开信息的每个模态。为了保证解缠的有效性,设计了解缠余弦距离损耗。此外,分层表示融合模块被设计成有效地最大化模态之间的相关和有效特征的组合,这使得所生成的结构-功能连接性在认知疾病分析中更鲁棒和有区别。从公共阿尔茨海默氏病神经影像学倡议(ADNI)数据库上进行的广泛的测试结果表明,所提出的模型比竞争的方法在分类评价方面表现更好。在一般情况下,所提出的HSCF模型是一个有前途的模型,用于产生大脑的结构功能连接和识别异常的大脑连接的认知疾病的进展。

你可能感兴趣的:(计算机视觉,目标检测经典论文导读,计算机视觉,目标检测,人工智能)