【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 23 日论文合集)

文章目录

  • 一、检测相关(12篇)
    • 1.1 Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection
    • 1.2 Multitemporal analysis in Google Earth Engine for detecting urban changes using optical data and machine learning algorithms
    • 1.3 DALNet: A Rail Detection Network Based on Dynamic Anchor Line
    • 1.4 Object Detection Difficulty: Suppressing Over-aggregation for Faster and Better Video Object Detection
    • 1.5 CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation
    • 1.6 SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for Remote Sensing Images Change Detection
    • 1.7 Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection
    • 1.8 Recursive Video Lane Detection
    • 1.9 TeD-SPAD: Temporal Distinctiveness for Self-supervised Privacy-preservation for video Anomaly Detection
    • 1.10 SupEuclid: Extremely Simple, High Quality OoD Detection with Supervised Contrastive Learning and Euclidean Distance
    • 1.11 Non-Redundant Combination of Hand-Crafted and Deep Learning Radiomics: Application to the Early Detection of Pancreatic Cancer
    • 1.12 Autonomous Detection of Methane Emissions in Multispectral Satellite Data Using Deep Learning

一、检测相关(12篇)

1.1 Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection

期待意外:走向广泛的分布外检测

https://arxiv.org/abs/2308.11480

提高部署的机器学习系统的可靠性通常涉及开发检测分布外(OOD)输入的方法。然而,现有的研究往往狭隘地集中在训练集不存在的类的样本,忽略了其他类型的合理的分布变化。这种限制降低了这些方法在真实世界场景中的适用性,其中系统遇到各种各样的异常输入。在这项研究中,我们分类五种不同类型的分布变化,并严格评估最近的OOD检测方法对他们每个人的性能。我们以BROAD(Benchmarking Resilience Over Anomaly Diversity)的名义公开发布了我们的基准。我们的研究结果表明,虽然这些方法擅长检测未知类,但当遇到其他类型的分布变化时,它们的性能不一致。换句话说,它们只能可靠地检测它们被专门设计为预期的意外输入。作为广泛的OOD检测的第一步,我们学习了一个生成模型的现有检测分数与高斯混合。通过这样做,我们提出了一个集成的方法,提供了一个更一致和全面的解决方案,广泛的OOD检测,表现出优越的性能相比,现有的方法。我们下载BROAD并复制实验的代码是公开的。

1.2 Multitemporal analysis in Google Earth Engine for detecting urban changes using optical data and machine learning algorithms

利用光学数据和机器学习算法检测城市变化的Google Earth引擎中的多时相分析

https://arxiv.org/abs/2308.11468

这项工作的目的是使用谷歌地球引擎(GEE)平台进行多时相分析,用于检测城市地区的变化,使用光学数据和特定的机器学习(ML)算法。作为一个案例研究,开罗市被确定为过去十年世界上人口最多的五个特大城市之一。2013年7月至2021年7月,已对感兴趣区域(ROI)进行分类和变化检测分析。结果表明,所提出的方法在确定变化和不变的城市地区在选定的时期内的有效性。此外,这项工作旨在证明GEE作为一种高效的云计算解决方案,用于管理大量卫星数据的重要性日益增长。

1.3 DALNet: A Rail Detection Network Based on Dynamic Anchor Line

DALNet:一种基于动态锚线的轨道检测网络

https://arxiv.org/abs/2308.11381

钢轨检测是智能训练的关键技术之一。在本文中,基于锚线的车道检测方法的动机,我们提出了一个轨道检测网络称为DALNet的动态锚线的基础上。针对预定义锚线与图像无关的问题,设计了一种新的动态锚线机制。它利用一个动态锚线生成器,根据输入图像中铁轨的位置和形状,为每个铁轨实例动态生成适当的锚线。这些动态生成的锚定线可以被认为是比预定义的锚定线更好的位置参考,以准确地定位轨道。此外,我们提出了一个具有挑战性的城市轨道检测数据集DL-Rail,具有高质量的注释和场景多样性。DL-Rail包含7000对图像和注释以及场景标签,预计将鼓励铁路检测的发展。我们广泛比较DALNet与许多竞争的车道方法。结果表明,我们的DALNet在我们的DL-Rail轨道检测数据集和流行的Tusimple和LLAMAS车道检测基准上实现了最先进的性能。代码将在\url{https://github.com/Yzichen/mmLaneDet}发布。

1.4 Object Detection Difficulty: Suppressing Over-aggregation for Faster and Better Video Object Detection

目标检测难度:抑制过度聚集以实现更快更好的视频目标检测

https://arxiv.org/abs/2308.11327

当前的视频对象检测(VOD)模型经常遇到过度聚合的问题,由于冗余聚合策略,其执行每一帧的特征聚合。这导致次优性能和增加的计算复杂性。在这项工作中,我们提出了一个图像级的对象检测难度(ODD)度量量化的困难,在给定的图像中检测对象。导出的ODD分数可以在VOD过程中使用以减轻过度聚集。具体来说,我们训练一个ODD预测器作为静止图像对象检测器的辅助头,根据检测结果和地面实况边界框之间的差异计算每个图像的ODD分数。ODD评分以两种方式增强VOD系统:1)它使得VOD系统能够选择更优的全局参考帧,从而提高整体精度; 2)它作为新设计的ODD调度器中的一个指示器,消除容易检测的帧的聚集,从而加速VOD过程。综合实验表明,当用于选择全局参考帧时,ODD-VOD一贯提高基于全局帧的VOD模型的准确性。当用于加速时,ODD-VOD在8种不同的VOD模型中持续提高每秒帧数(FPS)平均73.3%,而不牺牲准确性。当结合起来,ODD-VOD达到最先进的性能时,与许多VOD方法竞争,在准确性和速度。我们的工作代表了一个重大的进步,使VOD更实用于现实世界的应用。

1.5 CNN based Cuneiform Sign Detection Learned from Annotated 3D Renderings and Mapped Photographs with Illumination Augmentation

基于CNN的从带注释的3D渲染和光照增强的地图照片中学习的楔形标志检测

https://arxiv.org/abs/2308.11277

在数字古代近东研究(DANES)社区的挑战的激励下,我们开发了数字化工具,用于处理楔形文字是一种3D脚本印在粘土板上使用超过三千年,至少有八种主要语言。它由数千个随时间和空间而变化的字符组成。照片是可用于机器学习的最常见的表示方式,而水墨画则易于解释。最适合的3D数据集正在变得可用。我们创建并使用了HeiCuBeDa和MaiCuBeDa数据集,它们由大约500个带注释的平板电脑组成。对于我们的新的OCR样的混合图像数据的方法,我们提供了一个额外的映射工具之间的3D渲染和照片之间的注释。我们的标志定位使用RepPoints检测器来预测作为边界框的字符的位置。我们使用来自GigaMesh的MSII(曲率,见https://gigamesh.eu)的图像数据,基于渲染,Phong阴影3D模型,照片以及照明增强。结果表明,使用渲染的3D图像的标志检测性能比其他工作的照片。此外,我们的方法只为照片提供了相当好的结果,而它是最好的混合数据集。更重要的是,Phong渲染,尤其是MSII渲染,改善了照片的结果,这是全球范围内最大的数据集。

1.6 SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for Remote Sensing Images Change Detection

SwinV2DNet:金字塔和自我监督相结合的遥感图像变化检测特征学习

https://arxiv.org/abs/2308.11159

在当前主流的变化检测网络中,Transformer缺乏捕获准确的低层细节的能力,而卷积神经网络(CNN)缺乏理解全局信息和建立远程空间关系的能力。同时,广泛使用的早期融合和晚期融合框架都不能很好地学习完整的变化特征。因此,基于swin Transformer V2(Swin V2)和VGG16,我们提出了一个端到端的复合密集网络SwinV2DNet,继承了transformer和CNN的优点,并克服了现有网络在特征学习方面的缺点。首先,它通过密集连接的Swin V2骨干网捕获变化关系特征,并通过CNN分支提供低层的变化前和变化后的特征。基于这三个变化特征,我们完成准确的变化检测结果。其次,结合Transformer和CNN,我们提出了混合特征金字塔(MFP),它提供了层间交互信息和层内多尺度信息来完成特征学习。MFP是一个即插即用模块,实验证明它在其他变化检测网络中也是有效的。此外,我们施加了一个自我监督的策略,以指导一个新的CNN分支,这解决了CNN分支的不可训练的问题,并提供了语义变化的信息,编码器的功能。国家的最先进的(SOTA)变化检测分数和细粒度变化图的比较,四个常用的公共遥感数据集与其他先进的方法。该代码可在https://github.com/DalongZ/SwinV2DNet上获得。

1.7 Random Word Data Augmentation with CLIP for Zero-Shot Anomaly Detection

基于CLIP的随机字数据增强零点异常检测

https://arxiv.org/abs/2308.11119

本文提出了一种新的方法,利用视觉语言模型,CLIP,作为zero-shot异常检测的数据源。异常检测器由于其潜在的工业应用,已经投入了巨大的努力。考虑到获取各种异常样本用于训练的困难,大多数现有的方法仅使用正态样本训练模型,并在推理期间测量与正态样本分布的差异,这需要针对每个对象类别训练模型。这个低效的训练要求的问题已经解决了设计一个基于CLIP的异常检测器,应用提示引导分类的图像的每个部分在滑动窗口的方式。然而,该方法仍然遭受与已知对象类别的仔细提示组合的劳动。为了克服上述问题,我们建议利用CLIP作为训练的数据源。我们的方法生成文本嵌入与文本编码器在CLIP与典型的提示,包括正常和异常的话。除了这些词,我们插入几个随机生成的词到提示,这使编码器能够生成一组不同的正常和异常样本。使用所生成的嵌入作为训练数据,前馈神经网络学习从CLIP的嵌入中提取正常和异常的特征,并且作为结果,可以在没有任何训练图像的情况下获得类别不可知的异常检测器。实验结果表明,我们的方法实现了国家的最先进的性能,而不费力的提示集成在zero-shot设置。

1.8 Recursive Video Lane Detection

递归视频通道检测

https://arxiv.org/abs/2308.11106

提出了一种新的视频车道检测算法,称为递归视频车道检测器(RVLD),它将当前帧的状态递归传播到下一帧。RVLD由帧内通道检测器(ILD)和预测通道检测器(PLD)组成。首先,我们设计ILD以定位静止帧中的通道。其次,我们开发PLD来利用前一帧的信息在当前帧中的车道检测。为此,我们估计一个运动场,并扭曲先前的输出到当前帧。使用扭曲的信息,我们细化当前帧的特征图,以更可靠地检测车道。实验结果表明,RVLD优于现有的检测器上的视频车道数据集。我们的代码可在https://github.com/dongkwonjin/RVLD上获得。

1.9 TeD-SPAD: Temporal Distinctiveness for Self-supervised Privacy-preservation for video Anomaly Detection

TED-SPAD:视频异常检测中自监督隐私保护的时间分辨率

https://arxiv.org/abs/2308.11072

视频异常检测(VAD)没有人类监控是一项复杂的计算机视觉任务,如果成功实施,可以对社会产生积极影响。虽然最近的进展在解决这一任务方面取得了重大进展,但大多数现有的方法忽略了一个关键的现实世界关注点:隐私随着人工智能技术的日益普及,在其开发中实施适当的人工智能伦理变得至关重要。VAD中的隐私泄漏允许模型拾取和放大与人们的个人信息相关的不必要的偏见,这可能会导致不期望的决策。在本文中,我们提出了TeD-SPAD,一个隐私感知的视频异常检测框架,破坏视觉隐私信息在自我监督的方式。特别是,我们建议使用一个时间不同的三联体损失,以促进时间区分功能,这补充了目前弱监督VAD方法。使用TeD-SPAD,我们在三个流行的弱监督VAD数据集上实现了隐私保护和效用异常检测性能之间的积极权衡:UCF-犯罪,XD-暴力和上海科技。我们提出的匿名化模型将私有属性预测减少了32.25%,而仅将UCF-Crime异常检测数据集上的帧级ROC AUC减少了3.69%。项目页面:https://joefioresi718.github.io/TeD-SPAD_webpage/

1.10 SupEuclid: Extremely Simple, High Quality OoD Detection with Supervised Contrastive Learning and Euclidean Distance

SuperEuclid:基于有监督对比学习和欧氏距离的简单、高质量的OOD检测

https://arxiv.org/abs/2308.10973

在过去的几年中,分布外(OoD)检测得到了长足的发展,可用的方法接近,并在少数情况下实现,标准基准的完美数据分离。这些结果通常涉及大型或复杂的模型、预训练、暴露于OoD示例或额外的超参数调整。值得注意的是,可以用非常简单的方法实现可以超过许多这些最先进的方法的结果。我们证明,用监督对比学习(SCL)训练的ResNet18产生最先进的结果开箱即用近和远OoD检测基准仅使用欧几里得距离作为评分规则。这可以避免在一些情况下对更复杂的方法或更大的模型的需要,并且至少为进一步的实验和分析提供了非常强的、易于使用的基线。

1.11 Non-Redundant Combination of Hand-Crafted and Deep Learning Radiomics: Application to the Early Detection of Pancreatic Cancer

手工放射组学和深度学习放射组学的非冗余组合:在胰腺癌早期检测中的应用

https://arxiv.org/abs/2308.11389

我们解决了学习深度学习放射组学(DLR)的问题,这些问题与手工放射组学(HCR)无关。要做到这一点,我们提取DLR功能使用VAE,同时通过最小化它们的互信息来执行它们与HCR功能的独立性。所得到的DLR特征可以与手工制作的特征组合,并由分类器利用以预测癌症的早期标志物。我们说明了我们的方法对胰腺癌的四个早期标志物,并验证它在一个大型的独立测试集。我们的研究结果突出了结合非冗余DLR和HCR功能的价值,与不解决冗余或仅依赖于HCR功能的基线方法相比,曲线下面积的改善证明了这一点。

1.12 Autonomous Detection of Methane Emissions in Multispectral Satellite Data Using Deep Learning

基于深度学习的多光谱卫星数据甲烷排放自主检测

https://arxiv.org/abs/2308.11003

甲烷是最强的温室气体之一,其短的大气半衰期使其成为快速遏制全球变暖的主要目标。然而,目前的甲烷排放监测技术主要依赖于近似的排放因子或自我报告,这已被证明往往大大低估了排放量。虽然最初是为了监测表面特性,但卫星多光谱数据最近已成为分析大气成分的有力方法。然而,多光谱仪器的光谱分辨率差,并且甲烷测量通常非常嘈杂。甲烷数据产品对地表和其他大气气体(特别是水蒸气)的吸收也很敏感,因此提供了潜在甲烷羽流的噪声图,这通常需要大量的人工分析。在这里,我们表明,深度学习方法的图像识别能力可以用于自动检测哨兵2卫星多光谱数据中的甲烷泄漏,与最先进的多光谱甲烷数据产品相比,误报率显著降低,并且不需要潜在泄漏地点的先验知识。我们提出的方法为全世界点源甲烷排放的自动化,高清晰度和高频率监测铺平了道路。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,目标检测,人工智能)