【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 22 日论文合集)

文章目录

  • 一、检测相关(17篇)
    • 1.1 Co-Speech Gesture Detection through Multi-phase Sequence Labeling
    • 1.2 Self-Feedback DETR for Temporal Action Detection
    • 1.3 Spatial Transform Decoupling for Oriented Object Detection
    • 1.4 PHE-SICH-CT-IDS: A Benchmark CT Image Dataset for Evaluation Semantic Segmentation, Object Detection and Radiomic Feature Extraction of Perihematomal Edema in Spontaneous Intracerebral Hemorrhage
    • 1.5 QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection
    • 1.6 Towards Generalizable Morph Attack Detection with Consistency Regularization
    • 1.7 Representation Disparity-aware Distillation for 3D Object Detection
    • 1.8 From Global to Local: Multi-scale Out-of-distribution Detection
    • 1.9 FedSIS: Federated Split Learning with Intermediate Representation Sampling for Privacy-preserving Generalized Face Presentation Attack Detection
    • 1.10 Neural Interactive Keypoint Detection
    • 1.11 ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions
    • 1.12 HODN: Disentangling Human-Object Feature for HOI Detection
    • 1.13 Unilaterally Aggregated Contrastive Learning with Hierarchical Augmentation for Anomaly Detection
    • 1.14 DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection
    • 1.15 Recap: Detecting Deepfake Video with Unpredictable Tampered Traces via Recovering Faces and Mapping Recovered Faces
    • 1.16 Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models
    • 1.17 Dual Branch Deep Learning Network for Detection and Stage Grading of Diabetic Retinopathy

一、检测相关(17篇)

1.1 Co-Speech Gesture Detection through Multi-phase Sequence Labeling

基于多相序列标注的协同语音手势检测

https://arxiv.org/abs/2308.10680

手势是面对面交流的组成部分。它们随着时间的推移而展开,通常遵循可预测的运动阶段,如准备、中风和缩回。然而,自动手势检测的流行方法将问题视为二元分类,将片段分类为包含手势或不包含手势,因此未能捕获其固有的顺序和上下文性质。为了解决这个问题,我们引入了一个新的框架,重新框架的任务作为一个多阶段序列标记问题,而不是二元分类。我们的模型在时间窗口内处理骨骼运动的序列,使用Transformer编码器来学习上下文嵌入,并利用条件随机场来执行序列标记。我们评估我们的建议在一个大的数据集的不同的共同语音手势在面向任务的面对面的对话。结果一致表明,我们的方法显着优于强基线模型检测手势笔划。此外,应用Transformer编码器来从移动序列学习上下文嵌入实质上改进了手势单元检测。这些结果突出了我们的框架的能力,以捕捉细粒度动态的共语音手势阶段,铺平了道路,更细致和准确的手势检测和分析。

1.2 Self-Feedback DETR for Temporal Action Detection

用于时间动作检测的自反馈DETR

https://arxiv.org/abs/2308.10570

时间动作检测(TAD)对于现实世界的视频应用具有挑战性,但也是基础。最近,基于DETR的模型已经被设计用于TAD,但还没有表现良好。本文指出了TAD的DETR自注意问题;注意力模块集中在几个关键元素上,称为时间崩溃问题。它降低了编码器和解码器的能力,因为它们的自注意模块不起作用。为了解决这个问题,我们提出了一个新的框架,Self-DETR,它利用交叉注意图的解码器重新激活自我注意模块。我们通过简单的矩阵乘法的交叉注意图和转置恢复编码器功能之间的关系。同样,我们也得到解码器查询中的信息。通过用计算出的引导图引导折叠的自我注意图,我们解决了编码器和解码器中自我注意模块的时间折叠。我们广泛的实验表明,Self-DETR解决了时间崩溃的问题,保持高度多样性的注意力在所有层。

1.3 Spatial Transform Decoupling for Oriented Object Detection

面向目标检测的空间变换解耦方法

https://arxiv.org/abs/2308.10561

Vision Transformers(ViTs)在计算机视觉任务中取得了显著的成功。然而,它们在旋转敏感场景中的潜力尚未得到充分探索,并且这种限制可能固有地归因于数据转发过程中缺乏空间不变性。在这项研究中,我们提出了一种新的方法,称为空间变换解耦(STD),提供了一个简单而有效的解决方案,面向对象检测与ViTs。STD建立在堆叠的ViT块上,利用单独的网络分支来预测边界框的位置、大小和角度,以分而治之的方式有效地利用ViT的空间变换潜力。此外,通过聚合级联激活掩模(CAM)的回归参数计算,STD逐渐增强功能的兴趣区域(ROI),补充了自我注意力机制。在没有花里胡哨的情况下,STD在包括DOTA-v1.0(82.24%mAP)和HRSC 2016(98.55%mAP)在内的基准数据集上实现了最先进的性能,这证明了所提出的方法的有效性。源代码可在https://github.com/yuhongtian17/Spatial-Transform-Decoupling获得。

1.4 PHE-SICH-CT-IDS: A Benchmark CT Image Dataset for Evaluation Semantic Segmentation, Object Detection and Radiomic Feature Extraction of Perihematomal Edema in Spontaneous Intracerebral Hemorrhage

PHE-SICH-CT-IDS:用于评价自发性脑出血血肿周围水肿语义分割、目标检测和放射状特征提取的基准CT图像数据集

https://arxiv.org/abs/2308.10521

脑出血是世界范围内死亡率最高、预后最差的疾病之一。自发性脑内出血(SICH)通常表现为急性,及时和快速的放射学检查对于出血的诊断、定位和定量至关重要。血肿周围水肿(PHE)的早期检测和准确分割对于指导临床采取适当的干预措施和改善患者预后具有重要意义。然而,进展和评估的PHE分割和检测的计算机辅助诊断方法面临的挑战,由于缺乏公开访问的脑CT图像数据集。本研究建立了一个名为PHE-SICH-CT-IDS的公开可用CT数据集,用于自发性脑出血血肿周围水肿。数据集包括120个脑部CT扫描和7,022个CT图像,以及患者的相应医疗信息。为了证明其有效性,经典算法的语义分割,对象检测和放射性特征提取进行评估。实验结果证实了PHE-SICH-CT-IDS用于评估分割,检测和辐射特征提取方法的性能的适用性。据我们所知,这是SICH中PHE的第一个公开可用的数据集,包括适用于不同医疗场景应用的各种数据格式。我们相信PHE-SICH-CT-IDS将吸引研究人员探索新的算法,为临床医生和患者提供有价值的支持。PHE-SICH-CT-IDS出于非商业目的免费发布于:https://figshare.com/articles/dataset/PHE-SICH-CT-IDS/23957937。

1.5 QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D Object Detection

QD-BEV:基于量化感知的视点引导多视点三维目标检测

https://arxiv.org/abs/2308.10515

基于BEV(bird-eye-view)的多视图3D检测最近取得了显著的改进。然而,最先进的模型的巨大内存消耗使得很难将它们部署在车辆上,并且不平凡的延迟将影响流媒体应用的实时感知。尽管量化在减轻模型方面的广泛应用,但我们在论文中表明,直接在BEV任务中应用量化将1)使训练不稳定,2)导致不可容忍的性能下降。为了解决这些问题,我们的方法QD-BEV实现了一个新的视图引导蒸馏(VGD)的目标,它可以稳定量化感知训练(QAT),同时提高模型性能,利用图像特征和BEV特征。我们的实验表明,QD-BEV实现了类似甚至更好的精度比以前的方法显着的效率增益。在nuScenes数据集上,4位权重和6位激活量化的QD-BEV-Tiny模型仅用15.8 MB的模型大小实现了37.2%的NDS,在8倍模型压缩下比BevFormer-Tiny高出1.8%。在Small和Base车型上,QD-BEV车型也表现出色,分别实现了47.9% NDS(28.2 MB)和50.9% NDS(32.9 MB)。

1.6 Towards Generalizable Morph Attack Detection with Consistency Regularization

基于一致性正则化的泛化形态攻击检测

https://arxiv.org/abs/2308.10392

尽管最近的研究在借助深度神经网络检测变形攻击方面取得了重大进展,但它们往往无法很好地推广到不可见的变形攻击。随着变形攻击的频繁出现,可泛化变形攻击检测技术得到了广泛关注。本文从一致性正则化的角度研究了变形攻击检测的泛化能力。一致性正则化操作的前提下,广义变形攻击检测应输出一致的预测,而不管可能发生在输入空间中的变化。在这项工作中,为了达到这一目标,提出了两个简单而有效的形态明智的增强,以探索一个广阔的空间现实的形态变换在我们的一致性正则化。然后,该模型被正则化以在logit以及跨广泛的morph-wise增强图像的嵌入水平一致地学习。所提出的一致性正则化对齐我们模型的隐藏层中的抽象跨越变形攻击图像,这些图像是从野外的不同领域生成的。实验结果表明,我们提出的方法相比,最先进的研究,优越的泛化和鲁棒性的性能。

1.7 Representation Disparity-aware Distillation for 3D Object Detection

基于表示视差感知的三维目标检测方法

https://arxiv.org/abs/2308.10308

在本文中,我们专注于开发知识蒸馏(KD)紧凑的3D探测器。我们观察到,现成的KD方法,只有当教师模型和学生对应共享类似的中间特征表示表现出其功效。这可以解释为什么它们在构建极端紧凑的3D检测器时效率较低,其中主要由于3D点云中的固有稀疏性和不规则性而产生显著的表示差异。本文提出了一种新的表示差异意识蒸馏(RDD)方法,以解决表示差异的问题,并减少紧凑的学生和过度参数化的教师之间的性能差距。这是通过建立我们的RDD从一个创新的角度来看,信息瓶颈(IB),它可以有效地减少差异的建议区域对学生和教师的功能和逻辑。进行了大量的实验,以证明我们的RDD优于现有的KD方法。例如,我们的RDD在nuScenes数据集上将CP-Voxel-S的mAP增加到57.1%,这甚至超过了教师的表现,同时仅占用42%的FLOP。

1.8 From Global to Local: Multi-scale Out-of-distribution Detection

从全局到局部:多尺度分布外检测

https://arxiv.org/abs/2308.10239

分布外(OOD)检测旨在检测在分布内(ID)训练过程中未看到标签的“未知”数据。表示学习的最新进展产生了基于距离的OOD检测,其根据输入与ID类的训练数据的相对距离将输入识别为ID/OOD。先前的方法仅依赖于全局图像表示来计算成对距离,这可能是次优的,因为不可避免的背景杂波和类内变化可能在给定的表示空间中驱动来自相同ID类的图像级表示远离。在这项工作中,我们克服了这一挑战,提出多尺度OOD检测(MODE),第一个框架,利用全球视觉信息和局部区域的图像细节,最大限度地受益OOD检测。具体来说,我们首先发现,现有的模型预训练现成的交叉熵或对比损失是无能的,以捕捉有价值的本地表示模式,由于ID训练和OOD检测过程之间的规模差异。为了缓解这个问题,并鼓励在ID训练中的局部判别表示,我们提出了基于注意力的局部PropAgation(ALPA),这是一种可训练的目标,它利用交叉注意力机制来对齐和突出目标对象的局部区域,以用于成对示例。在测试时间OOD检测期间,在最具鉴别力的多尺度表示上进一步设计了跨尺度决策(CSD)函数,以更忠实地区分ID/OOD数据。我们在几个基准测试中展示了MODE的有效性和灵活性-平均而言,MODE在FPR中的表现优于先前的最先进水平,最高可达19.24%,在AUROC中为2.77%。代码可在https://github.com/JimZAI/MODE-OOD上获得。

1.9 FedSIS: Federated Split Learning with Intermediate Representation Sampling for Privacy-preserving Generalized Face Presentation Attack Detection

FedSIS:基于中间表示抽样的联合分裂学习隐私保护广义人脸呈现攻击检测

https://arxiv.org/abs/2308.10236

缺乏对不可见域/攻击的泛化是大多数面部呈现攻击检测(FacePAD)算法的致命弱点。增强FacePAD解决方案的通用性的现有尝试假设来自多个源域的数据可用于单个实体以实现集中训练。在实践中,来自不同源域的数据可以由不同的实体收集,这些实体通常由于法律和隐私约束而不能共享其数据。虽然诸如联邦学习(FL)的协作学习范式可以克服这个问题,但标准FL方法不适合领域泛化,因为它们难以克服在训练期间处理非iid客户端数据分布和在推断期间泛化到看不见的领域的双重挑战。在这项工作中,一种新的框架,称为联邦分裂学习与中间表示采样(FedSIS)的隐私保护域推广。在FedSIS中,混合Vision Transformer(ViT)架构使用FL和分裂学习的组合来学习,以实现针对客户端数据分布中统计异构性的鲁棒性,而无需任何原始数据共享(从而保护隐私)。为了进一步提高泛化到看不见的领域,一种新的特征增强策略,称为中间表示采样,和歧视性的信息从中间块的ViT蒸馏使用共享适配器网络。FedSIS方法已经在两个著名的跨域FacePAD基准测试中进行了评估,以证明在没有数据共享的情况下可以实现最先进的泛化性能。产品编号:https://github.com/Naiftt/FedSIS

1.10 Neural Interactive Keypoint Detection

神经交互关键点检测

https://arxiv.org/abs/2308.10174

这项工作提出了一个端到端的神经交互关键点检测框架Click-Pose,它可以显着降低10倍以上的标记成本相比,2D关键点标注。Click-Pose探索了用户反馈如何与神经关键点检测器合作,以交互式方式校正预测的关键点,从而实现更快、更有效的注释过程。具体地,我们设计了位姿误差建模策略,将地面真值位姿结合四种典型位姿误差输入解码器,训练模型重构正确位姿,增强了模型的自校正能力。然后,我们附加了一个交互式的人类反馈循环,允许接收用户的点击来纠正一个或多个预测的关键点,并迭代地利用解码器来更新所有其他关键点,以最小的点击次数(NoC)进行有效的注释。我们验证点击姿势在域中,域外的场景,和一个新的任务的关键点适应。对于注释,Click-Pose在COCO和Human-Art上仅需要1.97和6.45 NoC@95(精确度95%),比SOTA模型(ViTPose)分别减少31.4%和36.3%的工作量。此外,在没有用户点击的情况下,Click-Pose在COCO上超过了1.4 AP和3.0 AP,在Human-Art上超过了之前的端到端模型。该代码可在www.example.com上获得https://github.com/IDEA-Research/Click-Pose。

1.11 ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions

ThermRad:一种用于挑战条件下稳健3D目标检测的多模式数据集

https://arxiv.org/abs/2308.10161

在极端天气和光照条件下的鲁棒3D物体检测是一项具有挑战性的任务。虽然雷达和热相机以其对这些条件的适应性而闻名,但由于缺乏相应的数据集,很少有研究对雷达热融合进行。为了解决这一差距,我们首先提出了一个名为ThermRad的新的多模态数据集,其中包括3D LiDAR,4D雷达,RGB相机和热成像相机。该数据集是独一无二的,因为它包含了极端天气条件下所有四个传感器的数据,为该领域的未来研究提供了宝贵的资源。为了验证4D雷达和热像仪在具有挑战性的天气条件下3D物体检测的鲁棒性,我们提出了一种新的多模态融合方法RTDF-RCNN,它利用4D雷达和热像仪的互补优势来提高物体检测性能。为了进一步证明我们提出的框架的有效性,我们重新实现了国家的最先进的(SOTA)3D探测器在我们的数据集上的评估基准。我们的方法在检测汽车,行人和骑自行车的人方面实现了显着的增强,分别提高了7.98%,24.27%和27.15%,同时实现了与基于LiDAR的方法相当的结果。我们在ThermRad数据集和新的多模态融合方法中的贡献提供了一种新的方法,在恶劣的天气和光照条件下进行鲁棒的3D物体检测。ThermRad数据集即将发布。

1.12 HODN: Disentangling Human-Object Feature for HOI Detection

HODN:一种用于HOI检测的解缠人-物特征

https://arxiv.org/abs/2308.10158

人-物体交互检测的任务是检测人及其与周围物体的交互,其中基于变换器的方法显示出目前的主要进展。然而,这些方法忽略了人、对象和交互之间的关系:1)人的特征比物体的特征对交互预测的贡献更大; 2)交互信息干扰对象的检测,但有助于人的检测。在本文中,我们提出了一个人和对象的解开网络(HODN)模型的HOI的关系显式,其中人和对象首先检测两个解开解码器独立,然后由一个交互解码器处理。考虑到人类特征对交互的贡献更大,我们提出了一种人类引导链接方法,以确保交互解码器专注于以人类为中心的区域,并将人类特征作为位置嵌入。为了处理交互对人和对象的相反影响,我们提出了一种停止梯度机制,以停止交互梯度优化对象检测,但允许他们优化人类检测。我们提出的方法在V-COCO和HICO-Det数据集上都取得了有竞争力的性能。它可以很容易地与现有的方法相结合,以获得最先进的结果。

1.13 Unilaterally Aggregated Contrastive Learning with Hierarchical Augmentation for Anomaly Detection

用于异常检测的分层增强单向聚合对比学习

https://arxiv.org/abs/2308.10155

异常检测(AD),旨在发现偏离训练分布的样本,在安全关键应用中是必不可少的。虽然最近基于自我监督学习的尝试通过创建虚拟离群值来实现有希望的结果,但它们的训练目标不太忠实于AD,AD需要集中的内点分布以及分散的离群值分布。在本文中,我们提出了单方面聚合对比学习与分层增强(UniCon-HA),考虑到上述两个要求。具体而言,我们明确地鼓励集中的内点和虚拟离群点的分散通过监督和无监督对比损失,分别。考虑到用于生成积极视图的标准对比数据增强可能会引起离群值,我们还引入了一种软机制,以根据其与内点分布的偏差重新加权每个增强的内点,以确保纯化的浓度。此外,为了促进更高的浓度,课程学习的启发,我们采用了一个容易到硬的层次增强策略,并根据数据增强的优势在网络的不同深度进行对比聚合。我们的方法进行了评估,三个AD设置,包括未标记的一类,未标记的多类,并标记的多类,证明其一贯的优势,其他竞争对手。

1.14 DyFFPAD: Dynamic Fusion of Convolutional and Handcrafted Features for Fingerprint Presentation Attack Detection

DyFFPAD:用于指纹呈现攻击检测的卷积和手工特征的动态融合

https://arxiv.org/abs/2308.10015

自动指纹识别系统由于其在包括国界和商业应用的领域中的广泛应用而遭受呈现攻击的威胁。呈现攻击可以通过在具有或不具有主体意图的情况下制造用户的假指纹来执行。本文提出了一种深度学习和手工制作的功能的动态集成,以检测已知材料和未知材料协议中的演示攻击。所提出的模型是深度CNN和手工制作的功能的动态集成,这两个功能都可以一起学习它们的参数。提出的演示攻击检测模型,以这种方式,利用的能力的分类技术和表现出更好的性能比他们的单独的结果。该模型的性能使用基准LivDet 2015,2017和2019数据库进行了验证,总体准确率分别为96.10%,96.49%和95.99%。该模型在分类准确性方面优于现有的最先进的方法在基准协议的演示攻击检测。

1.15 Recap: Detecting Deepfake Video with Unpredictable Tampered Traces via Recovering Faces and Mapping Recovered Faces

基于人脸恢复和人脸映射的不可预测篡改深度伪视频检测

https://arxiv.org/abs/2308.09921

针对恶意意图的Deepfake技术的利用已经引起了对Deepfake检测的重大研究兴趣。Deepfake操作经常引入随机篡改痕迹,导致不同面部区域的不可预测结果。然而,现有的检测方法严重依赖于特定的伪造指标,并且随着伪造模式的改进,这些痕迹变得越来越随机化,导致依赖于特定伪造痕迹的方法的检测性能下降。为了解决这个问题,我们提出了一种新的Deepfake检测模型Recap,它通过恢复人脸来暴露非特定的面部部分不一致,并通过映射恢复的人脸来扩大真实和虚假之间的差异。在恢复阶段,该模型专注于随机掩蔽感兴趣区域(ROI)和重建真实人脸,而没有不可预测的篡改痕迹,从而对真实人脸有较好的恢复效果,而对假人脸的恢复效果较差。在映射阶段,恢复阶段的输出用作监督以指导面部映射过程。该映射过程战略性地强调了恢复较差的假面孔的映射,导致其表示的进一步恶化,同时增强和改进具有良好表示的真实面孔的映射。因此,这种方法大大放大了真实视频和虚假视频之间的差异。我们在标准基准测试上的大量实验表明,Recap在多种情况下都是有效的。

1.16 Towards a High-Performance Object Detector: Insights from Drone Detection Using ViT and CNN-based Deep Learning Models

迈向高性能目标探测器:基于VIT和CNN深度学习模型的无人机检测启示

https://arxiv.org/abs/2308.09899

在无人机避碰、无人机防御和自主无人机自主着陆等领域,迫切需要对无人机进行准确的检测。随着最近出现的Vision Transformer(ViT),这一关键任务是重新评估在本文中使用无人机数据集组成的1359无人机照片。我们构建了各种基于CNN和ViT的模型,证明对于单无人机检测,基本的ViT可以实现比我们最好的基于CNN的迁移学习模型更强大的性能4.6倍。通过在多无人机检测中实施最先进的You Only Look Once(YOLO v7,200 epoch)和实验性的基于ViT的You Only Look At One Sequence(YOLOS,20 epoch),我们分别获得了令人印象深刻的98%和96% mAP值。我们发现,ViT在同一时期优于CNN,但也需要更多的训练数据,计算能力和复杂的,以性能为导向的设计,以完全超越尖端CNN检测器的能力。我们总结了ViT和CNN模型的独特特征,以帮助未来的研究人员开发更高效的深度学习模型。

1.17 Dual Branch Deep Learning Network for Detection and Stage Grading of Diabetic Retinopathy

用于糖尿病视网膜病变检测和分期的双分支深度学习网络

https://arxiv.org/abs/2308.09945

糖尿病视网膜病变是糖尿病的一种严重并发症,如果不及时治疗,可导致永久失明。早期和准确的诊断是成功治疗的关键。本文介绍了一种用于糖尿病视网膜病变检测和分期分级的深度学习方法,使用单个眼底视网膜图像。我们的模型利用迁移学习,采用两个最先进的预训练模型作为特征提取器,并在新的数据集上对它们进行微调。该模型在大型多中心数据集上进行训练,包括从公开来源获得的APTOS 2019数据集。它在APTOS 2019上的糖尿病视网膜病变检测和分期分类方面取得了卓越的性能,超过了已有的文献。对于二元分类,所提出的方法达到98.50%的准确度,99.46%的灵敏度,97.51%的特异性。在分期分级中,二次加权kappa值为93.00%,准确率为89.60%,敏感性为89.60%,特异性为97.72%。所提出的方法作为糖尿病视网膜病变的可靠筛查和分期分级工具,提供了显着的潜力,以加强临床决策和患者护理。

你可能感兴趣的:(计算机视觉arxiv最新论文,计算机视觉,目标检测,人工智能)