极端施工条件下的个人防护装备检测
https://arxiv.org/abs/2307.13654
物体检测在建筑安全管理中得到了广泛的应用,尤其是对个人防护用品(PPE)的检测。虽然现有的PPE检测模型在传统数据集上训练取得了优异的结果,但在极端施工条件下,其性能急剧下降。结合神经风格转换(NST)和YOLOv 5技术,提出了一种鲁棒的检测模型NST-YOLOv 5。通过NST模块考虑并模拟了五种极端条件,包括弱光、强光、沙尘、雾和雨,以赋予检测模型优异的鲁棒性。实验结果表明,NST作为一种极端数据合成工具具有很大的潜力,因为它比其他传统的图像处理算法更好地模拟极端条件,并帮助NST-YOLOv 5在合成和真实世界的极端数据中实现了0.141和0.083 mAP_(05:95)的改进。该研究为获得更稳健的极端施工条件检测模型提供了一种新的可行途径。
RecursiveDet:基于端到端区域的递归目标检测
https://arxiv.org/abs/2307.13619
像Sparse R-CNN这样的端到端基于区域的对象检测器通常具有多个级联边界框解码阶段,这些阶段根据先前的结果来细化当前预测。每个阶段内的模型参数都是独立的,演化成本巨大。在本文中,我们发现一般的设置解码阶段实际上是多余的。通过简单地共享参数和制作递归解码器,检测器已经获得了显著的改进。递归解码器可以通过对建议框的位置编码(PE)来进一步增强,这使得它知道输入边界框的确切位置和大小,从而变得适应于递归期间来自不同阶段的建议。此外,我们还设计了基于中心的PE来区分RoI特征元素和动态卷积核在边界框内的不同位置。为了验证所提出的方法的有效性,我们进行密集的消融,并建立完整的模型,最近的主流区域为基础的检测器。RecusiveDet能够以更少的模型参数和略微增加的计算成本实现明显的性能提升。代码可在https://github.com/bravezzzzzz/RecursiveDet上获得。
重新挖掘、学习和推理:用于语言制导HOI检测的跨通道语义相关性探索
https://arxiv.org/abs/2307.13529
人-物交互(HOI)检测是一项具有挑战性的计算机视觉任务,其需要视觉模型来解决人与物体之间的复杂交互关系并预测HOI三元组。尽管众多的交互组合带来了挑战,但它们也为视觉文本的多模态学习提供了机会。在本文中,我们提出了一个系统和统一的框架(RmLR),提高了HOI检测,将结构化的文本知识。首先,我们定性和定量地分析了两阶段HOI检测器中交互信息的丢失,并提出了一种重新挖掘策略,以生成更全面的视觉表示;其次,我们设计了更细粒度的句子和单词级对齐和知识转移策略,以有效地解决多个交互和多个文本之间的多对多匹配问题,这些策略缓解了多个交互同时发生时出现的匹配混乱问题,从而提高了对齐过程的有效性。最后,通过文本知识增强的视觉特征的HOI推理大大提高了对交互的理解。实验结果表明,我们的方法,国家的最先进的性能达到公共基准的有效性。我们进一步分析了我们的方法的不同组成部分的影响,以提供其疗效的见解。
HeightFormer:鸟眼图中无需额外数据的显式高度建模用于仅摄像机3D目标检测
https://arxiv.org/abs/2307.13510
基于视觉的鸟瞰图(BEV)表示是用于自动驾驶的新兴感知公式。核心挑战是构建具有多相机特征的BEV空间,这是一个一对多不适定问题。深入研究所有以前的BEV表示生成方法,我们发现它们中的大多数分为两种类型:在图像视图中建模深度或在BEV空间中建模高度,主要是以隐式方式。在这项工作中,我们建议在BEV空间中显式地建模高度,这不需要像LiDAR这样的额外数据,并且与建模深度相比,可以适合任意的相机装备和类型。理论上,我们给出了基于高度的方法和基于深度的方法之间的等价性的证明。考虑到建模高度的等价性和一些优点,我们提出了HeightFormer,它以自递归的方式建模高度和不确定性。在没有任何额外数据的情况下,所提出的HeightFormer可以准确地估计BEV中的高度。基准测试结果表明,HeightFormer的性能达到SOTA相比,那些只有相机的方法。
用于在线Few-Shot目标检测的CoS R-CNN
https://arxiv.org/abs/2307.13485
我们提出了Cos R-CNN,这是一个简单的基于样本的R-CNN公式,专为在线Few-Shot对象检测而设计。也就是说,它能够定位和分类图像中的新对象类别,而无需微调。因为R-CNN帧检测是一项学习比较任务:将看不见的类表示为样本图像,并且基于对象与这些样本的相似性来检测对象。基于余弦的分类头允许分类参数对样本嵌入的动态适应,并且鼓励在嵌入空间中聚类类似的类,而不需要手动调整距离度量超参数。这个简单的公式在最近提出的5路ImageNet Few-Shot检测基准测试中取得了最佳结果,击败了在线1/5/10镜头场景超过8/3/1%,并且在新类别的所有镜头中,在线20路少数镜头VOC的表现提高了20%。
一种通用的多模式面向对象检测框架
https://arxiv.org/abs/2307.13069
分布外(OOD)检测识别与训练数据不同的测试样本,这对于确保机器学习(ML)系统的安全性和可靠性至关重要。虽然已经开发了大量的方法来检测单模态OOD样品,但只有少数方法专注于多模态OOD检测。当前基于对比学习的方法主要研究多模态OOD检测,其中给定图像及其对应的文本描述都来自新领域。然而,ML系统的实际部署可能会面临更多由传感器故障、恶劣天气和环境变化等多种因素引起的异常情况。因此,这项工作的目标是同时检测从多个不同的OOD方案中的细粒度的方式。为了实现这一目标,我们提出了一个通用的弱监督OOD检测框架,称为WOOD,它结合了二元分类器和对比学习组件,以获得两者的好处。为了更好地区分在分布(ID)和OOD样本的潜在表示,我们采用铰链损失来约束它们的相似性。此外,我们开发了一个新的评分指标来整合的预测结果,从两个二元分类器和对比学习识别OOD样本。我们在多个真实世界的数据集上评估了所提出的WOOD模型,实验结果表明,WOOD模型优于最先进的多模态OOD检测方法。重要的是,我们的方法是能够同时在三个不同的OOD场景中实现高精度的OOD检测。源代码将在发布时公开提供。
YOLO在肾脏H&E和PAS图像中检测肾小球的研究
https://arxiv.org/abs/2307.13199
背景:通过研究组织模式和细胞形态,分析数字病理学图像对得出诊断结论是必要的。然而,手动评估可能是耗时的、昂贵的,并且易于观察者间和观察者内的变化。目的:为了帮助病理学家使用计算机化的解决方案,必须提出自动组织结构检测和分割。此外,为组织病理学图像生成像素级对象注释是昂贵且耗时的。因此,具有边界框标签的检测模型可以是可行的解决方案。设计:本文研究。YOLO-v4(You-Only-Look-Once),一种用于显微图像的实时物体检测器。YOLO使用单个神经网络来预测感兴趣对象的几个边界框和类概率。YOLO可以通过对整个幻灯片图像进行训练来增强检测性能。本文使用YOLO-v4。用于人体肾脏图像中的肾小球检测。基于两个公共数据集和密歇根大学的私人数据集的不同训练数据设计并进行了多个实验,以微调模型。该模型在密歇根大学的私人数据集上进行了测试,作为两种不同染色剂的外部验证,即苏木精和伊红(H&E)和高碘酸-希夫(PAS)。结果:讨论了所有实验的平均特异性和灵敏度,以及相同数据集上现有分割方法的比较。结论:使用现代AI模型可以在人类肾脏图像中自动检测肾小球。不同染色剂的设计和验证仍然依赖于公共多染色剂数据集的可变性。