用于零射OOD检测的CLIPN:教学片段说不
https://arxiv.org/abs/2308.12213
分布外(OOD)检测是指在分布内(ID)数据集上训练模型以分类输入图像是否来自未知类。在设计基于卷积神经网络或Transformers的各种OOD检测方法方面已经投入了相当大的努力。然而,由CLIP驱动的zero-shot OOD检测方法只需要ID的类名,受到的关注较少。本文提出了一种新的方法,即CLIP说“不”(\textbf{CLIPN}),它赋予了CLIP中说“不”的逻辑。我们的主要动机是配备CLIP的能力,区分OOD和ID样本使用积极的语义提示和消极的语义提示。具体来说,我们设计了一个新的可学习的“没有”提示和“没有”文本编码器捕捉否定语义的图像。随后,我们引入两个损失函数:图像-文本二元对立损失和文本语义对立损失,我们使用它们来教导CLIPN将图像与“否”提示相关联,从而使其能够识别未知样本。此外,我们提出了两个无阈值的推理算法来执行OOD检测利用否定语义从“没有”提示和文本编码器。针对OOD检测任务的9个基准数据集(3个ID数据集和6个OOD数据集)的实验结果表明,在ImageNet-1 K上,基于ViT-B-16的CLIPN在AUROC和FPR 95方面优于7种常用算法至少2.34%和11.64%。我们的CLIPN可以作为在下游OOD任务中有效利用CLIP的坚实基础。代码可在https://github.com/xmed-lab/CLIPN}{https://github.com/xmed-lab/CLIPN.
Lite-HRNet Plus:快速准确的人脸标志点检测
https://arxiv.org/abs/2308.12133
人脸标志检测是驾驶员状态跟踪的重要技术,并且一直是实时估计的需求。作为地标坐标预测,已知基于热图的方法实现高精度,并且Lite-HRNet可以实现快速估计。然而,与Lite-HRNet,一个沉重的计算成本的融合块,连接不同分辨率的特征图,尚未解决的问题。此外,HRNetV 2中使用的强输出模块不适用于Lite-HRNet。鉴于这些问题,我们提出了一种新的架构称为Lite-HRNet Plus。Lite-HRNet Plus实现了两项改进:基于信道关注的新颖融合块和使用多分辨率特征图的具有较少计算强度的新颖输出模块。通过在两个面部标志数据集上进行的实验,我们证实了Lite-HRNet Plus与传统方法相比进一步提高了精度,并实现了最先进的精度,计算复杂度为10 M FLOPs的范围。
基于跨通道建议的非注册RGB热行人检测特征挖掘
https://arxiv.org/abs/2308.12111
RGB-T(RGB-Thermal)行人检测旨在定位RGB-T图像对中的行人,以利用两种模式之间的互补性来提高极端条件下的检测鲁棒性。大多数现有算法假设RGB-T图像对被很好地配准,而在现实世界中,由于相机的视差或不同视场,它们没有理想地对准。未对准图像对中的行人可能位于两个图像中的不同位置,这导致两个挑战:1)如何使用空间未对准的RGB-T行人块来实现模态间互补,以及2)如何识别边界处的未配对行人。为了处理这些问题,我们提出了一个新的范例未注册的RGB-T行人检测,预测两个单独的行人位置的RGB和热图像,分别。具体来说,我们提出了一个跨模态建议引导的特征挖掘(CPFM)机制,以提取两个精确的融合功能,用于表示行人在两种模式,即使RGB-T图像对未对齐。它使我们能够有效地利用这两种模式之间的互补性。利用CPFM机制,构造了一个双流稠密检测器;它基于CPFM机制挖掘的相应融合特征预测两种模态中的两个行人位置。此外,我们设计了一个数据增强方法,命名为单应性,模拟图像之间的比例和视图的差异。我们还研究了两个非最大值抑制(NMS)的后处理方法。良好的实验结果表明,我们的方法在处理未注册的行人与不同的转变的有效性和鲁棒性。
HarvestNet:一个利用收获桩和遥感监测小农耕作活动的数据集
https://arxiv.org/abs/2308.12061
小农场占发展中国家生产性土地的很大一部分。在撒哈拉以南非洲等地区,80%的农场都是小型农场(面积小于2公顷),绘制小农农田地图是跟踪作物生产力等可持续性措施的重要组成部分。然而,小农场在视觉上的多样性和细微差别的外观限制了传统的农田制图方法的有效性。在这里,我们介绍了一种新的方法的基础上,检测收获堆的特点,许多小农系统在世界各地。我们提出了HarvestNet,一个数据集,用于绘制2020-2023年埃塞俄比亚提格雷和阿姆哈拉地区农场的存在,使用专家知识和卫星图像收集,总计7 k手工标记图像和2k地面收集标签。我们还对一组基线进行了基准测试,包括遥感中的SOTA模型,其中我们最好的模型分别在Tigray,Amhara的手工标记数据上具有约80%的分类性能和90%,98%的地面真实数据准确度。我们还与广泛使用的预先存在的覆盖地图进行了视觉比较,并显示我们的模型在提格雷州检测到额外的56,621公顷农田。我们的结论是,遥感收获堆有助于更及时,准确地评估粮食不安全地区的耕地。
基于深度无监督RGB2深度自适应的支持隐私的跌倒检测
https://arxiv.org/abs/2308.12049
跌倒检测是健康监测中的一项重要任务,因为它允许系统触发警报,从而在人跌倒时实现更快的干预。虽然大多数以前的方法依赖于标准的RGB视频数据,这种详细的外观感知监控提出了显着的隐私问题。另一方面,深度传感器在保护隐私方面更好,因为它们仅捕获物体与传感器或相机的距离,而忽略了颜色和纹理信息。在本文中,我们介绍了一种支持隐私的解决方案,该解决方案使RGB训练的模型适用于深度域,并在测试时利用深度数据进行跌倒检测。为了实现跨模态跌倒检测,我们提出了一种无监督的RGB到深度(RGB2Depth)跨模态域自适应方法,该方法在训练期间利用标记的RGB数据和未标记的深度数据。我们提出的管道采用了一个中间域模块的功能桥接,模态对抗损失的模态歧视,分类损失的伪标记的深度数据和标记的源数据,三重损失,考虑源和目标域,和一种新的自适应损失权重调整方法,以改善各种损失之间的协调。我们的方法在用于跌倒检测的无监督RGB2Depth域适应任务中实现了最先进的结果。代码可在https://github.com/1015206533/privacy_supporting_fall_detection上获得。
基于分布感知的噪声包围盒目标检测方法
https://arxiv.org/abs/2308.12017
大规模的良好注释的数据集是非常重要的训练一个有效的对象检测器。然而,获得准确的边界框注释是费力和苛刻的。不幸的是,所得到的噪声边界框可能导致损坏的监督信号,从而降低检测性能。由观察,真正的地面实况通常位于聚集区域的建议分配到一个嘈杂的地面实况,我们提出分配感知校准(DISCO)建模的空间分布的建议校准监督信号。在DISCO中,空间分布建模被执行以统计地提取对象的潜在位置。基于建模的分布,三种分布感知技术,即,分布感知提议增强(DA-Aug)、分布感知框细化(DA-Ref)和分布感知置信度估计(DA-Est)分别被开发以改进分类、本地化和可解释性。对大规模噪声图像数据集(即,Pascal VOC和MS-COCO)证明DISCO可以实现最先进的检测性能,特别是在高噪声水平下。
AMSP-UOD:涡旋卷积和随机扰动相遇时的水下目标检测
https://arxiv.org/abs/2308.11918
在本文中,我们提出了一种新的调幅随机扰动和旋涡卷积网络,AMSP-UOD,设计用于水下目标检测。AMSP-UOD专门解决了复杂水下环境中非理想成像因素对探测精度的影响。为了减轻噪声对目标检测性能的影响,我们提出了AMSP涡旋卷积(AMSP-VConv)来扰乱噪声分布,增强特征提取能力,有效地减少参数,提高网络的鲁棒性。设计了特征关联解耦跨阶段部分(FAD-CSP)模块,加强了长、短距离特征的关联,提高了复杂水下环境下的网络性能。此外,我们先进的后处理方法,基于非最大抑制与纵横比相似性阈值,优化检测密集的场景,如水草和鱼群,提高对象检测的准确性。在URPC和RUOD数据集上的大量实验表明,我们的方法在准确性和抗噪性方面优于现有的最先进的方法。AMSP-UOD提出了一种具有实际应用潜力的创新解决方案。代码将公开提供。
异常检测的一类分类优化目标探讨
https://arxiv.org/abs/2308.11898
单类分类(OCC)是一种长期存在的异常检测方法。由于预训练骨干的强大表示能力,OCC方法已经见证了显着的性能改进。通常,这些OCC方法中的大多数采用转移学习来增强预先训练的主干的特征的区分性质,从而实现显著的功效。虽然目前大多数方法强调功能转移策略,我们认为,OCC方法内的优化目标空间也可能是一个潜在的关键因素影响性能。在这项工作中,我们进行了深入的调查OCC的优化目标。通过严格的理论分析和推导,我们揭示了一个关键的见解:具有适当范数的任何空间可以充当超球中心的等效替代,而不依赖于训练样本的分布假设。此外,我们提供的准则,用于确定的OCC优化目标的规范的可行域。这种新颖的见解激发了一种简单且与数据无关的深层单类分类方法。我们的方法很简单,使用单个1x1卷积层作为可训练投影仪,任何具有合适范数的空间作为优化目标。大量的实验验证了我们的研究结果和相应的方法的可靠性和有效性,导致在一流的性能,在一类分类和工业视觉异常检测和分割任务。
一种可扩展的基于点的数据图值检测方法
https://arxiv.org/abs/2308.11788
我们提出了一个可扩展的方法,用于识别语义点的逆向工程(即。提取数据图表的值,尤其是科学文章中的数据图表。我们的方法使用点建议网络(类似于用于对象检测的区域建议网络)来直接预测图表中感兴趣的点的位置,并且它很容易扩展到多个图表类型和图表元素。我们专注于科学文献中的复杂条形图,我们的模型能够以0.8705 F1的精度检测显著点(@1.5-cell最大偏差);它实现了0.9810 F1的合成生成的图表中使用的那些类似于先前的作品。我们还专门探索了具有新增强的合成数据的训练,以这种方式在具有广泛变化的外观的真实图表上达到了令人惊讶的能力表现(0.6621 F1),并且我们进一步证明了我们的不变方法直接应用于合成饼图(0.8343 F1)。数据集、训练模型和评估代码可在https://github.com/BNLNLP/PPN_model上获得。
VadCLIP:基于视觉语言模型的弱监督视频异常检测
https://arxiv.org/abs/2308.11681
最近的对比语言-图像预训练(CLIP)模型在广泛的图像级任务中表现出了巨大的成功,揭示了显着的能力,学习强大的视觉表示与丰富的语义。一个开放的和有价值的问题是有效地适应这样一个强大的模型,视频域和设计一个强大的视频异常检测器。在这项工作中,我们提出了VadCLIP,弱监督视频异常检测(WSVAD)的一个新的范例,直接利用冻结CLIP模型,而无需任何预训练和微调过程。与当前直接将提取的特征馈送到用于帧级二进制分类的弱监督分类器中的作品不同,VadCLIP充分利用了CLIP强度上的视觉和语言之间的细粒度关联,并且涉及双分支。一个分支简单地利用视觉特征进行粗粒度的二进制分类,而另一个分支则充分利用细粒度的语言图像对齐。VadCLIP通过将预先训练好的知识从CLIP传输到WSVAD任务,实现了粗粒度和细粒度视频异常检测。我们进行了广泛的实验,两个常用的基准测试,证明VadCLIP实现最佳性能的粗粒度和细粒度的WSVAD,超越了国家的最先进的方法的大幅度。具体而言,VadCLIP在XD暴力和UCF犯罪上分别实现了84.51%的AP和88.02%的AUC。将发布代码和功能,以促进未来的VAD研究。