计算机视觉最新进展概览(2021年5月9日到2021年5月15日)

1、Sample and Computation Redistribution for Efficient Face Detection

尽管非控制人脸检测已经取得了巨大的进步,但低计算成本和高精度的高效人脸检测仍然是一个开放性的挑战。本文指出训练数据采样和计算分布策略是高效、准确的人脸检测的关键。基于这些观察结果,我们介绍了两种简单而有效的方法(1)样本再分配(Sample Redistribution, SR),该方法基于基准数据集的统计数据,在最需要的阶段增加训练样本;(2)计算重分配(CR),基于精心定义的搜索方法,在模型的主干、颈部和头部之间重新分配计算。在WIDER FACE上进行的大量实验表明,在广泛的计算机制中,所提议的\scrfd系列具有最先进的效率-精度权衡。特别是,\ scfdf{34}比最佳竞争对手TinaFace的性能高出3.86%(难集AP),同时在具有vga分辨率图像的gpu上的速度要快3倍以上。

2、Let There be Light: Improved Traffic Surveillance via Detail Preserving Night-to-Day Transfer

近年来,在深度卷积神经网络(CNNs)的帮助下,图像和视频监控在智能交通系统(ITS)中取得了长足的进展。作为一种先进的感知方法,智能交通系统对视频监控中每一帧感兴趣的目标进行检测是其广泛的研究方向。目前,在照明条件良好的白天场景等标准场景中,目标检测显示出了显著的效率和可靠性。然而,在夜间等不利条件下,目标检测的准确性明显下降。造成这一问题的主要原因之一是缺乏足够的夜间场景标注检测数据集。本文提出了一种基于图像平移的目标检测框架,以解决在不利条件下目标检测精度下降的问题。我们提出利用基于风格翻译的StyleMix方法获取白天图像和夜间图像对,作为夜间图像到日间图像转换的训练数据。为了减少生成对抗网络(GANs)带来的细节破坏,我们提出了基于核预测网络(KPN)的方法来细化夜间到白天的图像翻译。KPN网络与目标检测任务一起训练,使训练好的白天模型直接适应夜间车辆检测。车辆检测实验验证了该方法的准确性和有效性。

3、Vision-Guided Active Tactile Perception for Crack Detection and Reconstruction

裂缝检测对于监测桥梁、地下管道等基础设施的完整性和安危具有重要意义,这些基础设施是人们难以进入的恶劣环境。近年来,计算机视觉技术已被应用于混凝土结构的裂缝检测中。然而,它们在光照条件和阴影条件下存在差异,缺乏鲁棒性,导致许多误报。为了解决视觉中的不确定性,人类检查员在视觉的引导下主动接触结构表面,这在自动裂缝检测中尚未探索。本文提出了一种基于视觉引导的主动触觉感知的混凝土结构裂缝检测与重构方法。给出结构的RGB-D图像,首先利用微调的深度卷积神经网络对结构表面的裂纹粗轮廓进行分割,生成一组接触点,指导基于摄像头的光学触觉传感器采集触觉图像。当接触时,可以从触觉图像中获得一个像素级的裂纹掩模,因此可以通过对齐RGB-D图像和触觉图像来细化裂纹轮廓。大量实验结果表明,与仅用视觉进行裂缝检测相比,所提出的方法显著提高了裂缝检测和重建的有效性和鲁棒性,具有让机器人帮助人类检测和修复混凝土基础设施的潜力。

4、Class-Incremental Few-Shot Object Detection

传统的检测网络通常需要大量的标记训练样本,而人类只需要几个样本就可以逐步学习新的概念。本文主要研究一个更具有挑战性但更现实的类增量式少样本目标检测问题(iFSD)。它的目的是从少量的注释样本中增量地转移新目标的模型,而不会灾难性地忘记之前学习过的目标。为了解决这一问题,我们提出了一种新的最小迁移方法,该方法具有较少的遗忘、较少的训练资源和较强的迁移能力。具体而言,我们首先提出了减少不必要的权值适应,提高iFSD的迁移能力的迁移策略。在此基础上,我们采用一种资源消耗更少的方法来整合知识精馏技术以减少遗忘,并提出一种新的基于聚类的样本选择过程,以保留更多的判别特征。作为一种通用而有效的方法,LEAST可以极大地提高iFSD在各种基准上的性能。

5、Conformer: Local Features Coupling Global Representations for Visual Recognition

在卷积神经网络(Convolutional Neural Network, CNN)中,卷积运算擅长提取局部特征,但难以捕获全局表示。在视觉转换器中,级联的自注意模块可以捕获远距离的特征依赖性,但不幸的是会破坏局部特征细节。在本文中,我们提出了一种混合网络结构,称为Conformer,以利用卷积运算和自注意机制来增强表示学习。特征耦合单元(FCU)中的共形根,以交互方式融合不同分辨率下的局部特征和全局表示。Conformer采用并行结构,最大限度地保留局部特征和全局表示。实验表明,在相同参数复杂度下,Conformer在ImageNet上的性能比可视化转换器(DeiT-B)高出2.3%。在MSCOCO上,它在目标检测和实例分割方面的性能分别比ResNet-101高出3.7%和3.6%,显示了它作为通用骨干网的巨大潜力。代码可在此https URL中获得。

你可能感兴趣的:(计算机视觉,计算机视觉,人工智能,深度学习)