作者单位:香港中文大学、字节跳动
Paper: https://arxiv.org/abs/2103.17220
Code: https://github.com/Jia-Research-Lab/SA-AutoAug
本文提出了一种针对目标检测尺度变化问题的自动化数据增强方法,该方法包括一种新的搜索空间和一种搜索过程中的估计指标。该方法搜索得到的数据增强策略在各类检测器和不同数据集上都能带来性能提升,并超越了传统方法。此外,搜索得到的策略存在着一定的规律性,可以为以后人工数据增强设计提供一些帮助。
目标检测是计算机视觉领域的核心任务之一,旨在定位和分类图像中的所有感兴趣的物体。 现实场景中,物体在图像中的尺度千差万别,现有神经网络模型很难同时处理好所有不同尺度的物体。这使得物体尺度变化问题成了目标检测任务的重点和难点。为了提升神经网络模型的尺度不变性,已有的方法主要从网络结构和数据增强两方面入手。网络结构的修改往往会让给模型增加复杂度[1, 2],而数据增强方法独立于模型结构并具有一定的通用性。
数据增强方法大体可以分为色彩变化和几何形变两类,前者包括亮度、对比度、白化等,后者包括平移、旋转、缩放等。针对目标检测任务,有些人工设计的数据增强方法已经取得了显著的效果[3, 4],但这类方法很大程度上依赖于专家经验。自动化数据增强的方法在目标检测任务也有一定的效果。AutoAug-det [5] 在传统 image-level 数据增强的基础上,提出了box-level 数据增强。在物体标注框内部施加色彩变化或几何形变,提升神经网络对目标检测的泛化性能。但该方法的搜索代价昂贵,需要在400块TPUs上花费2天的时间。此外,该方法没有考虑目标检测中物体的尺度问题,这使得该方法还有不小的改进空间。
2.1 搜索空间
2.1.1 Image-level
我们将 Image-level 的数据增强限定在多尺度变化,去搜索将一张图像Zoom-in, Zoom-out的大小和概率。这使得Image-level的数据增强更加简洁,而将传统的色彩变化和几何形变用在box-level的数据增强上。对于Zoom-in 和 Zoom-out操作来说,我们采用crop 或 padding的形式,维持输入图像和输出图像的尺寸不变。
2.1.2 Box-level
在AutoAug-det中,box-level 的数据增强精准地作用在物体的矩形标注框内部,这样做会产生两个问题:首先,这样做会给检测器的预测带来一定的先验,事先让检测器感受到检测框的位置,而测试集上没有这样的先验,降低了检测器定位的能力;更重要的是,神经网络对不同尺寸物体进行预测时,所依赖的范围有很大差别。例如,对大物体进行预测时,神经网络可以仅根据大物体内部的像素进行判断,而对于小物体进行预测时,受神经网络感受野的限制,需要背景像素的帮助。
针对这样的问题,我们对box-level的数据增强做了如下改进:首先,我们采用Gaussian map做alpha-blending,将数据增强前后的像素进行融合;其次,对于不同尺度的物体,我们会去搜索一个系数,该系数代表在对该尺度物体做数据增强的范围大小,决定了Gaussian map的方差。
2.2 搜索策略
传统的自动化数据增强搜索采用代理任务的精度作为不同数据增强策略的评价指标。然而,这样的做法既不够准确,也不够高效。本文提出的搜索空间和尺度问题关联性很强,因此,我们通过统计不同scale物体产生的loss和AP的变化,设计了一个特有的评价指标。该指标旨在使神经网络在不同尺度上优化得尽量均衡,且不对精度造成损失。
我们利用进化算法,结合该评价指标进行搜索,仅需花费了8块GPUs,2.5天的时间即可完成搜索。
3.1 在不同检测器上的性能提升
3.2 在实例分割和关键点检测上的性能提升
3.3 与其他数据增强方法的对比
本文提出了一种针对目标检测尺度变化问题的自动化数据增强方法。在该方法中,我们设计了一种新的搜索空间和一种搜索过程中的估计指标。我们的方法仅花费了8块GPUs,2.5天的时间即可完成搜索。搜索得到的数据增强策略在各类检测器和不同数据集上都能带来较大的性能提升。此外,搜索得到的策略存在着一定的规律,我们将这些规律总结了下来,希望能为以后人工数据增强设计提供一些帮助。
[1] Tsung-Yi Lin, Piotr Dollár, Ross B. Girshick, Kaiming He, Bharath Hariharan, Serge J. Belongie: Feature Pyramid Networks for Object Detection. CVPR 2017: 936-944
[2] Yanghao Li, Yuntao Chen, Naiyan Wang, Zhao-Xiang Zhang: Scale-Aware Trident Networks for Object Detection. ICCV 2019: 6053-6062
[3] Bharat Singh, Larry S. Davis: An Analysis of Scale Invariance in Object Detection SNIP. CVPR 2018: 3578-3587
[4] Bharat Singh, Mahyar Najibi, Larry S. Davis: SNIPER: Efficient Multi-Scale Training. NeurIPS 2018: 9333-9343
[5] Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, Quoc V. Le: Learning Data Augmentation Strategies for Object Detection. ECCV (27) 2020: 566-583