Learning Data Augmentation Strategies for Object Detection
Learning Data Augmentation Strategies for Object Detection(译)
这个方法是谷歌大脑Quoc Le团队,又训练出的一个目标检测模型,通过特别的数据扩增策略,再用自动扩增来的新数据集训练目标检测模型,使该算法在针对小数据集的目标检测上取得了很好的效果。
作者的切入点是当前的数据增强都是从分类任务引入的,但是分类任务的增强不一定适用检测任务。因为回归检测任务的样本远不如分类多,所以需要进一步的增强。
理解:作者所说的不匹配性无非就是指检测的数据增强形式应该更加丰富多样,而不是简单的几个翻转平移仿射啥的。
提出办法是采用可学习的数据增强方式。
在这项工作中,作者研究了数据增加对目标检测的影响。
首先证明了从图像分类中借用的数据增强操作可能有助于训练检测模型,但改进是有限的。因此,作者研究如何学习专业的数据增强策略提高通用性能的检测模型。重要的是,这些增强策略只会影响训练,并且在评估过程中不会改变一个经过训练的模型。
最近的工作表明,从数据中学习最佳政策,而不是手工设计数据增加战略,可以大大改进图像分类模型的推广性能[22、45、8、33、31、54、2、43、37],5]。对于图像分类模型,可以通过一个可以从头创建数据的学习生成器[33、31、54、2、43]或通过学习适用于现有训练集样本的一组转换[5]来增加数据。[37]。对于对象检测模型而言,增加数据量更为重要,因为收集标记的数据用于检测成本更高,普通检测数据集的示例比图像分类数据集要少得多。然而,我们还不清楚如何增加数据:我们是否应该从图像分类直接重用数据增加策略?我们应该如何处理bounding box和包围箱的内容?
文章采取了一种自动化的方法来寻找最佳的数据增强策略来进行对象检测。与分类不同的是,标记用于对象检测的数据更稀缺,因为对检测数据进行注释成本更高。与图像分类相比,开发用于对象检测的数据增强策略更加困难,因为通过扭曲图像、包围框位置和检测数据集中对象的大小引入了更多的方式和复杂性。
我们的目标是使用验证集的准确性来帮助搜索新的检测增强程序,使用自定义操作在数据集、数据集大小、主干体系结构和检测算法之间进行推广。
在本工作中,我们创建了一组简单的转换,可以应用于对象检测数据集,然后将这些转换转移到其他检测数据集和体系结构。这些转换只在训练期间使用,而不是测试时间。
我们的转换包括:
- 那些可以应用到整个图像而不影响包围框位置的转换(例如从图像分类模型中借用的颜色转换)
- 在改变包围框位置的同时影响到整个图像的转换(例如,翻译或剪切整个图像)
- 以及只应用于包围框中的对象的转换
当转换的数量变大时,手动有效地组合它们就变得不平凡了。
因此,我们搜索专为对象检测数据集设计的策略。
实验表明,该方法在不同的数据集、数据集大小、主干体系结构和检测算法中具有很好的性能。
另外,我们还研究了:
- 增强数据策略的性能如何依赖于搜索空间中包含的操作数量
- 增强技术的有效性如何随着数据集大小的变化而变化。
上图是学习增强子策略的示例。 应用于一个示例图像的学习子策略的5个示例。每列对应于相应子策略的不同随机样本。增强子策略的每个步骤包括对应于操作的三元组,应用、概率和幅度测量。 调整边界框以保持与应用的增强的一致性。 注意概率和幅度离散值(详见文字)。
在几个初步实验中,我们为搜索空间确定了22项操作,这些操作对目标检测是有益的。这些操作都是在张力流中进行的。我们简要地总结了这些操作,但保留附录的细节:
注意,对于影响图像几何形状的任何操作,我们同样修改了包围框的大小和位置以保持一致性。
细节:
我们与每个操作关联一个自定义的参数值范围,并将这个范围映射到一个从0到10的标准化范围。我们将梯度范围离散为L均匀间隔的值,这样这些参数就可以进行离散优化。类似地,我们离散了将操作应用到m均匀间隔值的概率。在初步实验中,我们发现用rl算法设置L=6和m=6可以很好地平衡计算的可跟踪性和学习性能。这样,找到一个好的子策略就变成了在一个包含(22Lm)^2 基数的离散空间中的搜索。特别是,要搜索超过5个子策略,搜索空间大约包含(22×6×6)^2×5 约等于9.6×10^28的可能性,并且需要有效的搜索技术来导航这个空间。
实现:
搜索空间过于巨大,所以采用强化学习和辅助RNN控制器进行结构搜索,和NAS的方法类似。
解决离散优化问题有许多方法,包括强化学习、进化方法和基于序列模型的优化。在本工作中,我们选择将离散优化问题构建为rnn的输出空间,并使用增强学习来更新模型的权重。
rnn的训练设置与[55,56,6,5]相似。我们采用近端策略优化(pop)[41]搜索算法。rnn启动了30个步骤来预测单个增强策略。未滚动步骤的数目30,对应于为枚举5个子策略而必须作出的离散预测的数目。每个子策略由2个操作组成,每个操作由3个预测组成,对应于选定的图像变换、应用概率和变换的大小。
我们将我们的自动扩增方法应用到了具有Resnet-50[16]骨干和retinanet[24]的coco数据集上,以便找到良好的扩增策略,推广到其他检测数据集。
我们使用在coco上找到的最佳策略,并将其应用于不同的数据集、数据集大小和体系结构配置,以检查通用性以及策略在有限数据系统中的运行方式。
下面六个实验的结论和概述:引用自博客:博主:chaser_ming7
这些实验可以部分地看作是数据增强的影响。
数据增强效果提升自然不在话下。但是越好的backbone越能提取好的特征,过多的增强效果并没有提升更明显,说明:
(1)以后的轻量化小模型特征提取能力必然有限,所以数据增强还是利器
(2)特征提取和数据增强从两个不同端同时影响效果,如果特征提取足够好,数据增强的效果可以在不那么庞大的样本达到理论很小,摆脱严重的数据驱动依赖。这个就远了。
很好想,bbox变换破坏了图像的整体性画蛇添足,也和自然界中的图像不符,没有必要。(这里什么意思,没明白原文博主的意思????)
(1)样本越多,增强效果涨幅越小。
(2)增强对小目标的检测效果更好。 为什么?首先,小物体难检测有backbone的原因,降采样等,但是这里只对比增强与否,这一点排除;推测是COCO小目标最多大概40%+,所以一旦数据集加大,必然会进一步拉开不同尺度训练目标的绝对差距,小目标绝对占优;但是如果大小目标都足够多了达到了算法本身瓶颈,那么两者涨幅都会越来越小,此时受制于算法了。而在小样本时,小目标本来就不好检测样本还不够,因此增强的增幅更大。
这里容易有一个误区:小样本既然数目最多,是不是就相当于横轴的右端,那么是不是相对大目标而言增强带来的涨幅相对小,和纵向的小目标涨幅一直凌驾在上方有矛盾?其实不是,横轴的样本是针对整个数据集而言的,因此模型需要拟合大小不同尺度目标,带来性能的折中才具有可比性,如果把大小目标当成单独的数据集割裂来看,就不能用一个模型去评价,这个对比就没有意义了。
探索了用于训练数据增强策略数据集的大小对于目标检测算法提升的效果,虽然随着训练数据的增加,数据增强的效果逐渐减弱。
存疑。这个迁移不就是平平无奇的数据增强吗?涨点是当然的啊,不对比一下手工设置的,怎么知道迁移效果真的就是会好?
结论:高IoU阈值的结果(AP75)涨幅更明显,高质量检测框更多。
分析:因为模型学得更好了,所以AP都会上去。但是AP50不比AP75涨幅多,推测是AP75涨幅来自于很多原来AP60这些,这部分物体大部分都是正确的样本只是框的不准,所以增强后提升明显;而AP50涨幅来自于低于50的,这部分本身有一小部分就是误检所以框不好,学完会踢掉一些,导致整体上升不如AP75明显。
比较有趣的是,作者自称将自学习数据增强与mixup等其他方法并用,发现你效果没有提升或者性能下降了。
在本工作中,我们研究了一个学习到的数据增强策略在对象检测性能上的应用。
我们用Input Mixup,Manifold Mixup和Dropblock进行了几个实验。对于所有的方法,我们发现它们既没有帮助也没有伤害模型性能。这是一个有趣的结果,因为所提出的方法独立地优于这些正则化方法,但是很显然,当应用一个学习到的数据增强策略时,这些正则化方法是不需要的
根据我们的研究结果,所学的增强策略是可以转移的,并且对于在有限的训练数据上训练的模型更有效。因此,投资图书馆学习数据增加策略可能是获取附加人类注释数据的有效替代办法。