Meta-learning algorithms for Few-Shot Computer Vision论文解读完结
我们可以立即发现这和小样本图像分类的一个关键区别:一幅图像可以包含多个对象,它们属于N个类中的一个或多个。因此,在求解N-way K-shot检测任务时,算法对每个类至少训练K个样本对象。而在N-way K-shot分类任务中,算法看到每个类的K个例子。注意,这可能会成为一个挑战:在这个配置中,类之间的支持集可能不平衡。因此,这种形式化的少镜头目标检测问题留下了改进的空间。之所以选择它,是因为它是一个相当简单的设置,也很容易实现。
Fu等人提出了Meta-SSD[29]。它将Meta-SGD [10] (MAML的一种变体,对基础模型的超参数进行元学习)应用于SSD[25]。Fu等人提出了有希望的结果。虽然Meta-SSD和YOLOMAML非常相似,但我认为继续致力于YOLOMAML是有意义的,因为:
我决定重用我在图像分类工作中使用的MAML算法的结构。对于YOLO模型,我使用了来自Erik Linder-Norén 5的实现,它基本上是一个PyTorch重新实现了Joseph Redmon最初的C实现。它包含两个主要部分:
在COCO 2014数据集[38]上进行了小样本目标检测。为了实现YOLO和MAML之间的互补性,我必须在三个主要层面上工作:
模型初始化 标准形式的YOLOv3包含超过800万个参数。因此,在内存方面,使用MAML(涉及到二阶梯度计算)对其进行完整的元训练是禁止的。因此:
我使用定制的Deep Tiny YOLO,而不是标准的YOLOv3神经网络。该模型的支柱是Tiny Darknet。在此基础上,我添加了两个输出块(而不是常规YOLOv3中的三个)。此网络的完整配置文件可以在repository中的detect /configs/deep-tiny-yolo-5-way.cfg中找到。
这样,网络中就只剩下5个可训练的卷积块。这使得在标准GPU上训练YOLOMAML只需几个小时。请注意,存在一个Tiny YOLO,但这个网络没有经过ImageNet培训的可用骨干网络,这促使我选择了一个新的自定义网络。
快速适应 MAML的核心思想是在每个新任务上更新可训练参数,同时跨任务训练初始化参数。为此,我们需要在任务期间存储更新的参数,以及初始化参数。解决方案是为每个参数添加一个快速存储更新参数的字段。在我们的实现中(继承自[34]),这是由Linear_fw, Conv2d_fw和BatchNorm2d_fw处理的,这些层分别扩展自nn.Linear, nn.Conv2d and nn.BatchNorm2d PyTorch objects。我修改了Darknet对象的结构,让它们使用这些自定义层,而不是常规层。
数据处理 正如小样本图像分类,我们可以对N-way K-shot检测任务进行采样,每个类有Q个查询,首先对N个类进行采样。然后,对于每个类,我们采样K + Q图像,每个图像中包含至少一个对应于这个类的框。检测的不同之处在于,我们需要从标签中删除属于不属于检测任务的类的框。多标签分类也会出现同样的问题。
第一个实验,初始化了一个Deep Tiny YOLO,如前一节所述。它在COCO数据集上进行3-way 5-shot目标检测任务训练。它使用的Adam优化器的学习速度为 1 0 − 3 10^{-3} 10−3(在内部循环和外部循环中)。它被训练为10000个epoch,每个epoch对应4个插曲上平均损失上的一个梯度下降。在每一个插曲中,在对查询集执行检测之前,允许对支持集进行两次更新。
损失迅速收敛(见图),但在推理时,模型无法执行成功的检测(F1-score低于 1 0 − 3 10^{-3} 10−3)。已经执行了大量的超参数调优,但结果没有明显改善。
为了确保这些令人失望的表现不是由于我重新实现了YOLO,我在相同的设置下,在没有MAML的情况下训练了Deep Tiny YOLO 40个epoch。虽然这种训练不是最优的,但模型仍然能够执行相关的检测,而对于YOLOMAML则不是这样(见图15)。
我们可以看到,在训练过程中,由于分类和边界盒的形状和位置而造成的损失并没有进化。no-object-confidence loss在停滞前的前1000个时期下降,而yes-object-confidence在停滞前上升到一个临界量。
未来工作的另一个方向是建立一个适合于小目标检测的数据集。其他工作[28] [29] 提出了一种适合于小样本检测的PASCAL VOC数据集的分割方法。然而,PASCAL VOC只包含25个类,而COCO包含80个类。我相信这使得COCO更适应元学习,这与学习泛化到新类的想法纠缠在一起。
