2021论文解读:Learning To Count Everything

此文着眼于仅用少量标注样本完成物体计数的任务。

1 研究近况

1.1 小样本

当前的小样本学习研究主要集中在分类任务上,例如图片(物体)分类、文本分类。较少触及检测、分割等任务的,因为小样本学习问题的核心在于快速地识别新类别,相比于分类,检测和分割更加复杂。

2021论文解读:Learning To Count Everything_第1张图片
2021论文解读:Learning To Count Everything_第2张图片
2019年,第一篇小样本物体检测的论文发布(Few-shot object detection via feature
reweighting),2020年有Few-shot object detection with attention-rpn and multi-relation detector。小样本+物体检测的研究开始密集起来。这些模型大多都有两个分支,一个分支输入支撑集,另一个输入查询集,有Matching Network的影子(Matching Networks for One Shot Learning)。

当然也有用元学习方法的研究,但是比较少,例如Few-shot scene adaptive crowd counting using meta-learning关注的是,在小样本情况下实现人群计数的场景迁移(源域和目标域的背景不同,计数的对象相同——都是人群)。也有用MAML+物体追踪的,例如Tracking by instance detection: A meta-learning approach,用MAML算法来解决在小样本情况下的物体跟踪,但对多尺度或者多类别的识别并不好。

当前罕有直接触及小样本物体计数问题的,更准确地说,是利用小样本实现新类别的计数这一问题。
比较接近这一工作的有2018年提出的GMN模型(Class-agnostic counting),但GMN在测试时,需要较多标注样本来进行微调,离“小样本”这一概念相差较远(仅仅几个标注样本)。

Learning To Count Everything应该算是第一篇关注利用小样本实现新类别计数的论文。

1.2 物体计数

物体计数方面的研究大多关注单个类别的计数。方法可以分为基于检测(老)、基于密度图回归、直接回归等。
三种方法各有优劣:

  • 完美的检测自然可以获得完美的计数,但检测方法需要框标注,物体紧密排列、长宽比大、旋转等问题都容易导致检测方法性能崩塌,加入旋转参数又容易导致锚框数量剧增,训练周期长。
  • 密度图回归方法需要事先设置高斯核的大小,对物体的尺度比较敏感。
  • 直接回归的方法不能看到物体的位置,因此失去了改进的潜在机会。
    此文作者选择了基于密度图回归的方法。

2 Learning To Count Everything论文解读

这篇论文发表于CVPR 2021,作者单位是石溪大学。代码已经开源,代码量少得惊人。

2.1贡献

  • 开源了一个小样本物体计数的数据集,共有超过6000张图,140多类物体,平均每张图的物体数量是56。通常每张图只有一类物体有标注(点标注),每张图只有几个物体有额外的框标注(也有点标注)。
    2021论文解读:Learning To Count Everything_第3张图片
  • 提出了一个小样本计数网络FamNet,相比于流行的计数网络,通用性更强。流行的计数网络多数针对单类物体,比如针对人群、动物、细胞、交通工具、植物等。

2.2 网络结构

2021论文解读:Learning To Count Everything_第4张图片

  • 输入:训练时输入密度图真值以及原图、几个标注框的位置;测试时输入原图、几个标注框的位置。标注框总是在同一张图上。有别于GMN等模型的两个分支的特点。
  • feature extraction module:利用resnet 50的前面4个blocks(也就是扔掉了全连接层),但冻结了这4个blocks的参数,不可改变,同时还用了FPN的多尺度来强化特征。
  • ROI pooling:将标注框所框的特征抠出来,池化成统一的大小。
  • feature correlation layer:ROI pooling取得的特征 和 特征提取器获得的特征做相关计算,得到的张量输入到下一层预测密度图。
  • density prediction module:预测密度图。

2.3 新的损失函数

  • Min-Count loss:每个框对应位置的物体数量应该至少是1个,若小于1个就产生损失。大于等于1不产生损失,框可能包含超过一个物体。(思考:可否用轮廓标注?这样损失函数就更加精确。)
    在这里插入图片描述
  • Perturbation Loss:从目标跟踪的研究借用correlation filter而来的。给定一个需要跟踪的物体以及它的标注框,当一个框位于标注框的位置有最大的响应值,当这个框偏离了标注框,它的响应值根据距离指数型下降。
    在这里插入图片描述
  • 总的损失:
    在这里插入图片描述

3 新方法的性能

  • 对比目标检测网络,精度更好,即使目标检测网络已经在某些类别上(COCO数据集里)预训练过。
  • 对比计数网络,通用性更加强,但可能对某种类别计数不如专门训练过的网络。如GMN在CARPK训练过,对汽车的计数精度高,但对其他类别的计数精度较低。
  • 如果增加标注量,FamNet的精度会进一步提升。
    更多实验结果可看原论文

4 潜在的改进

  • 工作机制方面:在测试阶段,每张需要计数的图片都需要标注,如果能提供外部图片+标注,可以避免这种情况。
  • 密度图回归计数的固有缺陷:对尺度敏感。

你可能感兴趣的:(读论文,深度学习,计算机视觉,神经网络)