【论文笔记】Scalable Object Detection using Deep Neural Networks

Paper:  Erhan, D., Szegedy, C., Toshev, A., & Anguelov, D. (2014).  Scalable Object Detection using Deep Neural Networks . CVPR.

Goal

    将基于DNN 的物体检测方法扩展到大规模数据集上。

Contribution

  • 将物体检测问题定义为输出为多个bounding box 的回归问题。每个bounding box 同时输出坐标和置信度,使得模型更加紧凑和高效。
  • 利用DNN 同时学习数据的表示和bounding box 检测器。
  • 在无类别监督的条件下训练box 检测器,使得该方法的计算复杂度几乎不受物体类别的影响,因此适合于大规模物体检测问题。该方法还可以推广到未知的类别。

DPM 的问题

  • Sliding windows 需要在多个尺度上进行穷尽搜索,时间代价高。Branch-and-bound [1]策略避免了这个问题。
  • 检测时间和类别数目成线性关系,不利于大规模检测问题。使用低维共享的基[2] 和哈希方法[3] 可以解决这个问题。
  • 另一个解决将检测扩展到大规模类别的思路是借助分割来解决。首先进行自下而上的类别无关的分割[4],然后利用由上至下的推理来对分割得到的区域进行打分[5,6,7]。在对分割块进行判断之前,还可以先判断每个区块是否包含一个物体,然后再判断类别 [8] 。

Method

作者采用“定位+识别”两步的方法。即先用DNN 回归模型定位出若干可能的bounding box(此时并不知道每个box 的label,置信度只表明该box 包含物体的可能性大小),然后利用DNN 分类器对每个box 进行识别。

  • DNN 回归模型:

    • Model:将DNN 输出层改为回归。输出为包含K个bounding box 的坐标lkR4(左上和右下坐标)和这K个box 对应的置信度ckR(表明该box 包含物体的可能性大小)。
    • Loss: min{预bbox和真实bbox的匹配误差(平方误差) - 预测bbox 的置信度(条件熵)} 
      其中

    • Optimization:BP
    • 训练细节:提出Prior Matching 的概念,即将先验知识整合到匹配过程中。具体来说,就是对训练样本的真实bbox 进行聚类,得到物体的几个典型位置,利用他们来辅助匹配。
  • 优点:如果要DNN 回归模型对每个类别输出K个bounding box,这会导致输出节点数随类别数线性增加,因此scalability很差。而且由于有的类别可用于训练的样本数很少,因此很可能导致对模型的训练不充分。使用“定位+识别”的方式可以很好的避免了这个问题。

Experiment

作者将方法命名为DeepMultiBox

  • VOC 2007
    使用VOC 2012 进行训练,在VOC 2007 上测试,mAP=0.29.

    【论文笔记】Scalable Object Detection using Deep Neural Networks_第1张图片

  • ILSVRC 2012
    测试ILSVRC 2012 的“Classification with localization" 任务。结果如下:

    【论文笔记】Scalable Object Detection using Deep Neural Networks_第2张图片

    就检测率而言,DeepMultiBox 要略微差于ILSVRC 2012 上的Localization 任务的冠军One-box-per-class。但和One-box-per-class 比较,DeepMultiBox 有几点优势:

    • One-box-per-class 的检测时间随类别数目线性增加,而DeepMultiBox 没有这个问题。
    • DeepMultiBox 的迁移能力更好:在Imagenet 训练的模型可以在VOC 上取得很好的检测性能,如下面右图所示。
    • One-box-per-class 无法推广到多物体的检测问题中(i.e. detection 任务),而DeepMultiBox 可以很自然的推广到多物体检测任务。下面左图反映了这个问题。

      【论文笔记】Scalable Object Detection using Deep Neural Networks_第3张图片

Comment

  • 作者采用“定位+识别”的方法实现了检测时间与类别无关的算法(~1 sec. per image)。进一步提升可以研究如何将定位和识别整合到统一的模型框架中。
  • 从ILSVRC 2012 上的检测性能来看,DeepMultiBox 应该没有OverFeat[9]好。

Reference

[1] C. H. Lampert, M. B. Blaschko, and T. Hofmann. Beyond sliding windows: Object localization by efficient subwindow search. In CVPR, 2008.
[2] H. O. Song, S. Zickler, T. Althoff, R. Girshick, M. Fritz, C. Geyer, P. Felzenszwalb, and T. Darrell. Sparselet models for efficient multiclass object detection. In ECCV. 2012. 2
[3] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013.
[4] C. Gu, J. J. Lim, P. Arbel´aez, and J. Malik. Recognition using regions. In CVPR, 2009.
[5] K. E. van de Sande, J. R. Uijlings, T. Gevers, and A. W. Smeulders. Segmentation as selective search for object recognition. In ICCV, 2011.
[6] I. Endres and D. Hoiem. Category independent object proposals. In ECCV. 2010.
[7] J. Carreira and C. Sminchisescu. Constrained parametric min-cuts for automatic object segmentation. In CVPR, 2010.
[8] B. Alexe, T. Deselaers, and V. Ferrari. What is an object? In CVPR. IEEE, 2010. [9] Sermanet, P., & Eigen, D. OverFeat : Integrated Recognition , Localization and Detection using Convolutional Networks. arXiv, 2013.


你可能感兴趣的:(object,recognition,machine,learning,Deep,Learning)