目标检测学习总结

准备踏入Object Detection的学习,先建一个blog来记录下自己的学习内容。

  • 目标检测(Object Detection)

在“目标检测”任务中,主要解决的两个问题,即图像中的多个目标物在哪里?【位置】以及是什么?【类别】。通常来说,一般把其发展历程分为三个阶段:

  1. 传统的目标检测方法
  2. 以R-CNN为代表的结合region proposal和CNN分类的目标检测框架(R-CNN,SPP-Net,Fast R-CNN,Faster R-CNN,R-FCN)。
  3. 以YOLO为代表的将目标检测转换为回归问题的end-to-end的目标检测框架(YOLO,SSD)。

脉络梳理
传统方法—> RCNN(2014 ECCV) —> SPPNet (2015) —> Fast RCNN (2015 ICCV) —> Faster RCNN (2016 NIPS) —> Mask RCNN (2017) —> SSD (2015 ECCV) —> YOLO (2016 CVPR) —> YOLO v2 (2016).

传统的目标检测方法

分为三个阶段:区域选择—>特征提取—>分类器分类。

  1. 区域选择:利用不同尺寸的滑动窗口框住图中的某一部分作为获选区域。
  2. 特征提取:提取候选区域的相关的视觉特征,比如人脸检测的harr特征;行人和普通目标检测的HOG特征等。由于目标的形态多样性,光照变化多样性,背景多样性使得设计一个鲁棒的特征并不容易,然而提取特征的好坏直接影响到分类的准确性。
  3. 分类器:利用分类器进行识别,比如常用的SVM模型。
    总结:传统的目标检测主要存在两个问题:一个是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化没有很好的鲁棒性。

基于Region Proposal的深度学习目标检测算法

针对于传统的滑动窗口存在的时间复杂度高的问题,region proposal(候选区域)提供了很好的解决方案。region proposal利用了图像中的纹理、边缘、颜色等信息预先找出图像中目标可能出现的位置,可以保证在选取较少窗口的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比滑动窗口的质量更高。

** 多尺度是计算机视觉任务中的哲学**
2014年,Ross B.Girshick 大神使用了 Region Proposal + CNN代替了传统的 滑动窗口+ 手工设计的特征,设计了R-CNN框架,使得目标检测取得了巨大突破,并开启了深度学习目标检测的热潮。

学习列表

  • Selective Search
  • 基于深度学习的目标检测学习总结 2017年4月更新.
  • 综述|基于深度学习的目标检测 link.
  • 基于深度学习的目标检测综述 link.

你可能感兴趣的:(计算机视觉,深度学习,目标检测学习)