1. object-detection简介

本文大部分内容来源于https://www.cnblogs.com/skyfsm/p/6806246.html
基于深度学习的目标检测技术演进:
R-CNN -> SPP-Net -> Fast-RCNN -> Faster-RCNN -> R-FCN

1. 目标检测定义

目标检测,就是将目标定位目标分类结合起来,利用图像处理技术、机器学习等多方向的只是,从图像(视频)中定位感兴趣的对象。
目标分类负责判断输入的图像中是否包含所需物体(object)。
目标定位负责表示目标物体的位置,并用外接矩形框定位。

目标检测简单讲就两方面:定位识别。就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。即知道object在哪儿,这个object是什么。
然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。

2. 识别

从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用矩形框创出它的位置。

image.png

上面的任务用专业的说法就是:图像识别+定位
图像识别(classification)
输入:图片
输出:物体的类别
评估方法:准确率

image.png

定位(localization):
输入:图片
输出:矩形框在图片中的位置(x,y,w,h)
评估方法:检测评价函数IOU(intersection-over-union)

image.png

卷积神经网络(CNN)已经帮我们完成了图像识别(判断是猫还是狗)的任务了,我们只需添加一些额外的功能来完成定位任务即可。

3. 定位

定位问题的解决思路有哪些?
思路一:看做回归问题
看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出矩形框的位置。

image.png

步骤1:
  • 先解决简单问题, 搭一个识别图像的神经网络
  • 在AlexNet VGG GoogleLenet上fine-tuning一下

image

步骤2:
  • 在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)
  • 成为classification + regression模式

image

步骤3:
  • Regression那个部分用欧氏距离损失
  • 使用SGD训练

步骤4:
  • 预测阶段把2个头部拼上
  • 完成不同的功能

这里需要进行两次fine-tuning
第一次在ALexNet上做,第二次将头部改成regression head,前面不变,做一次fine-tuning

Regression的部分加在哪?

有两种处理方法:
  • 加在最后一个卷积层后面(如VGG)
  • 加在最后一个全连接层后面(如R-CNN)

regression太难做了,应想方设法转换为classification问题。
regression的训练参数收敛的时间要长得多,所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。

思路二:取图像窗口
  • 还是刚才的classification + regression思路
  • 咱们取不同的大小的“框”
  • 让框出现在不同的位置,得出这个框的判定得分
  • 取得分最高的那个框

左上角的黑框:得分0.5

image

右上角的黑框:得分0.75

image

左下角的黑框:得分0.6

image

右下角的黑框:得分0.8

image

根据得分的高低,我们选择了右下角的黑框作为目标位置的预测。
注:有的时候也会选择得分最高的两个框,然后取两框的交集作为最终的位置预测。

疑惑:框要取多大?
取不同的框,依次从左上角扫到右下角。非常粗暴啊。

4. 总结定位思路

总结一下思路:
对一张图片,用各种大小的框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的得分(classification)以及这个框图片对应的x,y,h,w(regression)。

image

这方法实在太耗时间了,做个优化。
原来网络是这样的:

image.png

优化成这样:把全连接层改为卷积层,这样可以提提速。

image.png

5. 多目标情况

物体检测(Object Detection)
当图像有很多物体怎么办的?难度可是一下暴增啊。

那任务就变成了:多物体识别+定位多个物体
那把这个任务看做分类问题?

image

看成分类问题有何不妥?
  • 你需要找很多位置, 给很多个不同大小的框
  • 你还需要对框内的图像分类
  • 当然, 如果你的GPU很强大, 恩, 那加油做吧…

看做classification, 有没有办法优化下?我可不想试那么多框那么多位置啊!
有人想到一个好方法:
找出可能含有物体的框(也就是候选框,比如选1000个候选框),这些框之间是可以互相重叠互相包含的,这样我们就可以避免暴力枚举的所有框了。

image

大牛们发明好多选定候选框的方法,比如EdgeBoxesSelective Search。
以下是各种选定候选框的方法的性能对比。

image

有一个很大的疑惑,提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢?那个就得好好看看它的论文了,这里就不介绍了。

你可能感兴趣的:(1. object-detection简介)