本文大部分内容来源于https://www.cnblogs.com/skyfsm/p/6806246.html
基于深度学习的目标检测技术演进:
R-CNN -> SPP-Net -> Fast-RCNN -> Faster-RCNN -> R-FCN
1. 目标检测定义
目标检测,就是将目标定位和目标分类结合起来,利用图像处理技术、机器学习等多方向的只是,从图像(视频)中定位感兴趣的对象。
目标分类负责判断输入的图像中是否包含所需物体(object)。
目标定位负责表示目标物体的位置,并用外接矩形框定位。
目标检测简单讲就两方面:定位和识别。就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。即知道object在哪儿,这个object是什么。
然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方,更何况物体还可以是多个类别。
2. 识别
从图像识别的任务说起
这里有一个图像任务:
既要把图中的物体识别出来,又要用矩形框创出它的位置。
上面的任务用专业的说法就是:图像识别+定位
图像识别(classification)
输入:图片
输出:物体的类别
评估方法:准确率
定位(localization):
输入:图片
输出:矩形框在图片中的位置(x,y,w,h)
评估方法:检测评价函数IOU(intersection-over-union)
卷积神经网络(CNN)已经帮我们完成了图像识别(判断是猫还是狗)的任务了,我们只需添加一些额外的功能来完成定位任务即可。
3. 定位
定位问题的解决思路有哪些?
思路一:看做回归问题
看做回归问题,我们需要预测出(x,y,w,h)四个参数的值,从而得出矩形框的位置。
步骤1:
• 先解决简单问题, 搭一个识别图像的神经网络
• 在AlexNet VGG GoogleLenet上fine-tuning一下
步骤2:
• 在上述神经网络的尾部展开(也就说CNN前面保持不变,我们对CNN的结尾处作出改进:加了两个头:“分类头”和“回归头”)
• 成为classification + regression模式
步骤3:
• Regression那个部分用欧氏距离损失
• 使用SGD训练
步骤4:
• 预测阶段把2个头部拼上
• 完成不同的功能
这里需要进行两次fine-tuning
第一次在ALexNet上做,第二次将头部改成regression head,前面不变,做一次fine-tuning
Regression的部分加在哪?
有两种处理方法:
• 加在最后一个卷积层后面(如VGG)
• 加在最后一个全连接层后面(如R-CNN)
regression太难做了,应想方设法转换为classification问题。
regression的训练参数收敛的时间要长得多,所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。
思路二:取图像窗口
• 还是刚才的classification + regression思路
• 咱们取不同的大小的“框”
• 让框出现在不同的位置,得出这个框的判定得分
• 取得分最高的那个框
左上角的黑框:得分0.5
右上角的黑框:得分0.75
左下角的黑框:得分0.6
右下角的黑框:得分0.8
根据得分的高低,我们选择了右下角的黑框作为目标位置的预测。
注:有的时候也会选择得分最高的两个框,然后取两框的交集作为最终的位置预测。
疑惑:框要取多大?
取不同的框,依次从左上角扫到右下角。非常粗暴啊。
4. 总结定位思路
总结一下思路:
对一张图片,用各种大小的框(遍历整张图片)将图片截取出来,输入到CNN,然后CNN会输出这个框的得分(classification)以及这个框图片对应的x,y,h,w(regression)。
这方法实在太耗时间了,做个优化。
原来网络是这样的:
优化成这样:把全连接层改为卷积层,这样可以提提速。
5. 多目标情况
物体检测(Object Detection)
当图像有很多物体怎么办的?难度可是一下暴增啊。
那任务就变成了:多物体识别+定位多个物体
那把这个任务看做分类问题?
看成分类问题有何不妥?
• 你需要找很多位置, 给很多个不同大小的框
• 你还需要对框内的图像分类
• 当然, 如果你的GPU很强大, 恩, 那加油做吧…
看做classification, 有没有办法优化下?我可不想试那么多框那么多位置啊!
有人想到一个好方法:
找出可能含有物体的框(也就是候选框,比如选1000个候选框),这些框之间是可以互相重叠互相包含的,这样我们就可以避免暴力枚举的所有框了。
大牛们发明好多选定候选框的方法,比如EdgeBoxes和Selective Search。
以下是各种选定候选框的方法的性能对比。
有一个很大的疑惑,提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢?那个就得好好看看它的论文了,这里就不介绍了。