1. object-detection简介

本文大部分内容来源于https://www.cnblogs.com/skyfsm/p/6806246.html
基于深度学习的目标检测技术演进：
R-CNN -> SPP-Net -> Fast-RCNN -> Faster-RCNN -> R-FCN

1. 目标检测定义

目标检测，就是将目标定位和目标分类结合起来，利用图像处理技术、机器学习等多方向的只是，从图像（视频）中定位感兴趣的对象。
目标分类负责判断输入的图像中是否包含所需物体（object）。
目标定位负责表示目标物体的位置，并用外接矩形框定位。

目标检测简单讲就两方面：定位和识别。就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。即知道object在哪儿，这个object是什么。
然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。

2. 识别

从图像识别的任务说起
这里有一个图像任务：
既要把图中的物体识别出来，又要用矩形框创出它的位置。

image.png

上面的任务用专业的说法就是：图像识别+定位
图像识别（classification）
输入：图片
输出：物体的类别
评估方法：准确率

image.png

定位（localization）：
输入：图片
输出：矩形框在图片中的位置（x,y,w,h）
评估方法：检测评价函数IOU（intersection-over-union）

image.png

卷积神经网络（CNN）已经帮我们完成了图像识别（判断是猫还是狗）的任务了，我们只需添加一些额外的功能来完成定位任务即可。

3. 定位

定位问题的解决思路有哪些？
思路一：看做回归问题
看做回归问题，我们需要预测出（x,y,w,h）四个参数的值，从而得出矩形框的位置。

image.png

步骤1:
　　• 先解决简单问题，搭一个识别图像的神经网络
　　• 在AlexNet VGG GoogleLenet上fine-tuning一下

image

步骤2:
　　• 在上述神经网络的尾部展开（也就说CNN前面保持不变，我们对CNN的结尾处作出改进：加了两个头：“分类头”和“回归头”）
　　• 成为classification + regression模式

image

步骤3:
　　• Regression那个部分用欧氏距离损失
　　• 使用SGD训练

步骤4:
　　• 预测阶段把2个头部拼上
　　• 完成不同的功能

这里需要进行两次fine-tuning
第一次在ALexNet上做，第二次将头部改成regression head，前面不变，做一次fine-tuning

Regression的部分加在哪？

有两种处理方法：
　　• 加在最后一个卷积层后面（如VGG）
　　• 加在最后一个全连接层后面（如R-CNN）

regression太难做了，应想方设法转换为classification问题。
regression的训练参数收敛的时间要长得多，所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。

思路二：取图像窗口
　　• 还是刚才的classification + regression思路
　　• 咱们取不同的大小的“框”
　　• 让框出现在不同的位置，得出这个框的判定得分
　　• 取得分最高的那个框

左上角的黑框：得分0.5

image

右上角的黑框：得分0.75

image

左下角的黑框：得分0.6

image

右下角的黑框：得分0.8

image

根据得分的高低，我们选择了右下角的黑框作为目标位置的预测。
注：有的时候也会选择得分最高的两个框，然后取两框的交集作为最终的位置预测。

疑惑：框要取多大？
取不同的框，依次从左上角扫到右下角。非常粗暴啊。

4. 总结定位思路

总结一下思路：
对一张图片，用各种大小的框（遍历整张图片）将图片截取出来，输入到CNN，然后CNN会输出这个框的得分（classification）以及这个框图片对应的x,y,h,w（regression）。

image

这方法实在太耗时间了，做个优化。
原来网络是这样的：

image.png

优化成这样：把全连接层改为卷积层，这样可以提提速。

image.png

5. 多目标情况

物体检测（Object Detection）
当图像有很多物体怎么办的？难度可是一下暴增啊。

那任务就变成了：多物体识别+定位多个物体
那把这个任务看做分类问题？

image

看成分类问题有何不妥？
　　• 你需要找很多位置，给很多个不同大小的框
　　• 你还需要对框内的图像分类
　　• 当然，如果你的GPU很强大，恩，那加油做吧…

看做classification，有没有办法优化下？我可不想试那么多框那么多位置啊！
有人想到一个好方法：
找出可能含有物体的框（也就是候选框，比如选1000个候选框），这些框之间是可以互相重叠互相包含的，这样我们就可以避免暴力枚举的所有框了。

image

大牛们发明好多选定候选框的方法，比如EdgeBoxes和Selective Search。
以下是各种选定候选框的方法的性能对比。

image

有一个很大的疑惑，提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢？那个就得好好看看它的论文了，这里就不介绍了。

1. object-detection简介

1. 目标检测定义

2. 识别

3. 定位

4. 总结定位思路

5. 多目标情况

你可能感兴趣的:(1. object-detection简介)