目标检测脉络

1.物体检测最直观的方法:滑框(sliding window),滑框法几乎是通过枚举的方式提供了框的位置,本质是把检测问题转换成了图片分类问题。

2.选择搜索法(selective search)

代表作:Selective Search for Object Recognition

3.R-CNN

目标检测脉络_第1张图片
目标检测脉络_第2张图片

避免滑窗法穷尽量大弊端以及使用CNN自动提取特征

第一步)对输入的图片进行区域提取,R-CNN用的selective search

第二步)对每一块提取出来的区域缩放到统一的大小,输入CNN中使之输出一个Nx1的特征向量,然后用分类器(文中使用SVM,讨论了softmax的可行性)判断该区域是不是某类物体,接着分类完成之后对选出的区域做了一个框回归(bounding box regression),最后的结果:物体种类和框的位置。

4.Fast R-CNN锚点机制


目标检测脉络_第3张图片
锚点。理解RPN的关键也就在锚点上。锚点,字面理解就是标定位置的固定的点。在提框机制中,是预先设定好一些固定的点(anchor)和框(anchor box)的意思。如上图,假设在原来的图像上设定4个锚点(2x2),那么原图就可以看作分成2x2的格子,每个格子的中心叫做一个锚点。以锚点为中心,给定俩个宽高比(1:2, 2:1),确定一个宽度或者高度(100px),画俩个框,绿色和红色的框就是锚点框(anchor box)。也就是说,我们看作每一个锚点都可以产生俩个锚点框,这些框就是固定在这里存在的,不会变也不会动。
目标检测脉络_第4张图片

Faster-RCNN由RPN和Fast-RCNN组成,RPN负责寻找proposal,Fast-RCNN负责对RPN的结果进一步优化。其实RPN已经可以找到图片中每个物体的种类和位置,如果更注重速度而不是精度的话完全可以只使用RPN。

https://zhuanlan.zhihu.com/p/44670184

你可能感兴趣的:(目标检测脉络)