【论文理解】RCNN 的 Bounding-Box regression (回归器)

全文转载别人,总结各位大神的内容,以方便自己学习记载,能帮到别人更好了。如有侵权,请联系立即删除。

为什么要边框回归?

【论文理解】RCNN 的 Bounding-Box regression (回归器)_第1张图片
对于上图,绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这样岂不是定位会更准确。 确实,Bounding-box regression 就是用来微调这个窗口的。

边框回归是什么?

【论文理解】RCNN 的 Bounding-Box regression (回归器)_第2张图片
对于窗口一般使用四维向量(x,y,w,h)(x,y,w,h) 来表示, 分别表示窗口的中心点坐标和宽高。 对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth, 我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^。

边框回归怎么做的?

其实就是平移+缩放。
【论文理解】RCNN 的 Bounding-Box regression (回归器)_第3张图片
【论文理解】RCNN 的 Bounding-Box regression (回归器)_第4张图片
定义的这四种变换函数就是要学习的,通过学习知道如何进行变换能看到某个类别的整体。

按照上面的逻辑,每一张图片都有一个最优的变换:
【论文理解】RCNN 的 Bounding-Box regression (回归器)_第5张图片
看到这里就清楚了,如果我们把d换成我们一般问题里的x,把t换成一般问题 里的y。现在就是要找一个x→y的关系,使得新来的x经过这个关系的一顿操作之后得到的结果,和最优的结果“差不多”。也就是希望d很接近t。
根据变换我们能求出来t:
【论文理解】RCNN 的 Bounding-Box regression (回归器)_第6张图片

利用pooling5的特征:

那么问题就来了,我们从图形中获得的数据不可能真的是坐标不然就成了在某个位置固定了对应得一个变换方法而不管该位置的图形到底是什么东西我们获得的对象是该Region Proposal的特征向量,这也是十分合理的,想象一下人在确定一幅图中某个固定大小区域的对象时,如该区域只有对象的一部分图片,我们也是进行扩大视野最后就能看到整个对象了呀,最后的视野也就是Ground Truth。而人接受的输入时像素点,那么对应的在回归中就接受特征向量。

在人接受到图片时就知道该如何移动自己的目光来寻找整个对象,相当于人知道当前看到的部分在实际物体对象中所处的位置后,就知道该如何变换自己的目光和视野范围,如看到左半脸就知道将目光平移到右边再扩大自己的视野。类似的在接收到特定Region Proposal的特征向量,算法应该知道朝什么方向移动和如何进行尺度缩放(这些都是从训练中习得的)。这使用数学语言就是一种由特征向量向dx § ,dy § ,dw § ,dh § 的映射关系!

所以实际上就是利用pooling5中的特征,学习一种映射关系使d接近t。
可视化理解就是通过学习一种映射关系w,使得我们输入pooling5的特征(实际上某个类别的一部分,比如左脸),通过这种映射就知道如何平移如何缩放来得到整个特征(实际上是某个类别的整体,比如一整张脸)
总而言之就是要学习映射关系

【论文理解】RCNN 的 Bounding-Box regression (回归器)_第7张图片

训练:

【论文理解】RCNN 的 Bounding-Box regression (回归器)_第8张图片

所以在训练的时候我们输入的实际上是某类型样本pool5层的特征,以及真值框
最终训练的结果是得到w权重,从而得到四中变换操作d

测试:

最终得到了一个候选框,对这个候选进行边框精修:
输入这个候选框的pooling5层的特征;
根据这个特征四个变换操作d就知道如何进行变换能看到整个类别的整体;
从而对类别框进行了精修。

参考:
https://blog.csdn.net/u014433413/article/details/78194855
https://segmentfault.com/a/1190000011918305
https://blog.csdn.net/zijin0802034/article/details/77685438

你可能感兴趣的:(深度学习【论文】)