目标检测——Bounding-Box-Regesison

Bounding-Boxes-Regression

What & Why?

​ 检测框被分类器准确识别,但由于红色框定位不准问题,相当于未成功检测,需要对边界框进行微调

​ 对于一个窗口而言,一般可以用一个四维向量表示(x,y,w,h)分别代表窗口的中心点坐标和宽高,如下图而言,P是检测框位置,G是真是窗口,G‘是回归窗口,我们需要找到一种映射关系使得输入原始窗口P映射到一个跟真实窗口G更接近的回归窗口G’

这里写图片描述

How?

需要不断调整?

在RCNN论文中指出,边界框回归是利用平移变换和尺度变换来实现映射,在边界框回归中,我们利用了线性回归在RCNN论文代表这AlexNet第5个池化层得到的特征即将送入全连接层的输入特征的线型函数

目标检测——Bounding-Box-Regesison_第1张图片

为什么计算宽高坐标是log形式而计算x,y坐标是除以宽高?

  1. 对于平移量而言,得到相对应的比例(即相对位置),我们必须x坐标的偏移量除以候选目标框的宽, y坐标的偏移量除以候选目标框的高。只有这样才能得到候选目标框与真实目标框之间坐标偏移量值的相对值。同时使用相对偏移量的好处可以自由选择输入图像的尺寸,使得模型灵活多变。也就说,对坐标偏移量除以宽高就是在做尺度归一化,即尺寸较大的目标框的坐标偏移量较大,尺寸较小的目标框的坐标偏移量较小。

  2. 对于尺度缩放而言,这个缩放尺度必须是一个大于0的值,最直观就是EXP函数,反推过来就是Log函数

  3. 为什么IoU较大时边界框回归可视为线性变换?这里主要是在公式上的推导

目标检测——Bounding-Box-Regesison_第2张图片

你可能感兴趣的:(目标检测,计算机视觉,深度学习)