该文章主要是对faster-rnn中的generate_anchors进行理解。
1. 超参数
- base_size,这个参数指定了类似感受野的区域大小,即原始图像经过卷积层和池化层之后,在feature map上每一点的感受野对应于原始图像区域的尺寸。在这里feature map上每一点对应于原始图像上16 x 16的区域,所以设置
base_size = 16
。 - anchor_ratios,定义了anchor的宽高比,这里设置
anchor_ratios = [0.5, 1, 2]
。需要注意的是宽高比变化的同时保持面积不变。对于size = 16
的情况下:ratio为1时,anchor尺寸为16 x 16;ratio为0.5时,尺寸为(16*sqrt(2)) x (16/sqrt(2)),即23 x 12;ratio为2时,尺寸为11 x 22。 - anchor_scales,定义了anchor的尺寸,这里设置
anchor_scales = [8, 16, 32]
。对base anchor的宽高分别乘以尺寸,从而得到各个不同尺寸的anchor。
2. 代码分析
首先定义超参数,
import numpy as np
base_size = 16
anchor_ratios = np.array([0.5, 1, 2])
anchor_scales = np.array([8, 16, 32])
生成base anchor,
base_anchor = np.array([1, 1, base_size, base_size]) - 1
out: array([ 0, 0, 15, 15])
基于base anchor,生成各种ratio的anchor,
area = base_size * base_size
ws = np.round(np.sqrt(area / anchor_ratios))
out: array([23., 16., 11.])
hs = np.round(ws * anchor_ratios)
out: array([12., 16., 22.])
由此我们得到了各种ratio的宽高,基于此生成各种ratio的anchor的bbox,[minx, miny, maxx, maxy],我们先看一个转换函数,bbox转换为center-based,
def _whctrs(anchor):
"""
Return width, height, x center, and y center for an anchor (window).
"""
w = anchor[2] - anchor[0] + 1
h = anchor[3] - anchor[1] + 1
x_ctr = anchor[0] + 0.5 * (w - 1)
y_ctr = anchor[1] + 0.5 * (h - 1)
return w, h, x_ctr, y_ctr
于是base anchor可以转换为,
_whctrs(base_anchor)
out: (16, 16, 7.5, 7.5)
利用各种ratio的宽高,以及center(7.5, 7.5)来生成anchor,生成函数如下,
def _mkanchors(ws, hs, x_ctr, y_ctr):
"""
Given a vector of widths (ws) and heights (hs) around a center
(x_ctr, y_ctr), output a set of anchors (windows).
"""
ws = ws[:, np.newaxis]
hs = hs[:, np.newaxis]
anchors = np.hstack((x_ctr - 0.5 * (ws - 1),
y_ctr - 0.5 * (hs - 1),
x_ctr + 0.5 * (ws - 1),
y_ctr + 0.5 * (hs - 1)))
return anchors
各种ratio的anchor生成如下,
ratio_anchors = _mkanchors(ws, hs, 7.5, 7.5)
out: array([[-3.5, 2. , 18.5, 13. ],
[ 0. , 0. , 15. , 15. ],
[ 2.5, -3. , 12.5, 18. ]])
得到base size的各ratio anchor后,以此为基础生成各scale的anchor,生成函数为,
def _scale_enum(anchor, scales):
"""
Enumerate a set of anchors for each scale wrt an anchor.
"""
w, h, x_ctr, y_ctr = _whctrs(anchor)
ws = w * scales
hs = h * scales
anchors = _mkanchors(ws, hs, x_ctr, y_ctr)
return anchors
生成所有anchors。
anchors = np.vstack([_scale_enum(ratio_anchors[i, :], anchor_scales)
for i in range(len(anchor_ratios))])
out: array([[ -84., -40., 99., 55.],
[-176., -88., 191., 103.],
[-360., -184., 375., 199.],
[ -56., -56., 71., 71.],
[-120., -120., 135., 135.],
[-248., -248., 263., 263.],
[ -36., -80., 51., 95.],
[ -80., -168., 95., 183.],
[-168., -344., 183., 359.]])
3. 注意事项
- 第2节中的base anchor为位置在feature map左上角第一个点上生成的对应于原始图像的anchor,为了得到feature map上所有点对应的anchors,可以利用第一个点生成的anchors滑动遍历得到。
- 所有anchors为原始图像上对应的区域。