最近开始重新看看目标检测,感觉有很多坑还不懂,就从先验框开始吧。
在目标检测中,常常有先验框的一个概念,不管是SSD还是yolov2和yolov3都用到了先验框。
简单的一句话来讲,先验框就是帮助我们定好了常见目标的宽和高,在进行预测的时候,我们可以利用这个已经定好的宽和高处理,可以帮助我们进行预测。
在进行训练的时候呢,我们也要利用到先验框进行y_true的处理,找到ground truth在图片中对应着哪个网格点。
怎么理解这个先验框呢,我们可以从目标检测的原理出发,以yolov2为例。
yolov2是将图片分成了13x13个的网络点,然后对应着169个网络点,每个网络点负责一块区域的检测。
对于yolov2而言,如果检测时coco数据集,那么它的输出就是(13,13,(80+5)*5),对应着13x13个的网络点,每个网络点上有五个先验框,每个先验框里面有85个参数,分别对应着x_offset、y_offset、h和w、置信度、分类结果。
先验框的作用就是辅助处理x_offset、y_offset、h和w。
yolov2的解码过程就是将每个网格点加上它对应的x_offset和y_offset,加完后的结果就是预测框的中心,然后再利用 先验框和h、w结合 计算出预测框的长和宽。这样就能得到整个预测框的位置了。
结合代码理解的更清楚噢:
# 偏移量、置信度、类别
# 中心坐标相对于该cell坐上角的偏移量,sigmoid函数归一化到(0,1)
# [batch,169,5,2]
xy_offset = tf.nn.sigmoid(net[:, :, :, 0:2])
wh_offset = tf.exp(net[:, :, :, 2:4])
obj_probs = tf.nn.sigmoid(net[:, :, :, 4])
class_probs = tf.nn.softmax(net[:, :, :, 5:])
# x_cell和y_cell是网格分割中心
# xy_offset是相对中心的偏移情况
bbox_x = (x_cell + xy_offset[:, :, :, 0]) / 13
bbox_y = (y_cell + xy_offset[:, :, :, 1]) / 13
bbox_w = (self.anchor_size[:, 0] * wh_offset[:, :, :, 0]) / 13
bbox_h = (self.anchor_size[:, 1] * wh_offset[:, :, :, 1]) / 13
在寻常的kmean算法中,使用的是欧氏距离来完成聚类,但是先验框显然不可以这样,因为大框的欧氏距离更大,yolo2使用的是处理后的IOU作为欧氏距离。
d i s t a n c e ( i , c e n t e r ) = 1 − I O U ( i , c e n t e r ) distance(i,center) = 1 - IOU(i,center) distance(i,center)=1−IOU(i,center)
处理后的IOU其实指的是每个聚类中心与其它的框的重合程度,如果单用IOU(i,center)的话,就是IOU(i,center)越大重合度越高,我们是希望重合度越高距离越短,这样才可以kmeans聚类,所以不可以直接使用IOU(i,center),所以应当为其取负号后加上1。
实现代码如下:
import numpy as np
import xml.etree.ElementTree as ET
import glob
import random
def cas_iou(box,cluster):
x = np.minimum(cluster[:,0],box[0])
y = np.minimum(cluster[:,1],box[1])
intersection = x * y
area1 = box[0] * box[1]
area2 = cluster[:,0] * cluster[:,1]
iou = intersection / (area1 + area2 -intersection)
return iou
def avg_iou(box,cluster):
return np.mean([np.max(cas_iou(box[i],cluster)) for i in range(box.shape[0])])
def kmeans(box,k):
# 取出一共有多少框
row = box.shape[0]
# 每个框各个点的位置
distance = np.empty((row,k))
# 最后的聚类位置
last_clu = np.zeros((row,))
np.random.seed()
# 随机选5个当聚类中心
cluster = box[np.random.choice(row,k,replace = False)]
# cluster = random.sample(row, k)
while True:
# 计算每一行距离五个点的iou情况。
for i in range(row):
distance[i] = 1 - cas_iou(box[i],cluster)
# 取出最小点
near = np.argmin(distance,axis=1)
if (last_clu == near).all():
break
# 求每一个类的中位点
for j in range(k):
cluster[j] = np.median(
box[near == j],axis=0)
last_clu = near
return cluster
def load_data(path):
data = []
# 对于每一个xml都寻找box
for xml_file in glob.glob('{}/*xml'.format(path)):
tree = ET.parse(xml_file)
height = int(tree.findtext('./size/height'))
width = int(tree.findtext('./size/width'))
# 对于每一个目标都获得它的宽高
for obj in tree.iter('object'):
xmin = int(float(obj.findtext('bndbox/xmin'))) / width
ymin = int(float(obj.findtext('bndbox/ymin'))) / height
xmax = int(float(obj.findtext('bndbox/xmax'))) / width
ymax = int(float(obj.findtext('bndbox/ymax'))) / height
xmin = np.float64(xmin)
ymin = np.float64(ymin)
xmax = np.float64(xmax)
ymax = np.float64(ymax)
# 得到宽高
data.append([xmax-xmin,ymax-ymin])
return np.array(data)
if __name__ == '__main__':
anchors_num = 5
# 载入数据集,可以使用VOC的xml
path = r'D:\Study\Collection\yolo_Collection\keras-yolo3-master\ThreeSign-yolo3-master\VOCdevkit\VOC2012/Annotations'
# 载入所有的xml
# 存储格式为转化为比例后的width,height
data = load_data(path)
# 使用k聚类算法
out = kmeans(data,anchors_num)
out = out[np.argsort(out[:,0])]
print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
print(out*13)
结果是:
acc:61.32%
[[ 0.572 1.00533333]
[ 1.378 2.32266667]
[ 2.6 5.06133333]
[ 5.304 8.008 ]
[10.608 10.79 ]]
如果我们把主函数改称这样,聚类9个中心点,其实就是yolo3的先验框结构:
if __name__ == '__main__':
anchors_num = 9
# 载入数据集,可以使用VOC的xml
path = r'D:\Study\Collection\yolo_Collection\keras-yolo3-master\ThreeSign-yolo3-master\VOCdevkit\VOC2012/Annotations'
# 载入所有的xml
# 存储格式为转化为比例后的width,height
data = load_data(path)
# 使用k聚类算法
out = kmeans(data,anchors_num)
out = out[np.argsort(out[:,0])]
print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))
print(out*416)
输出就是:
acc:67.15%
[[ 14.144 18.304]
[ 23.296 49.088]
[ 44.928 92.352]
[ 47.424 31.616]
[ 81.536 154.752]
[ 95.68 73.216]
[143.104 230.464]
[222.976 131.456]
[301.184 274.56 ]]
是不是与yolo3的先验框很相似呢?不过这是基于voc2012的,和coco不同。
10,13,
16,30,
33,23,
30,61,
62,45,
59,119,
116,90,
156,198,
373,326