在吴恩达老师深度学习yolo算法实现自动驾驶的编程题中出现了这个函数,这个函数的功能是在检测算法中我们的一个目标被检测了多次,如何排除掉多余的边界框。比如下面的图,来自于编程题中的图片,下面的这个车被多次检测到,存在多个边界框,保留概率最大的那个,去除掉与这个概率最大的边界框的IoU大于一个阙值的其余边界框。这个过程就成为非最大值抑制=NMS
函数原型:
tf.image.non_max_suppression(
boxes,
scores,
max_output_size,
iou_threshold=0.5,
score_threshold=float('-inf'),
name=None
)
按照参数scores的降序贪婪的选择边界框的子集。
删除掉那些与之前的选择的边框具有很高的IOU的边框。边框是用[y1,x1,y2,x2]表示的,(y1,x1)和(y2,x2)是边框的对角坐标,当然也可以提供被归一化的坐标。返回的是被选中的那些留下来的边框在参数boxes里面的下标位置。那么你可以使用tf.gather的操作或者利用keras.backend的gather函数来从参数boxes来获取选中的边框。
例如:
selected_indices=tf.image.non_max_suppression(boxes,scores,max_output_size,iou_thresholde)
selected_boxes=tf.gather(boxes,selected_indices)
参数:
boxes:2-D的float类型的,大小为[num_boxes,4]的张量;
scores:1-D的float类型的大小为[num_boxes]代表上面boxes的每一行,对应的每一个box的一个score;
max_output_size:一个整数张量,代表我最多可以利用NMS选中多少个边框;
iou_threshold:一个浮点数,IOU阙值展示的是否与选中的那个边框具有较大的重叠度;
score_threshold:一个浮点数,来决定上面时候删除这个边框
name:可选
返回的是selected_indices:表示的是一个1-D的整数张量,大小为[M],代表的是选出来的留下来的边框下标,M小于等于max_outpuy_size.
例子:
import tensorflow as tf
from keras import backend as K
boxes = np.array([[1,2,3,4],[1,3,3,4],[1,3,4,4],[1,1,4,4],[1,1,3,4]], dtype=np.float32)
scores = np.array([0.4, 0.5, 0.72, 0.9, 0.45], dtype=np.float32)
with tf.Session() as sess:
selected_indices = sess.run(tf.image.non_max_suppression(boxes, scores, max_output_size=5, iou_threshold=0.5))
print(selected_indices)
selected_boxes = sess.run(K.gather(boxes, selected_indices))
print(selected_boxes)
结果:
[3 2 0]
[[1. 1. 4. 4.]
[1. 3. 4. 4.]
[1. 2. 3. 4.]]