小白学YOLO - 图解网络的输出到检测出物体的过程

1. 前言

上一篇我们介绍了YOLO网络的输出:图解YOLO输入输出
这一篇我们介绍一下根据网络的输出到检测出物体的过程。
我们上一篇介绍到了:边界框bounding box的类别置信度(class-specific confidence scores):

还有边界框bounding box的confidence


2. 输出->识别物体

计算bounding box的类别置信度

由上面的公式,我们可以得出:

bounding box的类别置信度 = confidence * Pr(Class|Object)

前一篇文章也介绍了,在输出的7 * 7 * 30 的矩阵里面,每一个1 * 30 的向量是包含了这个格子预测出 C 个类别概率值,在后面的20个向量里面,每一个元素就是 Pr(Class|Object)
小白学YOLO - 图解网络的输出到检测出物体的过程_第1张图片
confidence 在bounding box 5 个参数的最后一个:比如途中标记的 bb1 confidence,就是这个格子的第一个bounding box 的 confidence 的值:
在这里插入图片描述
所以,边界框bounding box的类别置信度就可以由上面两个值相乘得到:
小白学YOLO - 图解网络的输出到检测出物体的过程_第2张图片
上图的MUL就是指相乘,黄色的 20 * 1 的向量 Class scores for bb1的类别置信度。

NMS算法处理bounding box的每一行(每一个类别)

由于每一个格子有2个bounding box(B=2),一共有 7 * 7 个格子(S=7),所以经过计算,会有7 * 7 * 2 = 98个bounding box的类别置信度,并且每一行是bounding bo属于这个类别的类别置信度,是该边界框bounding box中目标属于这个类别的可能性大小以及边界框匹配目标的好坏,比如第一行就是PASCAL VOC数据库中20个类别中的Dog:
小白学YOLO - 图解网络的输出到检测出物体的过程_第3张图片
然后会将小于一个阈值的值置为0,并且排序:
小白学YOLO - 图解网络的输出到检测出物体的过程_第4张图片
然后根据NMS算法对这一行进行处理,NMS算法:

首先从所有的检测框中找到置信度最大的那个框,然后挨个计算其与剩余框的IOU,如果其值大于一定阈值(重合度过高),那么就将该框剔除;然后对剩余的检测框重复上述过程,直到处理完所有的检测框。

这样处理完第一行之后(Dog类别),再依次继续处理后面的所有行。这样98个bounding box的每一行都处理完毕了。接下来就是在这个结果中找目标了。

找出目标

经过上述的计算,YOLO再对每一个bounding box进行处理:
小白学YOLO - 图解网络的输出到检测出物体的过程_第5张图片
首先对第一个bounding box,找出在这一列里面值最大的那一个值和类别,如果这个值大于0,就把这个类别在图像中画出来,如果值小于0,就忽略。一直到最后一个bounding box。

就是这样,YOLO把物体在图像中识别出来了。这两篇文章只是介绍了YOLO识别物体的一个大概的过程,具体的那些公式和loss计算,还有一些论文中用到的小技巧等等,还需继续去看论文和别的大神博客介绍的。


参考文献与连接:

  1. https://docs.google.com/presentation/d/1aeRvtKG21KHdD5lg6Hgyhx5rPq_ZOsGjG5rJ1HP7BbA/pub?start=false&loop=false&delayms=3000&slide=id.g137784ab86_4_3017 (图全部来自于这个PPT,推荐大家看一下)
  2. https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf
  3. https://blog.csdn.net/u014380165/article/details/72616238
  4. https://www.hhyz.me/2018/04/20/2018-04-21-YOLOv1/

你可能感兴趣的:(深度学习算法)