多目标检测与识别 YOLOV3 解读1 怎么检测到物体

1 怎么检测到物体的?

1.1 为什么不直接用中心点、宽、高定位目标

一般来说,要检测物体就要定位物体,我们一般通过中心点、宽、高来定位,但是我们一般不让神经网络直接
学习宽、高。为什么?请看下图:多目标检测与识别 YOLOV3 解读1 怎么检测到物体_第1张图片
上面有两个框,一个大框一个小框,如果用神经网络直接学习宽、高,在设计损失的时候就会遇到问题,当损失很小的时候,对于大框而言位置会发生较小的偏移,但是对于小框而言,在相同的损失下小框的位置就会发生较大的偏移,导致的结果就是回归的位置不准。所以就不能直接学习宽、高。那么怎么解决这个问题?这时就引入了anchor box(建议框)的思想,让神经网络不用学习宽高,而是学习anchor box和真实框(标记框)的相对位置,学到了相对位置,网络就输出相对位置,我们就可以通过相对位置和anchor box反算目标所在的位置。

1.2 anchor box

上面说了可以用anchor box反算目标位置,那么anchor box怎么确定?要求是什么?
因为所有的目标都是通过anchor box反算回去的。所用anchor box必须满足检测物体的所有尺寸要求,怎么来得到这样的尺寸?于是就用了k-means的思想。yolov3就是选出了所有训练集进行聚类,聚出9个处于中心位置的框,选择这些框作为anchor box。这就是yolov3的anchor box的思想。

1.3 yolov3的思想

多目标检测与识别 YOLOV3 解读1 怎么检测到物体_第2张图片
yolov3思想简单说就是物体所在中心点的网格就要负责预测该物体。一个中心点产生9种anchor box,对应的是3个不同尺度(1313,2626,52*52)来分别预测大物体 中物体 小物体。怎么判断是哪个anchor box来预测目标物体的?这时就用到了iou(交并bi),这里的iou就是标签框和anchor box的iou。哪个anchor box所对应的iou大那么就用哪个anchor box来预测目标物体。这就是yolov3是怎么检测到物体的。

总结

上面内容我总结下,要检测多目标的位置并且识别需要这几样东西。
1、真实框和建议框的位置关系。2、中心点 3、iou 4、类别(cls)
所以标签就要往这几个方向制作。

你可能感兴趣的:(深度学习)