YOLO中每一个grid cell 的两个 bounding box 是如何初始化的呢

刚刚也在想这个问题,突然想到这种解释,也不知道对不对,和大家讨论讨论。

感觉我们问这个问题的时候,关注的是预测时,给网络一张图片,网络就会给每一个格子选择两个bbox,而且有些时候某些bbox很好的框出了物体,感觉好神奇。

我感觉其实在刚开始训练的时候他肯定不会怎么智能马上预测出我们想要的bbox,肯定是经过多次训练,使预测bbox越来越理想。训练时,输出的数据里面有bbox的x,y,w,h,然后将预测出来的x,y,w,h和真实值比较,通过反向传播修改前面神经网路的参数,经过多次迭代,就能得到理想的bbox。

在测试时训练好的神经网络看到当前网格的一些信息,就能推测出应该用怎么的bbox。比如神经网络看见这只图像中狗的眼睛比较小,他给出的bbox的尺度就会小一点,然后依据嘴巴,脚,尾巴等信息,可以推测出bbox的中心。

神经网络是训练出来的,而不是人用硬编码写出来的,可能很多细节人也不知道他是怎么得到的。

你可能感兴趣的:(深度学习)