YOLO V1学习总结

图片大小:448 * 448 —> 7 * 7 *(5 * B + C)

5:每个框的x,y,w,h,confidence;
B=2:在7*7的feature上,每个cell会生成2个预测框;
C:类别数。

损失函数

YOLO V1学习总结_第1张图片
坐标中心误差和位置宽高的误差,其中1objijj表示第i个网格中的第j个预测框是否负责obj这个物体的预测,只有当某个预测框对某个物体负责的时候,才会对box的coordinate error进行惩罚,而对哪个物体负责就看其预测值和GT box的IoU是不是在那个网格的所有box中最大。

置信度分成两部分,一部分是包含物体时置信度的损失,一个是不包含物体时置信度的值。
其中前一项表示有无人工标记的物体落入网格内,如果有,则为1,否则为0。第二项代表预测框bounding box和真实标记的box之间的IoU。值越大则box越接近真实位置。
confidence是针对预测框bounding box的,由于每个网格有两个bounding box,所以每个网格会有两个confidence与之相对应。

从损失函数上看,当网格i中的第j个预测框包含物体的时候,用上面的置信度损失,而不包含物体的时候,用下面的损失函数。对没有物体的预测框的置信度损失,赋予小的loss weight, 记为在pascal VOC训练中λ noobj 取0.5,有有物体的预测框的置信度损失和类别的loss的loss weight正常取1。

类别损失这里也用了均方误差。其中 1obji 表示有无物体的中心点落到网格i中,如果网格中包含有物体object的中心的话,那么就负责预测该object的概率

缺点

1、使用了dropout,未使用BathcNormal;
2、只生成2种预测框,对外形变化大的物体识别不好;
改进:锚框变多,尺度变多;
2、最终生成的feature为7*7,过小,哪怕在损失函数里对w、h开方后再计算,对小目标识别也不友好;
改进:扩大生成的feature大小,使用多尺度训练;
3、使用的softmax,每个cell只能预测一个类别,对图片上类别较多较密集的漏检;
改进:使用sigmoid

你可能感兴趣的:(YOLO系列学习,深度学习,目标检测,yolo)