YOLO算法学习记录

一、前言终于要好好看YOLO这篇论文了,防止记忆衰退,特此记录,方便回顾!

二、YOLOV1论文

1.要点记录

(1).把目标检测问题看做是回归问题,而不是分类问题

(3)resize输入图片尺寸为448*448
(4)对小目标检测定位效果不佳

2.组件

(1)对输入图像划分 S S S个网格,如果物体的中心落在某一个网格中,那么这个网格就负责预测该物体
(2)每个网格预测 B B B个bounding box, 和每个bounding box的置信度
(3)置信度confidence:
置信反映了Box中包含物体的信心和预测边框与真实标签的IOU交并比,如果有物体 P r Pr Pr为0,
c o n f i d e n c e = P r ( O b j e c t ) ∗ I O U p r e d t r u t h confidence = Pr(Object) * IOU^{truth}_{pred} confidence=Pr(Object)IOUpredtruth
(4)每个bounding box有5个预测值, x , y , w , h , x, y, w, h, x,y,w,h,和置信度,其中, x , y x, y x,y代表预测框相对于网格边界的中心位置, 置信度预测代表bounding box与标签ground truth的交并比IOU
(5)每个网格只负责预测一个物体条件概率 C , C = P r ( C l a s s i ∣ O b j e c t ) C,C= Pr(Class_i|Object) C,C=Pr(ClassiObject),,不管每个网格grid有多少个bounding box,比方说,目标检测行人、汽车、卡车,那么每个网格只能预测一种,要么预测的是汽车,要么是卡车,要么是行人,不可以又是行人又是卡车,无论每个网格预测有多少个Bounding box
(6)把条件概率与置信度相乘,得到了每个bounding box的class-specific confidence score,这个分数反映了预测框预测的类别概率,比如预测是行人的概率为0.8,以及预测框与真实标签ground truth的一个贴合程度,公式如下:
P r ( C l a s s i ∣ O b j e c t ) ∗ ( P r ( O b j e c t ) ∗ I O U p r e d t r u t h ) = P r ( C l a s s i ) ∗ I O U p r e d t r u t h Pr(Class_i|Object) *( Pr(Object) *IOU^{truth}_{pred})=Pr(Class_i)*IOU^{truth}_{pred} Pr(ClassiObject)(Pr(Object)IOUpredtruth)=Pr(Classi)IOUpredtruth
(7) 输出(预测)尺寸为 S ∗ S ∗ ( B ∗ 5 + C ) S*S*(B*5+C) SS(B5+C)
由于原文用的是VOC数据集,预测20个种类,划分为7个网格,每个网格预测2个bounding box,
因此,输出尺寸为 7 ∗ 7 ∗ ( 2 ∗ 5 + 20 ) 7*7*(2*5+20) 77(25+20)

3.网络设计

1.继承GooLeNet模型,由24个卷积层和2个全连接层组成,还采用了11卷积核进行降维减少通道数,再利用33卷积核,最后一层使用的是线性层,其余都使用的是leaky Relu激活函数,优化器使用的是sum-squared error(平方误差损失),超参数设置:batch64,动量0.9, 学习衰减率0.0005,
2.Fast-yolo的卷积层数是9,最后的网络输出也是7730
3.由于输出包含bounding box的位置信息以及类别预测概率,因此对bbx的长和宽用图像的长宽尺寸进行归一化,
而bbx的坐标x,y设置为某一个网格的偏移量offest

三、YOLOV3

1.关于anchor box
anchor box的尺寸是基于416416图像上设计的,然后在不同的输出层中,会通过相应的strides映射到相应的尺寸,因此,在预测 b w b_w bw b h b_h bh的时候, p w p_w pw p h p_h ph是通过stride被映射到了相应的尺寸,比如说feature map为1313,那么anchor box会被缩小32倍得到 p w p_w pw p h p_h ph

2.关于ground truth标签的坐标x,y,w,h,为了防止扭曲,应该先等量缩放至416416,在416416图像上计算出具体的坐标,再缩放到1313的feature map上的坐标

你可能感兴趣的:(YOLO算法学习记录)