YOLO V1论文细节

参考:(讲的详细,简单易懂)https://www.bilibili.com/video/BV15w411Z7LG/?is_story_h5=false&p=4&share_from=ugc&share_medium=android_hd&share_plat=android&share_session_id=f3bd490e-6f4d-43c2-97df-4573b8556221&share_source=WEIXIN&share_tag=s_i×tamp=1670053553&unique_k=j0ik45C

一、数据集

YOLO 是在 PASCAL VOC数据集上训练的,VOC数据集有20个类别,这20个类别有一些非常大,比如火车、猫、公交车等,而有一些类别非常小,比如说左下角的羊群很小,论文中,不同类别的性能是不一样的,YOLO 对小目标和密集目标的性能是比较差的。VOC是20个类别,COCO是80个类别。

YOLO V1论文细节_第1张图片

 二、YOLO V1 与其他目标检测方法比较

1、在实时目标检测中是最准的,非实时中是最快的,所以 YOLO 是又快又准的。

YOLO V1论文细节_第2张图片 2、在2015年时,YOLO的性能是介于R-CNN和Fast R-CNN之间的。当时YOLO V1在准确率上并不是很有优势,但是其速度特别快,FPS达到45,每秒钟处理45张图片,这是它的核心优势,在YOLO之后,中科院提出SSD,也是单阶段模型。

YOLO V1论文细节_第3张图片

 3、YOLO 和Fast R-CNN各类错误比例分析

        从下图可以看出Fast R-CNN准确率是比YOLO高的,因为Fast R-CNN是两阶段的。但是Fast R-CNN的 Background 红色扇形部分比YOLO高三倍,是因为Fast R-CNN是两阶段模型,并不能识别全图的信息,只是把候选区域中的一小块进行分析,所以它丧失了全图的信息,所以会把很多背景误判为目标,这就是 Background 错误,而 YOLO 是把整张图片喂到模型里,是能看到全图的,所以它区分背景和物体的能力比较强,同时能够隐式的编码全图各个目标之间的关系,比如前景和背景,飞机和蓝天,人骑自行车,人和自行车的关系能够识别出来,能够隐式的编码出来,所以YOLO,区分背景和物体的能力强,Background 的错误就少,但是YOLO的定位能力比较差,即Loc,蓝色部分面积比较大。有多种原因,一方面是YOLO输入图像的分辨率比较低,只有448X448,同时一个网络干了整个目标检测的事儿,速度和性能永远是鱼和熊掌不可兼得的。目前YOLO其他进阶版本性能都很强大。

YOLO V1论文细节_第4张图片

 4、YOLO区分背景和物体的能力强,但定位性能差,而Fast R-CNN区分背景和物体的能力差,但定位性能强,如果将两者集成在一起,能够起到优势互补的作用。

YOLO V1论文细节_第5张图片

 5、VOC 2012测试集各个类别的性能和各个模型的排行榜,YOLO对于小物体的性能较差,但对于猫和火车这样的大物体,YOLO性能是比较好的,并且把YOLO和Fast R-CNN进行结合之后能够显著的提升排名和2.3%的mAP,mAP是20个类别的AP的平均值。

YOLO V1论文细节_第6张图片

 6、由于YOLO能够看到全图,所以能够捕获全图的信息,所以其学习能力、迁移泛化能力是非常强的,在自然图像上训练出的YOLO模型放在艺术作品上,仍然是性能很好的,自然图像和艺术作品两个数据集的来源是完全不一样的,从像素层面,纹理层面,拍摄层面都是完全不一样的,但是YOLO能够迁移泛化,作图展示了在毕加索数据集上对行人这个类别的PR曲线,PR曲线围成的面积越大说明性能越好,YOLO是包络了其他模型的,说明YOLO比其他模型性能要好,但是离人还差一点,右边表格展示了在自然图像数据集上训练的模型再放在艺术作品的数据集上进行预测,看看效果怎么样,YOLO在自然图像上训练的效果是比较好的,在艺术作品上表现的也是比较好的,没有出现显著的掉分,但是对于其他的两阶段模型和划窗模型而言,掉分就特别厉害。两阶段是依赖上下游协同工作,一旦有一个步骤不能进行,那么整个工作就无法进行。

YOLO V1论文细节_第7张图片

你可能感兴趣的:(计算机视觉,目标检测,人工智能,计算机视觉)