YOLOv2(2017)论文笔记

YOLO9000:Better, Faster, Stronger

简介

论文提出了YOLOv2以及YOLO9000,YOLO9000是使用了联合训练方法,能够预测超过9000个目标类别

  • 借鉴了多种前人的提升方法,精度达到STOA,在voc 2007上,67FPS,76.8mAP和40FPS,78.6mAP,超过Faster RCNN(resnet),
  • 论文使用分类和检测联合训练的方法,使得模型能预测超出原本带有标签检测的类别。

    文章目录

    • YOLO9000:Better, Faster, Stronger
    • 简介
    • 一、创新点
      • 总结
    • 二、论文链接
      • 原文链接
      • 代码链接
      • 论文投稿期刊
      • 相关论文
    • 三、论文评价
    • 四、模型
      • Better
      • Faster
      • Stronger
    • 五、实验
      • 数据集
      • 具体实验
        • 实验1(Dimension Clusters)
        • 实验2(Avg IOU on Box Generation)
        • 实验3(Accuracy and speed on VOC 2007)
        • 实验4(The path from YOLO to YOLOv2.)
        • 实验5(PASCAL VOC2012 test detection results)
        • 实验6(Results on COCO test-dev2015.)
        • 实验7(YOLO9000 Best and Worst Classes on ImageNet)

一、创新点

  • 从各角度提升Yolov1,得到Yolov2
  • 由于分类(多)和检测数据集(少)数量差别巨大,提出了数据集组合与联合训练的方法,让检测泛化到更多的类别。

总结

  • 精度达到STOA(voc 2007)
    • 67FPS,76.8mAP (416*416)
    • 40FPS,78.6mAP(544*544)
  • 进行了7组实验

二、论文链接

原文链接

[1612.08242] YOLO9000: Better, Faster, Stronger (arxiv.org)

代码链接

ObjectDetection-OneStageDet
Yolo-v2-pytorch

论文投稿期刊

CVPR 2017

相关论文

三、论文评价

  • 行文:论文主要按照标题的Better, Faster, Stronger顺序展开,分别针对精度,速度和范围扩展进行论述,借鉴使用前人的方法,逐步一点点改进模型,提升精度
  • 创新:文章后面讲述的是联合训练方法,从泛化和扩展范围的新角度去创新,而非仅仅是在某个数据集上的精度和速度

四、模型

Better

  • Batch Normalization
    • 可以加快模型收敛,减少正则化
    • 提升2%mAP
    • 使用BN,可以不用dropout
    • ps:使用BN,卷积核参数不使用bias
  • High Resolution Classifier
    • 将classification network 从224×224 adjust to 448×448
    • 提升4%mAP
  • Convolutional With Anchor Boxes
    • 预测相对偏移,比直接预测bbox坐标更简单,网络更容易学习
    • 将尺寸从448×448修改为416×416,可以使得feature map中心对应一个网格,这样得到13*13的特征图
    • 将类别预测从空间位置分离出来,为每一个anchor都预测类别和object
    • 降了0.3%mAP,但提升7%的recall,模型有很大提升空间
  • Dimension Clusters
    • 设置更合适数据集的better priors,比手动设置,能让网络更容易学习预测目标位置
    • 使用k-means,使用IOU来计算distance,在voc和coco中实验得到短而宽的bbox少,高而瘦的bbox更多
    • 选择k=5,即5个priors,可以在recall和complexity之间达到权衡
  • Direct location prediction
    • 如果使用没有限制的 x , y x,y xy偏移,那么预测的bbox就可以出现在image的任何位置,这样会导致网络训练很难稳定
    • YOLOv2(2017)论文笔记_第1张图片
    • YOLOv2(2017)论文笔记_第2张图片
      • 使用sigmod对 t x , t y t_{x},t_{y} tx,ty限制到[0,1]
      • c x , c y c_{x},c_{y} cx,cy为网格的左上角坐标
      • 每个grid cell 预测5个bbox,每个bbox有5个参数和classes
    • 提升了5% mAP
  • Fine-Grained Features
    • 高层的特征图,适合预测大目标,底层的特征图细节更多,感受野也小,适合预测小目标
    • 增加一个 passthrough layer,结合更浅层26×26 的特征图
      • YOLOv2(2017)论文笔记_第3张图片
      • 使26 × 26 × 512 feature map 转为 13 × 13 × 2048,可以与高层的feature map相加
    • 提升了1% mAP
  • Multi-Scale Training
    • 由于网络只是使用了卷积和池化,所以网络可以接受不同尺度的图像
    • 为了让网络能够检测不同尺度的图像,在每10个batch,就随机选择一个图像大小∈{320,352…,608},32为间隔,适应网络的下采样因子
    • 模型检测小分辨率的图像速度更快,yolov2可以在速度和精度之间达到权衡。

Faster

  • 为了提高精度和速度,更换在分类任务上精度更高,运算量更少的网络,DarkNet-19,91.2% top-5 accuracy on ImageNet
    • YOLOv2(2017)论文笔记_第4张图片
      • 训练for classification
        • 160 epochs
        • lr=0.1,polynomial rate decay a power of 4
        • SGD,weight decay=0.0005,momentum=0.9
        • data augmentation: crops, rotations, and hue, saturation, and exposure shifts
        • 替换更高的resolution(224->448)在进行10个epoch的微调,lr=0.001, 达到 top-5 accuracy of 93.3%
      • 训练for dectection
        • 修改网络如下:YOLOv2(2017)论文笔记_第5张图片
        • 去掉darknet最后一个卷积层,接上3个3*3的卷积层和1个1*1的卷积层,还加入一个passthrough层
        • 训练:
          • 160 epochs
          • lr=0.001,dividing it by 10 at 60 and 90 epochs
          • SGD,weight decay = 0.0005,momentum= 0.9.

Stronger

  • Dataset combination with WordTree
  • Joint classification and detection.

五、实验

数据集

  • PASCAL VOC 2007 、2012
  • COCO

具体实验

实验1(Dimension Clusters)

YOLOv2(2017)论文笔记_第6张图片

  • The cluster centroids are significantly different than hand-picked anchor boxes.
  • There are fewer short, wide boxes and more tall, thin boxes.

实验2(Avg IOU on Box Generation)

YOLOv2(2017)论文笔记_第7张图片

实验3(Accuracy and speed on VOC 2007)

YOLOv2(2017)论文笔记_第8张图片
YOLOv2(2017)论文笔记_第9张图片

实验4(The path from YOLO to YOLOv2.)

YOLOv2(2017)论文笔记_第10张图片

实验5(PASCAL VOC2012 test detection results)

YOLOv2(2017)论文笔记_第11张图片

  • YOLOv2 achieves 73.4 mAP while running far faster than competing methods

实验6(Results on COCO test-dev2015.)

YOLOv2(2017)论文笔记_第12张图片

实验7(YOLO9000 Best and Worst Classes on ImageNet)

YOLOv2(2017)论文笔记_第13张图片

  • YOLO9000 learns good models for a variety of animals but struggles with new classes like clothing or equipment

你可能感兴趣的:(深度学习,计算机视觉,人工智能)