yolov系列-yolov1-论文详解

yolov系列-yolov1-论文详解

    • @[TOC](yolov系列-yolov1-论文详解)
  • yolov1相关资料
  • yolov1论文详解
    • 算法原理
  • yolov1优缺点

yolov1相关资料

yolov1论文详解

算法原理

在yolov1中作者将一幅图片分成7*7个网格(gird cell),由网络的最后一层输出7 * 7 * 30的tensor也就是说每个格子输出1 * 1 * 30的tensor。30里面包含了2个bounding box的x,y,w,h,confidence以及针对格子而言的20个类别概率,输出就是7 * 7 * (5 * 2 + 20),(通用公式:S * S个网络,每个网络要预测B个bounding box,还要预测C个categories,输出就是S * S * (5 * B + C)的一个tensor。注意class信息是针对每个网络的,confidence信息是针对每个bounding box的)
yolov系列-yolov1-论文详解_第1张图片

  1. 网络设计
    我们的网络架构受到 GoogLeNet 图像分类模型的启发[34]。我们的网络有 24 个卷积层,后面是 2 个全连接层。我们只使用 1×1 降维层,后面是 3×3 卷积层,这与 Lin 等人[22]的模型结构类似,而不是GoogLeNet 使用的 Inception 模块。我们网络的最终输出是 7×7×30 的预测张量。完整的网络如下图所示。
    yolov系列-yolov1-论文详解_第2张图片
    每个层的输出,见下图
    yolov系列-yolov1-论文详解_第3张图片

  2. 预测阶段

  3. 训练阶段

  • 7*7个目标框,最多只能预测49个物体,这是yolov1预测小目标和密集目标比较差的原因。
  • 把目标检测问题当做回归问题解决的
  1. 损失函数loss
  • 4.1 负责检测物体的bbox中心点定位误差
  • 4.2 负责检测物体的bbox宽高定位误差(加根号:小框对误差更敏感)
  • 4.3 负责检测物体的bbox的confidence误差
  • 4.4 不负责检测物体的bbox的confidence误差
  • 4.5 负责检测物体的分类误差
    yolov系列-yolov1-论文详解_第4张图片

yolov1优缺点

优点:

    1. 速度快
    1. 可以捕获全图的信息(globally about the image),隐式的编码图像上下文信息(不同物体之间的关系,比如人骑自行车、飞机和蓝天的关系);Fast R-CNN会犯把背景误判为目标的错误,因为他无法看到更大的上下文信息
    1. 泛化能力、迁移能力比较强
      缺点:
    1. map比较低
    1. 定位性能比较差主要误差来源分类正确但定位误差大,定位误差较大
    1. recall比较低
    1. 检测小目标和密集目标比较差,只能预测7*7个物体

ap:pr曲线围成的面积
dropout 为什么能减少过拟合?


参考:
子豪兄的代码铺子
【精读AI论文】YOLO V1目标检测,看我就够了
【深度学习YOLO V1】深刻解读YOLO V1(图解)
【精读AI论文】YOLO V1目标检测,看我就够了

你可能感兴趣的:(人工智能,yolov1,yolo,ai,人工智能)