object_detection_目标检测总结

文章目录

      • 概述
        • 传统
        • 一阶段
        • 二阶段
      • RCNN
        • 深度学习算法与传统算法的界限
      • Fast-RCNN
        • RNN的改进版本
      • Faster-RCNN
        • Fast R-CNN进阶版
        • Faster-RCNN结构
        • RPN_LOSS
        • RPN_过程
      • YOLOv1
      • YOLOv2
      • YOLOv3
        • 基础网络
      • Anchor-free
        • Anchor的缺点
        • 分类
        • CenterNet与Anchor-based方法的区别:
        • DLA-34
        • Heatmap
        • LOSS
        • 预测阶段
        • 存在的问题
      • 结果的对比
      • 思考
            • 参考资料
      • 结果的对比
      • 思考
            • 参考资料

概述

传统

区域选择->特征提取HOG(直方图梯度)->特征分类

一阶段

SSD和YOLO系列

二阶段

FasterRCNN系列

RCNN

深度学习算法与传统算法的界限

  1. 采用selective算法进行候选框的提取(~2K)
  2. 特征提取利用CNN网络
  3. 进入全连接层特征图需要拉伸为同一尺寸
  4. 分类算法为支持向量机(SVMs)

缺点:分成候选区域选择和特征提取两个阶段,速度慢

Fast-RCNN

RNN的改进版本

  1. 采用selective算法进行候选框的提取(~2K)
  2. 只进行一次特征提取
  3. 利用ROI-pooling进行处理全连接层的输出
  4. 分类算法SVMs换成了softmax,将分类与框预测目标函数合并为多任务目标函数

Faster-RCNN

Fast R-CNN进阶版

RPN代替了selective Search,采用anchor框(手工)设置比例
可冻结CNN网络(VGG16)对RPN网络进行训练

  1. 特征提取:conv + relu +pooling(VGG16)
  2. 区域提取:RPN:softmax判断正负类,IOU与阈值比较
  3. 感兴趣区域池化:ROI_Pooling
  4. 分类和回归 分类对anchor框归一化后采用softmax 回归采用SmoothL1函数

对得到的特征图37*50个点上施加9个anchor框,一共37 * 50 * 9=16650个anchor框

Faster-RCNN结构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存失败,源站可能有防盗链机制,建议将图片保存下来直接上传下上传(igTlndV1hvz2-1592486776100)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618103547632.png)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618103547632.png)]

RPN_LOSS

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cA114Fde-1592486776104)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618103327360.png)]

RPN_过程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-geYuDC90-1592486776106)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618103439290.png)]

YOLOv1

  1. 引入了inception结构将目标检测变为了一阶段算法
  2. 利用grid网格将图片分为S*S个网格
  3. 每个格子需要预测B个bounding box,默认两个
  4. loss均为均方差
  5. 缺点:末尾还是采用了两个全连接,对小物体和遮挡,对新的不常见宽高比预测不好

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iRe7vvsv-1592486776110)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618113536687.png)]

YOLOv2

  1. batch norm,hi-resolution input
  2. 卷积代替全连接层
  3. kmeans算法求anchor框(选择k为5,1-IOU作为距离测量)
  4. location prediction:采用局部的grid
  5. 偏移公式采用x,y的sigmoid,限制在网格内
  6. 层与层之间采用类Resnet网络

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tCSolpCK-1592486776111)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618204331690.png)]

YOLOv3

  1. anchor框变为9种,采用不同感受野大小的先验框
  2. 引入了残差网络,网络层数达到了51层(原19层)
  3. 多特征图+FPN特征金字塔}
  4. 使用了logistics函数代替softmax函数(sigmoid的交叉熵函数)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-94aSeX42-1592486776113)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618204650174.png)]

基础网络

每个特征图预测三个 80 * 1 * 4 3(个先验框)=255

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HMFCduok-1592486776115)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618205001835.png)]

Anchor-free

Anchor的缺点

  1. 正、负样本不均衡:我们通常在特征图所有点上均匀采样Anchor,而在大部分地方都是没有物体的背景区域,导致简单负样本数量众多,这部分样本对于我们的检测器没有任何作用。
  2. 超参难调: Anchor需要数量、大小、宽高等多个超参数,这些超参数对检测的召回率和速度等指标影响极大。
  3. **匹配耗时严重:**为了确定每个Anchor是正样本还是负样本,通常要将每个Anchor与所有的标签进行IoU的计算,这会占据大量的内存资源与计算时间。

分类

**直接预测边框:**YOLOv1

**关键点预测:**CornerNet和CenterNet

CenterNet与Anchor-based方法的区别:

➢没有使用Anchor作为先验框,而是预测物体的中心点出现位置,因此也就不会存在先验框与标签的匹配,无正、负样本的筛选过程;

➢每个物体标签仅仅选择一个中心点作为正样本,具体实现是在关键点热图上提取局部的峰值点,因此也就不会存在NMS的过程;

➢由于CenterNet专注在关键点的检测,因此其可以使用更大的特征图,而无须使用多个不同大小的特征图。在CenterNet的论文中其使用的网络下采样率为4.之前的通常为16

DLA-34

深层聚合网络(详情见5.30号的结构分析)

红线上采样虚线是可变形卷积

黑虚线是转置卷积

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zhoyJdiY-1592486776116)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618210804924.png)]

Heatmap

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JUNNEu5V-1592486776118)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618211318671.png)]

LOSS

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Ki3c5LU-1592486776120)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618211431145.png)]

预测阶段

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PZR7ygUN-1592486776121)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618211644266.png)]

存在的问题

实际过程中,比如同一类别的物体中心点经过下采样之后,重叠了。

结果的对比

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aHsawAGe-1592486776122)(C:\Users\tkh\AppData\Roaming\Typora\typora-user-images\image-20200618211958413.png)]

思考

多尺度物体的检测 可采用多尺度融合?

遮挡物体的检测 CenterNet效果较好

参考资料

过程中,比如同一类别的物体中心点经过下采样之后,重叠了。

结果的对比

[外链图片转存中…(img-aHsawAGe-1592486776122)]

思考

多尺度物体的检测 可采用多尺度融合?

遮挡物体的检测 CenterNet效果较好

参考资料

你可能感兴趣的:(学习,CV)