目标检测(object detection)

目标检测

  • 目标检测
  • 目标检测的任务
  • R-CNN
    • 目标检测-Overfeat模型
  • SPPNet
  • Fast R-CNN
  • Faster R-CNN
  • YOLO介绍
  • YOLOV2
  • YOLOV3
  • SSD算法原理

目标检测

目标检测的任务是找出图像中所感兴趣的目标,并确定它们的类别和位置。
算法分类:
两步走的目标检测:先进行区域推荐,然后进行目标分类。
R-CNN、 SPP-Net 、Fast R-CNN 、R-FCN
端到端的目标检测:直接在网络中提取特征来预测物体分类和位置。
OverFeat、YOLOv3、SSD和RetinaNet

目标检测的任务

分类的损失和优化
分类:评估指标Accuracy
定位:主要评估指标IOU(bbox,bounding box)

对于分类的概率使用交叉熵损失,位置信息具体数值可以使用MSE均方误差损失(L2损失)

R-CNN

目标检测-Overfeat模型

目标检测的暴力方法是从左到右、从上到小滑动窗口,利用分类识别目标。
滑动窗口需要初始设定一个固定大小的窗口,所以需要提前设定窗口数量和大小。
把图像变形为固定大小输入到CNN分类器后,提取特征后,使用一些分类器识别类别和该边界框的另一个线性回归分类器。

候选框区域提案+极大值抑制
选择性搜索候选框区域:是一个语义分割方法,它通过在像素级的标注,把颜色边界纹理等信息作为合并条件,多尺度的综合采样方法,划分出一系列的区域,这些区域要远远少于传统的滑动窗口的穷举法产生的候选区域。

首先通过CNN提取高级特征作为下一步的分类器、回归的输入数据。
CNNs需要固定尺寸,因为后面的全连接层部分需要固定尺寸的输入。
训练一个线性回归模型去预测一个新的检测窗口,回归用于修正筛选后的候选区域。
非最大抑制(NMS):筛选候选区域,目标删除那些冗余的候选框。
IOU交并比:主要用于在CNN和SVM训练时计算正负样本使用,以及测试阶段的NMS使用。
平均精确率(mAP)
缺点:训练阶段多,训练耗时,处理速度慢,图片形状变化。

SPPNet

SPPNet引入一种空间金字塔池化层易移除对网络固定尺寸的限制。
SPP层放在最后一个卷积层后。SPP层对特征进行池化,并产生固定长度的输出,这个输出再喂给全连接层。
首先选择性搜索,对待检测的图片进行搜索出2000个候选窗口。这然后把整张图片输入到CNN中进行一次性的特征提取,然后feature maps中通过映射关系找到各个候选框区域。
目标检测(object detection)_第1张图片
优点:通过候选区域和feature map的映射,配合SPP层的使用,从而达到了CNN层的共享计算,减少了运算时间
缺点:训练依旧过慢、效率低,特征需要写入磁盘,分阶段训练网络

Fast R-CNN

采用了多项创新提高训练和测试速度来提高检测精度。
改进:提出了一个Rol pooling layer,然后整合整个模型,把CNN、Rolpooling、分类器、bbox回归几个模块整个一起训练。

Faster R-CNN

在Fast RCNN还存在着瓶颈问题:选择性搜索
加入了一个提取边缘的神经网络。
目标检测的四个基本步骤(候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架中。
RPN:是一个全卷积网络,可以同时在每个位置预测目标边界和目标分数。
可以简单的看成是区域生成网络+Fast R-CNN的模型

RPN原理:区域提议网络以任意大小的图像作为输入,输出一组矩形的目标提议,每个提议都有一个目标得分。
平移不变性anchors:在图像中平移了物体,窗口建议也会跟着平移。
总结:优点:提出RPN网络、端到端网络模型
缺点:训练参数过大、小目标检测效果不好。

YOLO介绍

端到端的目标检测方法。
使用单个神经网络,在一次评估中直接从完整图像上预测边界框和类别概率。由于整个检测流程仅用一个网络,所以可以直接对检测性能进行端到端的优化。
过程:
把图像缩放到448*448、利用卷积神经网络在该图像上进行处理、根据模型的置信度对检测结果进行处理NMS。获取最终的检测结果
每个网格会预测边框以及置信度分数
预测位置大小-回归offset代替直接回归坐标。

yolo预测的是类的条件概率。

YOLOV2

批标准化、高分辨率分类器、基于卷积的Anchor机制,使用k-means对训练集中边框做了聚类分析尝试找到合适的anchor

YOLOV3

在三个不同尺度的特征图上进行预测。
每个尺度特征设置的先验框大小。
逻辑回归替代softmax作为分类器。
在训练过程中,使用二元交叉熵损失来进行类别预测。

SSD算法原理

结合了YOLO中的回归思想和Faster-RCNN的anchor机制,使用全图各个位置的多尺度区域进行回归,既保持了YOLO速度快的特性也保证了窗口预测的跟Faster-RCNN一样比较精准。
SSD的核心是在不同尺度的特征图上采用卷积核来预测一系列Default Bounding Boxes的类别、坐标偏移。

你可能感兴趣的:(计算机视觉,目标检测,人工智能,计算机视觉)