目标检测笔记

使用两个全连接层,一个作为类别的输出,一个作为物体位置数值的输出。(4个位置)

  • 对于分类的概率,使用交叉熵损失

  • 位置信息具体的数值,使用MSE均方误差损失(L2损失)

在目标检测当中,对bbox主要由两种类别。

  • Grounding-truth bounding box:图片当中真实标记的框

  • Predicted bounding box:预测的时候标记的框

对于一张图片当中多个目标,多个类别的时候。前面的输出结果是不定的,有可能是以下有四个类别的输出这种情况。或者N个结果,这样的话,网络模型输出结构不定

目标检测笔记_第1张图片

对于多个目标的情况,就不能以固定个数输出物体的位置值

目标检测-Overfeat模型

  • 滑动窗口

目标检测的暴力方法是从左到右、从上到下滑动窗口,利用分类识别目标。但是滑动窗口需要初始设定一个固定大小的窗口,这就遇到了一个问题,有些物体适应的框不一样

所以需要提前设定K个窗口,每个窗口滑动提取M次,总共K×M个图片,通常会直接将图像变形转换成固定大小的图像,变形图像块被输入CNN分类器中,提取特征后,我们使用一些分类器识别类别和该边界框的另一个线性回归器。

目标检测R-CNN模型

候选区域方法(region propousal method):提供了物体检查测的一种重要思路。

  • 步骤(AlexNet为例)

  1. 对于一张图片,找出默认2000个候选区域

  1. 2000个候选区域做大小变换,输入到AlexNet当中,得到特征向量

  1. 2000×4096

  1. 经过20个类别的SVM分类器,对于2000个候选区域做判断,得到[2000,20]得分矩阵

  1. 2000个候选区域做NMS,取出不好的,重叠度高的一些候选区域,得到剩下分数高,结果好的框

  1. 修正候选框,bbox的回归微调。

目标检测笔记_第2张图片

非最大抑制(NMS)

  • 目的:筛选候选区域,目标是一个物体只保留一个最优的框,来抑制那些冗余的候选框

你可能感兴趣的:(目标检测)