深度学习-目标检测学习笔记

一:基础知识

1.目标检测常见指标

深度学习-目标检测学习笔记_第1张图片

深度学习-目标检测学习笔记_第2张图片

深度学习-目标检测学习笔记_第3张图片

2.目标检测前言

深度学习-目标检测学习笔记_第4张图片

3.知识补充

什么是非极大值抑制剔除重叠建议框?

深度学习-目标检测学习笔记_第5张图片

什么是Rol(Region of Interest)感兴趣区域?

在目标检测中,感兴趣区域(Region of Interest,RoI)是指在整个图像中被认为可能包含目标的区域。为了提高检测效率,很多目标检测方法采用了两阶段的策略。第一阶段通常是生成一组候选框(通常称为候选区域或建议区域),第二阶段则对这些候选框进行分类和精细调整,以确定最终的目标框。

一些常见的区域提议方法包括:

  1. 选择性搜索(Selective Search): 通过在图像中的不同尺度和颜色空间上运行启发式搜索算法,选择性搜索生成一组可能的候选区域。

  2. EdgeBoxes: EdgeBoxes是一种基于图像边缘信息的区域提议方法,它考虑到目标通常在图像中有明显的边缘。

  3. RPN(Region Proposal Network): RPN是一种基于深度学习的区域提议网络,可以端到端地学习生成候选区域。

这些方法生成的候选区域通常被称为感兴趣区域(RoI),它们在目标检测任务中起到了筛选出可能包含目标的区域的作用。在后续的处理中,这些感兴趣区域将被用来提取特征并进行目标分类和边界框回归。

什么是BN(Batch Normalization)?

神经网络中BN层的原理与作用_神经网络bn-CSDN博客

BN层的基本思想其实相当直观:因为深层神经网络在做非线性变换前的输入值(就是那个y=Wx+B,x是输入)随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近,所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得激活输入值落在非线性函数对输入比较敏感的区域,网络的输出就不会很大,可以得到比较大的梯度,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
 

什么是正负样本?

深度学习-目标检测学习笔记_第6张图片

在这里红色的anchor box是负样本,没有匹配到目标;黄色的anchor box是正样本,成功匹配到了目标。

学习源码的步骤应该是怎样的?

可以主要关注三大部分:网络的搭建、图像的预处理和损失函数的计算。

二:二阶段目标检测

1.R-CNN

深度学习-目标检测学习笔记_第7张图片

深度学习-目标检测学习笔记_第8张图片

深度学习-目标检测学习笔记_第9张图片

深度学习-目标检测学习笔记_第10张图片

深度学习-目标检测学习笔记_第11张图片

深度学习-目标检测学习笔记_第12张图片

注:其中SVM分类器和边界框回归器的参数是通过训练得到的。

2.FastRCNN

深度学习-目标检测学习笔记_第13张图片

深度学习-目标检测学习笔记_第14张图片

深度学习-目标检测学习笔记_第15张图片

对整体图像提取特征,而不再是对每个候选区域提取特征。

深度学习-目标检测学习笔记_第16张图片

深度学习-目标检测学习笔记_第17张图片

将每个候选区域经过CNN网络提取到的对应的特征矩阵,缩放到7×7小大,因此不再限制输入图像的尺寸。

深度学习-目标检测学习笔记_第18张图片

深度学习-目标检测学习笔记_第19张图片

 深度学习-目标检测学习笔记_第20张图片

将缩放后的特征图经过一系列全连接层送入分类器和边界框回归器。

深度学习-目标检测学习笔记_第21张图片

深度学习-目标检测学习笔记_第22张图片

3.FasterRCNN

深度学习-目标检测学习笔记_第23张图片

深度学习-目标检测学习笔记_第24张图片

深度学习-目标检测学习笔记_第25张图片

注:在滑动窗口每滑动到一个地方,会给出k个anchor box,原因是,每个目标的尺寸大小是不一样的,因此给出一系列的anchor box来预测目标的尺寸和位置。

深度学习-目标检测学习笔记_第26张图片

深度学习-目标检测学习笔记_第27张图片

深度学习-目标检测学习笔记_第28张图片

三:一阶段目标检测

1.SSD

深度学习-目标检测学习笔记_第29张图片

深度学习-目标检测学习笔记_第30张图片

深度学习-目标检测学习笔记_第31张图片

深度学习-目标检测学习笔记_第32张图片

深度学习-目标检测学习笔记_第33张图片

深度学习-目标检测学习笔记_第34张图片

 每个特征图中会采用(c+4)×k个3×3的卷积核来进行预测,其中c×k个卷积核用来预测每个deflaut box对应的类别分数,4×k个卷积核用来预测边每个deflaue box 的边界框回归参数。k指边界框的数量,c指目标的类别数量(包括背景+1)。

深度学习-目标检测学习笔记_第35张图片

2.YOLO v1

深度学习-目标检测学习笔记_第36张图片

 深度学习-目标检测学习笔记_第37张图片

深度学习-目标检测学习笔记_第38张图片

深度学习-目标检测学习笔记_第39张图片

深度学习-目标检测学习笔记_第40张图片

深度学习-目标检测学习笔记_第41张图片

2.YOLO v2

深度学习-目标检测学习笔记_第42张图片

深度学习-目标检测学习笔记_第43张图片

深度学习-目标检测学习笔记_第44张图片

深度学习-目标检测学习笔记_第45张图片

3.YOLO v3

YOLO v3网络结构分析_yolov3网络结构-CSDN博客

深度学习-目标检测学习笔记_第46张图片

深度学习-目标检测学习笔记_第47张图片

以下网络结构图引用来自B站up主:霹雳吧啦Wz。

深度学习-目标检测学习笔记_第48张图片

   深度学习-目标检测学习笔记_第49张图片

深度学习-目标检测学习笔记_第50张图片 深度学习-目标检测学习笔记_第51张图片

深度学习-目标检测学习笔记_第52张图片

深度学习-目标检测学习笔记_第53张图片

深度学习-目标检测学习笔记_第54张图片

深度学习-目标检测学习笔记_第55张图片

深度学习-目标检测学习笔记_第56张图片

4.YOLO v3 SPP

深度学习-目标检测学习笔记_第57张图片

深度学习-目标检测学习笔记_第58张图片

深度学习-目标检测学习笔记_第59张图片

深度学习-目标检测学习笔记_第60张图片

你可能感兴趣的:(目标检测,学习,笔记)