首先先说一下目标检测之one-stage和two-stage网络是什么意思?有什么区别?
刚开始看目标检测的时候总能看见单阶段(one-stage)和两阶段(two-stage)目标检测网络,一开始不太懂,后来通过自己查资料,明白了一些,这里记录一下。
**单阶段(one-stage):**目标检测经典算法比如YOlO,SSD这是单阶段(One-Stage)算法,单阶段算法主要思想就是用一个CNN网络直接预测不同目标的类别与位置。这类算法是速度快,但是准确性要低一些。
简单介绍一些YOLO算法,下面我们会详细的展开来讲:
(1)YOlO算法,其全称是You Only Look Once: Unified, Real-Time Object Detection,Once指的是只需要一次CNN运算,Unified指的是这是一个统一的框架,提供end-to-end的预测,而实时性(Real-Time)的体现是YOlO算法速度快。
(2)YOLO算法将目标检测的问题转化成一个回归(Regression)问题。给定输入图像,直接在图像的多个位置上回归出目标的边界框以及其分类类别。
**两阶段(two-stage):**目标检测两阶段(two-stage)的经典算法就是基于候选区域的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),两阶段(Two-Stage)指的是,需要先使用启发式方法(如选择性搜索:SS算法)或者CNN网络(RPN)产生候选区域,然后再在候选区域上做分类与回归。
016年,Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段(one-stage)的目标检测网络。它的检测速度非常快,每秒可以处理45帧图片,能够轻松地实时运行。由于其速度之快和其使用的特殊方法,作者将其取名为:You Only Look Once(也就是我们常说的YOLO的全称),并将该成果发表在了CVPR 2016上,从而引起了广泛地关注。
YOLO 的核心思想就是把目标检测转变成一个回归问题,利用整张图作为网络的输入,仅仅经过一个神经网络,得到bounding box(边界框) 的位置及其所属的类别。
YOLOv1的网路结构非常明晰,是一种传统的one-stage的卷积神经网络:
网络输入:448×448×3的彩色图片。
中间层:由若干卷积层和最大池化层组成,用于提取图片的抽象特征。
全连接层:由两个全连接层组成,用来预测目标的位置和类别概率值。
网络输出:7×7×30的预测结果。
(1)检测策略
YOLOv1采用的是“分而治之”的策略,将一张图片平均分成7×7个网格,每个网格分别负责预测中心点落在该网格内的目标。回忆一下,在Faster R-CNN中,是通过一个RPN来获得目标的感兴趣区域,这种方法精度高,但是需要额外再训练一个RPN网络,这无疑增加了训练的负担。在YOLOv1中,通过划分得到了7×7个网格,这49个网格就相当于是目标的感兴趣区域。通过这种方式,我们就不需要再额外设计一个RPN网络,这正是YOLOv1作为单阶段网络的简单快捷之处!
具体实现过程如下:
(1)将一幅图像分成 S×S个网格(grid cell),如果某个 object 的中心落在这个网格中,则这个网格就负责预测这个object。
(2)每个网格要预测 B 个bounding box(2个),每个 bounding box 要预测 (x, y, w, h) 和 confidence 共5个值。
(3)每个网格还要预测一个类别信息,记为 C 个类。
(4)总的来说,S×S 个网格,每个网格要预测 B个bounding box ,还要预测 C 个类。网络输出就是一个 S × S × (5×B+C) 的张量。
在实际过程中,YOLOv1把一张图片划分为了7×7个网格,并且每个网格预测2个Box(Box1和Box2),20个类别。所以实际上,S=7,B=2,C=20。那么网络输出的shape也就是:7×7×30。
损失由三部分组成,分别是:坐标预测损失、置信度预测损失、类别预测损失。
(1)使用的是差方和误差。需要注意的是,w和h在进行误差计算的时候取的是它们的平方根,原因是对不同大小的bounding box预测中,相比于大bounding box预测偏一点,小box预测偏一点更不能忍受。而差方和误差函数中对同样的偏移loss是一样。 为了缓和这个问题,作者用了一个比较取巧的办法,就是将bounding box的w和h取平方根代替原本的w和h。(2)定位误差比分类误差更大,所以增加对定位误差的惩罚,使λ c o o r d = 5
(3)在每个图像中,许多网格单元不包含任何目标。训练时就会把这些网格里的框的“置信度”(置信度(confidence)可以理解为预测目标和真实目标的IoU)分数推到零,这往往超过了包含目标的框的梯度。从而可能导致模型不稳定,训练早期发散。因此要减少了不包含目标的框的置信度预测的损失,使 λ n o o b j = 0.5
下面是论文给出的参数解释,供大家参考
(1)优点:
YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 张图像;YOLO的极速版本每秒可以处理150帧图像。这就意味着 YOLO 可以以小于 25 毫秒延迟,实时地处理视频。对于欠实时系统,在准确率保证的情况下,YOLO速度快于其他方法。
YOLO 实时检测的平均精度是其他实时监测系统的两倍。
迁移能力强,能运用到其他的新的领域(比如艺术品目标检测)。
(2)局限:
—YOLO对相互靠近的物体,以及很小的群体检测效果不好,这是因为一个网格只预测了2个框,并且都只属于同一类。
—由于损失函数的问题,定位误差是影响检测效果的主要原因,尤其是大小物体的处理上,还有待加强。(因为对于小的bounding boxes,small error影响更大)
—YOLO对不常见的角度的目标泛化性能偏弱。
YOLOv2 是一个先进的目标检测算法,比其它的检测器检测速度更快。除此之外,该网络可以适应多种尺寸的图片输入,并且能在检测精度和速度之间进行很好的权衡。
相比于YOLOv1是利用全连接层直接预测Bounding Box的坐标,YOLOv2借鉴了Faster R-CNN的思想,引入Anchor机制。利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板,大大提高了算法的召回率。同时结合图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标的检测。
改进后的YOLOv2: Darknet-19,总结如下:
(1)与VGG相似,使用了很多3×3卷积核;并且每一次池化后,下一层的卷积核的通道数 = 池化输出的通道 × 2。
(2)在每一层卷积后,都增加了批量标准化(Batch Normalization)进行预处理。
(3)采用了降维的思想,把1×1的卷积置于3×3之间,用来压缩特征。
(4)在网络最后的输出增加了一个global average pooling层。
(5)整体上采用了19个卷积层,5个池化层。
Batch Normalization 简称 BN ,意思是批量标准化。2015年由 Google 研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出。
BN 对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。基于此,YOLOv2 对每一层输入的数据都进行批量标准化,这样网络就不需要每层都去学数据的分布,收敛会变得更快。
BN算法实现:
在卷积或池化之后,激活函数之前,对每个数据输出进行标准化,实现方式如下图所示:
如上图所示,前三行是对Batch进行数据归一化(如果一个Batch中有训练集每个数据,那么同一Batch内数据近似代表了整体训练数据),第四行引入了附加参数 γ 和 β,这两个参数的具体取值可以参考上面提到的 Batch Normalization 这篇论文。
在YOLOv1中,作者设计了端对端的网路,直接对边界框的位置(x, y, w, h)进行预测。这样做虽然简单,但是由于没有类似R-CNN系列的推荐区域,所以网络在前期训练时非常困难,很难收敛。于是,自YOLOv2开始,引入了 Anchors box 机制,希望通过提前筛选得到的具有代表性先验框Anchors,使得网络在训练时更容易收敛。
先写到这里,之后在更新
参考资料:https://blog.csdn.net/wjinjie/article/details/107509243