RetinaFace-Pytorch

1. 前言

我先是想跑原作者biubug6的源码,但是没有跑动.原因是爆显存,debug模式下发现train.py被反复执行直到显存爆满停止.debug失败qwq.贴一下源码地址

原作者Retinaface Github源码地址

于是后面fork了bubbliiiing修改的Retinaface,clone下来直接训练就正常了,b站还有配套的讲解视频,真的是小白救星哈哈哈.

bubbliiiing魔改+解析 Github源码地址

这里主要记录一下我的一些理解,详细的可以去看bubbliiiing的b站视频,里面基本讲得比较全面,代码中的注释也是做到了非常详尽

2. 网络结构理解

  1. 图像输入网络后首先进入backbone主干特征提取网络进行初步的特征提取,输出3层不同shape的特征图
  2. 利用这3层特征层进行上采样特征融合构建FPN特征金字塔
  3. 三层融合特征再分别输入SSH模块来提高感受野
  4. 多任务输出
    4.1 类别输出-是否有人脸?
    4.2 检测框输出-人脸在哪?
    4.3 人脸关键点输出

2.1 backbone

主干特征提取网络(面试被问到了,这里补习一下)
目前的目标检测技术框架主要分为单阶段检测器SSD和两阶段法(以R-CNN为代表)两种.两者的主要区别是SSD直接在特征图上生成候选框,而两阶段法通过区域推荐网络RPN的子网络来辅助生成候选框.

这里还有一个操作就是导入了预训练参数,checkpoint中存放的参数是基于大型数据集训练出来的,具有一定的泛化性,这里load到我们的backbone中能够加快模型的训练,使Loss更快收敛

[1]蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法综述[J].自动化学报,2021,47(06):1232-1255.DOI:10.16383/j.aas.c190756.

2.1.1 MobileNet V1

MobileNet最大的特点就是使用了深度可分离卷积块,就是利用1×1的卷积来将提取特征和升/降维度两步分开从而减少了参数量.具体实现的过程:

  • 普通卷积块:使用output_channel个kernel_size×kernel_size×input_channel的卷积filter来对输入做运算

  • 深度可分离卷积块:①先用1个kernel_size×kernel_size×input_channel来对输入做运算;—提取特征

    ​ ②再用output_channel个1×1×input_channel的卷积filter对①的输出运算;—升维

可以计算一下,这样一步分离操作后参数量大幅减少.

所以这里也可以积累一个1×1卷积的作用–调整通道数,再往深讲就是可以作为分支来调整特征融合时的通道数

2.1.2 ResNet50

继续学习

2.2 FPN

利用2.1的主干特征提取网络,我们获取到了3种shape的特征图,对应网络中由浅及深的特征层.FPN就是在对这3层不同深度的特征层进行特征融合

  • 首先利用1×1卷积filter调整通道数将三种shape的通道数统一
  • 对最深层的特征图进行上采样到上一层的shape大小并融合,再做一次卷积激活
  • 同理将②中融合后的特征图用同样的方式与第一层融合,再做一次卷积激活
  • FPN最终输出向上融合了特征后的三层特征

这里可以理解一下:FPN在做的其实是把更深层的特征融合到浅层的特征中,更深的特征图具有更大的感受野,能够识别图像中较大的目标–人脸.

2.3 SSH

SSH做的是一个加强特征提取模块,原始的SSH是使用的5×5和7×7卷积来对不同尺度目标特征进行提取的,但是这里借鉴了MobileNet模块来使用小的卷积核来减少参数运算量.具体实现就是使用多个3×3卷积来代替大的卷积核.

SSH在做的仍然是_加强_感受野,对不同尺度的特征图再用不同尺度的卷积核(达到效果)来提取不同尺度的目标特征.最终SSH模块仍然输出3个有效特征层来进行下一个任务–多任务目标检测

2.4 multi-task

  • 2.3中获取到的3层特征图,对特征图划分成网格图,每个网格中会生成num_anchors个先验框,如果框内有目标,就会对先验框进行调整,最后获取最终的预测框

  • 获取预测框后,网络继续对目标关键点调整,获得到人脸关键点

2.4.1 分类结果预测

2.3中输入进来的特征图利用1×1的卷积filter直接将通道数调整为num_anchors×2,这里很好理解,也很直接…2对应的就是每个先验框内是否有目标的概率,而num_anchors表示的就是对于通道调整后的特征图,每个网格内生成两个anchor框,并且通过概率判断框内是否有目标

2.4.2 预测框

同2.4.1,利用1×1卷积将通道数调整为num_anchors×4,4存放的是先验框中心x,y坐标和宽高w,h坐标的调整参数

2.4.3 人脸关键点

同2.4.1,利用1×1卷积将通道数调整为num_anchors×5×2,5表示目标的5个关键点,2表示的是关键点x,y坐标的调整参数

3. 先验框及关键点调整

框及关键点的调整就都属于纯python的数据处理了,注意torch中各通道的排列是NCHW,在取数据的时候一定要注意好height和weight在哪一维度

  • 基本的构建理念就是对每一个特征图划分好方格区域,再在每一个方格区域中生成num_anchors个正方形先验框.
  • 这里就能很容易得理解为什么RetinaFace成为SSD单阶段检测器(直接在特征图上生成先验框)

4. 训练

4.1冻结

  • 在训练初期的一定量Epoch采用Freeze_Epoch,即冻结状态.冻结的是backbone主干特征提取网络,原因是主干占用较大,且初始的backbone具有一定的泛化性,先促进后续的网络结构参数进行拟合才是主要矛盾.

  • 进行了一定的Freeze_Epoch后,backbone后面的网络初步拟合,这时候解冻backbone,因为backbone的初始参数其实是很泛化的一组参数,比如不止有提取人脸,还有提取狗头的能力,这时候解冻主干来将主干网络进行拟合

5. 小结

SSD => yolov3 => retinanet => yolov4 => Faster RCNN => efficientdet

你可能感兴趣的:(Pytorch,pytorch,深度学习,人工智能,目标检测)