我先是想跑原作者biubug6的源码,但是没有跑动.原因是爆显存,debug模式下发现train.py被反复执行直到显存爆满停止.debug失败qwq.贴一下源码地址
原作者Retinaface Github源码地址
于是后面fork了bubbliiiing修改的Retinaface,clone下来直接训练就正常了,b站还有配套的讲解视频,真的是小白救星哈哈哈.
bubbliiiing魔改+解析 Github源码地址
这里主要记录一下我的一些理解,详细的可以去看bubbliiiing的b站视频,里面基本讲得比较全面,代码中的注释也是做到了非常详尽
主干特征提取网络(面试被问到了,这里补习一下)
目前的目标检测技术框架主要分为单阶段检测器SSD和两阶段法(以R-CNN为代表)两种.两者的主要区别是SSD直接在特征图上生成候选框,而两阶段法通过区域推荐网络RPN的子网络来辅助生成候选框.
这里还有一个操作就是导入了预训练参数,checkpoint中存放的参数是基于大型数据集训练出来的,具有一定的泛化性,这里load到我们的backbone中能够加快模型的训练,使Loss更快收敛
[1]蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法综述[J].自动化学报,2021,47(06):1232-1255.DOI:10.16383/j.aas.c190756.
MobileNet最大的特点就是使用了深度可分离卷积块,就是利用1×1的卷积来将提取特征和升/降维度两步分开从而减少了参数量.具体实现的过程:
普通卷积块:使用output_channel个kernel_size×kernel_size×input_channel的卷积filter来对输入做运算
深度可分离卷积块:①先用1个kernel_size×kernel_size×input_channel来对输入做运算;—提取特征
②再用output_channel个1×1×input_channel的卷积filter对①的输出运算;—升维
可以计算一下,这样一步分离操作后参数量大幅减少.
所以这里也可以积累一个1×1卷积的作用–调整通道数,再往深讲就是可以作为分支来调整特征融合时的通道数
继续学习
利用2.1的主干特征提取网络,我们获取到了3种shape的特征图,对应网络中由浅及深的特征层.FPN就是在对这3层不同深度的特征层进行特征融合
这里可以理解一下:FPN在做的其实是把更深层的特征融合到浅层的特征中,更深的特征图具有更大的感受野,能够识别图像中较大的目标–人脸.
SSH做的是一个加强特征提取模块,原始的SSH是使用的5×5和7×7卷积来对不同尺度目标特征进行提取的,但是这里借鉴了MobileNet模块来使用小的卷积核来减少参数运算量.具体实现就是使用多个3×3卷积来代替大的卷积核.
SSH在做的仍然是_加强_感受野,对不同尺度的特征图再用不同尺度的卷积核(达到效果)来提取不同尺度的目标特征.最终SSH模块仍然输出3个有效特征层来进行下一个任务–多任务目标检测
2.3中获取到的3层特征图,对特征图划分成网格图,每个网格中会生成num_anchors个先验框,如果框内有目标,就会对先验框进行调整,最后获取最终的预测框
获取预测框后,网络继续对目标关键点调整,获得到人脸关键点
2.3中输入进来的特征图利用1×1的卷积filter直接将通道数调整为num_anchors×2,这里很好理解,也很直接…2对应的就是每个先验框内是否有目标的概率,而num_anchors表示的就是对于通道调整后的特征图,每个网格内生成两个anchor框,并且通过概率判断框内是否有目标
同2.4.1,利用1×1卷积将通道数调整为num_anchors×4,4存放的是先验框中心x,y坐标和宽高w,h坐标的调整参数
同2.4.1,利用1×1卷积将通道数调整为num_anchors×5×2,5表示目标的5个关键点,2表示的是关键点x,y坐标的调整参数
框及关键点的调整就都属于纯python的数据处理了,注意torch中各通道的排列是NCHW,在取数据的时候一定要注意好height和weight在哪一维度
在训练初期的一定量Epoch采用Freeze_Epoch,即冻结状态.冻结的是backbone主干特征提取网络,原因是主干占用较大,且初始的backbone具有一定的泛化性,先促进后续的网络结构参数进行拟合才是主要矛盾.
进行了一定的Freeze_Epoch后,backbone后面的网络初步拟合,这时候解冻backbone,因为backbone的初始参数其实是很泛化的一组参数,比如不止有提取人脸,还有提取狗头的能力,这时候解冻主干来将主干网络进行拟合
SSD => yolov3 => retinanet => yolov4 => Faster RCNN => efficientdet