faster rcnn学习笔记
1、faster rcnn相关概念
- 将P×Q大小的图片输入faster rcnn
- 图片会被重塑成M×N大小(短边resize,保证长宽比),图像不会失真。
- 通过backbone(主干特征提取网络)提取特征获取共享特征图(feature map)。
- 建议框网络:首先对共享特征图进行3×3的卷积操作,然后将结果进行两次1×1的卷积,通道数为9×2(背景和物体的概率)和9×4(先验框的参数),最后获得建议框(proposal)。
- 将建议框与共享特征图结合,传入ROI pooling层,使用建议框对共享特征图截取,并将获得局部特征图分区域池化成相同的shape。
- 将获得所有局部特征图进行分类预测和回归预测。回归结果对建议框调整获得预测结果,分类预测结果判断建议框中是否有物体存在以及物体的种类。
2、ResNet 50
2.1 Conv Block
- Conv Block 残差边上有卷积,可以通过改变卷积的步长和通道数改变输出的特征层的维度。
- 主要作用是改变网络的维度。
2.2 identity Block
- 输出维度和输入维度相同。
- 主要作用是串联网络,加深网络层数。
2.3 ResNet 50
- 使用卷积核7*7,通道数64,步长2的卷积获得特征层–>标准化–>Relu激活函数。
- 使用卷积核3*3,步长2的卷积进行最大池化。
- 使用通道数为64、128、256、512的Conv block(改变输入输出维度)和identity block(加深网络)
3、Proposal建议框
- 共享特征值进行33卷积,使用18通道的11卷积核36通道的1*1卷积。
- 18通道的卷积分为9*2,9对应网格内的先验框,2对应物体和背景的概率。
- 36通道的卷积分为9*4,9对应网格内的先验框,4调整先验框获得建议框。
4、faster rcnn的预测过程
- 输入图片,计算高和宽,并resize图片(短边600),转换为RGB(预训练权重,快速训练,简化绘图)
- 归一化图片,将通道调整为第一维度,准换为Tensor
- 进行预测,获得建议框的调整参数,建议框的种类得分,建议框的坐标
5、标注软件 Labelimage
①通过change save dir修改标签文件存储位置
②通过view 打开auto save mode自动保存标签文件,通过A、D快速切换图片
- 免安装版:我用阿里云盘分享了「lableImage」,你可以不限速下载复制这段内容打开「阿里云盘」App 即可获取链接:https://www.aliyundrive.com/s/H9kchHoYh9v
- win+ r --> cmd: pip install labelimg
参考
- https://www.bilibili.com/video/BV1BK41157Vs?from=search&seid=15968383880616928141&spm_id_from=333.337.0.0
- https://blog.csdn.net/weixin_44791964/article/details/105739918