faster rcnn学习笔记

faster rcnn学习笔记

1、faster rcnn相关概念

faster rcnn学习笔记_第1张图片

  1. 将P×Q大小的图片输入faster rcnn
  2. 图片会被重塑成M×N大小(短边resize,保证长宽比),图像不会失真。
  3. 通过backbone(主干特征提取网络)提取特征获取共享特征图(feature map)。
  4. 建议框网络:首先对共享特征图进行3×3的卷积操作,然后将结果进行两次1×1的卷积,通道数为9×2(背景和物体的概率)和9×4(先验框的参数),最后获得建议框(proposal)。
  5. 将建议框与共享特征图结合,传入ROI pooling层,使用建议框对共享特征图截取,并将获得局部特征图分区域池化成相同的shape。
  6. 将获得所有局部特征图进行分类预测和回归预测。回归结果对建议框调整获得预测结果,分类预测结果判断建议框中是否有物体存在以及物体的种类

2、ResNet 50

2.1 Conv Block

faster rcnn学习笔记_第2张图片

  • Conv Block 残差边上有卷积,可以通过改变卷积的步长和通道数改变输出的特征层的维度。
  • 主要作用是改变网络的维度。

2.2 identity Block

faster rcnn学习笔记_第3张图片

  • 输出维度和输入维度相同。
  • 主要作用是串联网络,加深网络层数。

2.3 ResNet 50

faster rcnn学习笔记_第4张图片

  • 使用卷积核7*7,通道数64,步长2的卷积获得特征层–>标准化–>Relu激活函数。
  • 使用卷积核3*3,步长2的卷积进行最大池化。
  • 使用通道数为64、128、256、512的Conv block(改变输入输出维度)和identity block(加深网络)

3、Proposal建议框

faster rcnn学习笔记_第5张图片

  • 共享特征值进行33卷积,使用18通道的11卷积核36通道的1*1卷积。
  • 18通道的卷积分为9*2,9对应网格内的先验框,2对应物体和背景的概率。
  • 36通道的卷积分为9*4,9对应网格内的先验框,4调整先验框获得建议框。

4、faster rcnn的预测过程

  • 输入图片,计算高和宽,并resize图片(短边600),转换为RGB(预训练权重,快速训练,简化绘图)
  • 归一化图片,将通道调整为第一维度,准换为Tensor
  • 进行预测,获得建议框的调整参数,建议框的种类得分,建议框的坐标

5、标注软件 Labelimage

①通过change save dir修改标签文件存储位置
②通过view 打开auto save mode自动保存标签文件,通过A、D快速切换图片

  • 免安装版:我用阿里云盘分享了「lableImage」,你可以不限速下载复制这段内容打开「阿里云盘」App 即可获取链接:https://www.aliyundrive.com/s/H9kchHoYh9v
  • win+ r --> cmd: pip install labelimg

参考

  • https://www.bilibili.com/video/BV1BK41157Vs?from=search&seid=15968383880616928141&spm_id_from=333.337.0.0
  • https://blog.csdn.net/weixin_44791964/article/details/105739918

你可能感兴趣的:(学习笔记,深度学习,pytorch,神经网络)