笔记-旷世 beyond retinaNet and MaskRCNN报告

what is object detection

  1. 手持设备拍摄场景
  2. 无人驾驶场景

why object detection?

  1. 基础的组件
  2. 长远的看:无人驾驶 医疗图像识别

history

特征 + 分类

RetinaNet && MaskRCNN

  1. one stage

  2. two stage MaskRCNN = FPN with ROIAlign ROIAlign 本身对 目标识别的检测影响不大,对实例分割影响比较大。

  • deformable pool

Challenges

  1. backbone
  • backbone is designed for classificatio: Receptive Field vs Spatial resolution
  • DetNet 对 大物体增加了定位的能力 ,小物体增加召回的能力
  1. HEAD
  • 优化 two-stage 的检测速度 RCNN -> Fast RCNN -> Faster RCNN -> RFCN
  • Light HEAD RCNN

head 可以做的非常薄, 可以做的非常快


  1. Scale
  • 4K 自拍照 或者一个 10 * 10 小的人聊
  • previous works
  • 1. Divide and Conquer SSD, DSSD, RON, FPN 尺寸大的feature Map负责小物体的预测 ---> limited variant
  • 2. Scale Normalization for Image Pyramids, CVPR2018 ---> slow inference
  • Scale-SFace anchor-based anchor-free
  1. Batch Size
  • small mini-batchsize 2 for R-CNN,
  • MegDet
  1. Crowd
  • NMS is post-processing step to eliminate multiple responses on one object instance
  • 1. reasonable for mild crowdness like coco and voc
  • 2. will fail in the case when objects are in crowds
  • previous
  1. Conclusion

Q & A

  1. 增加感受野,有没有试过 Large Kernel?
  • ans: Large Kernel 用过,dilation 对感受野影响是乘的关系,
  1. localization 本质上是一个什么问题?
  • ans: 本质上是回归问题。localization 和分类的问题还是有区别的。localization依赖于空间信息,如果downsample太多,小物体可能丢失,大物体的边界也会模糊。更好的spatial resolution对定位更好。

3.为什么没有backbone + batchsize + lighthead 的结果?

  • research 对某个切入点更感兴趣,整合可以自己实现。对最后的结果应该是有帮助的。

4.最后Light head FC 怎么理解?

  • 对每个Weight加权,一些物体不是每个格都是是满的,把有价值的东西highligth出来,对最后性能的提升是有帮助的
  1. soft-mns对小物体有帮助么?
  • soft-mns主要是保recall, 小物体和大物体并没啥明显的区别
  1. fc是否会破坏空间关系?
  • 只有最后一层采用
  1. CPU实时检测有没有思路?
  • backbone 和 head 做小,比较薄, 对网络做量化
  1. DetNet A 和 B的摆放?
  1. retinaNet有哪些trick?
  • 把图拉大,这样同时会导致FP, Focal Loss 对FP有抑制作用

10.faster rcnn 从anchor boss到最后的box为啥只做了简单的指数变化?

  • faster rcnn 本质上就是对box学习的目标进行压缩,使得学习过程更简单一点

文章来源

https://search.bilibili.com/all?keyword=Beyond RetinaNet

你可能感兴趣的:(目标检测,深度学习)