Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案

目录

小目标检测

数据方面

Label Smoothing

模型方面

样本不均衡

目标遮挡

More


更多可见计算机视觉-Paper&Code - 知乎

小目标检测

数据方面

  1. 将图像resize成不同的大小
  2. 对小目标进行数据增强,过采样策略oversampling,重复正样本数
  3. 在图片内用实例分割的Mask抠出小目标图片再使用paste等方法

常见的几种数据增强方法如下

  1. cutout:将图片区域随机扣除
  2. cutmix:将cutout扣除后的区域用同一batch中样本进行填充
  3. mixup:随机将两张图片进行融合
  4. mosaic:在将四张样本图片拼接起来,模型在一个batch中看到了4倍更多的信息

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第1张图片

分割中常用的8倍+1的输入大小,513 (PASCAL VOC) 或者 769 (Cityscapes)

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第2张图片

align_corners=False默认

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第3张图片

align_corners =True 分割中常用

Label Smoothing

Label Smoothing Regularization(LSR),即标签平滑正则化。主要也可以在模型蒸馏里进行soft label学习而不是one hot。

onehot:便于生成、但类别间无关,对错误标签很敏感,易高置信度过拟合

soft label:能够赋予不同类别间的一定相关性。本质上LSR可以降低模型的置信度,抑制正负样本输出差值,防止模型过拟合,从而提高其健壮性和性能

模型方面

  1. 提高细节信息,增加空洞卷积,将下采样从32倍改为8倍
  • 传统的分类网络为了减少计算量,都使用到了下采样,而下采样过多,会导致小目标的信息在最后的特征图上只有几个像素(甚至更少),信息损失较多
  • 下采样扩张的感受野比较利于大目标检测,而对于小目标,感受野可能会大于小目标本身,导致效果较差
  • 空洞卷积可以很好的扩大卷积核的感受野,可以很好的保留图像的空间特征,也不会损失图像信息,适用于小目标检测(不过对于像素级任务空洞卷积会导致像素连续信息丢失)

2. 特征金字塔网络FPN

FPN论文链接

保持高分辨率浅层特征图感受野小适合小目标检测,细节信息更加丰富。深层特征图感受野大适合大目标检测,语义信息更丰富

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第4张图片

3. Scale Normalization for Image Pyramids

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第5张图片

在训练时,每次回传那些大小在预先指定范围内的proposal的gradient,而忽略掉过大或者过小的proposal;在测试时,建立大小不同的Image Pyramid,同样只保留那些大小在指定范围内的输出结果

4. 更多更稠密的Anchor

5. GAN方法

使用GAN对小目标生成一个和大目标很相似的Super-resolved Feature,然后把这个Super-resolved Feature叠加在原来的小目标的特征图上,以此增强对小目标特征表达来提升小目标的检测性能

6. 利用Context信息

检测人脸时,图片中不会仅仅只有一张脸,会有其他部位

7. loss上增加小目标的权重

样本不均衡

子韵如初:Paper Reading - 综述系列 - 语义分割中正负样本不均衡问题

Paper Reading - Loss系列 - OHEM Training Region-based Object Detectors with Online Hard Example Mining - 知乎

目标遮挡

Repulsion Loss: Detecting Pedestrians in a Crowd

行人之间互相遮挡,导致传统的检测器容易受遮挡的干扰。提出了Repulsion Loss来尽可能让预测框贴近真实框的同时,又能与同类排斥

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第6张图片

假设我们目标行人是左一,但是他被左二被遮挡了。那么左二的GT会导致模型的预测框去往左二移动shift

其次,NMS操作是为了抑制去除掉多余的框。 左一的预测框因为距离左二太近,会被左二的预测框给抑制,导致出现漏检。导致任务对NMS阈值有很强的的敏感性阈值太低了会带来漏检,阈值太高了会标出错误的目标

现有的方法仅仅要求预测框尽可能靠近目标框,而没有考虑周围附近的物体。因此提出Repulsion Loss,该损失函数在要求预测框Pred靠近目标框Target(吸引)的同时,也要求预测框Pred远离其他不属于目标Target的真实框(排斥)该损失函数很好的提升了行人检测模型的性能,并且降低了NMS对阈值的敏感性

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第7张图片

More

人体姿态识别中,如图,应该怎么样区分那条腿属于哪个人的呢。可通过人体部位距离进行判定

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案_第8张图片

你可能感兴趣的:(python,计算机视觉,人工智能,pytorch,科技)