人群计数北航最新综述论文阅读:CNN-based Density Estimation and Crowd Counting: A Survey

  1. 针对220项工作,讨论了现有主流方法(主要基于CNN)在各任务中有效的原因,对基本开放问题、挑战和未来方向的见解。
  2. 对模型设计、数据集收集以及一些推广到其他领域的重要问题进行了展望,包括领域适应或迁移学习,并探索了未来一些有前途的研究方向。
  3. 按网络结构,监督形式(有监督(常用)、半监督、若监督、无监督、自监督),学习范式(多任务(热点)/单任务),跨场景、跨域表现分类
  4. 基于单列网络的方法比基于多列网络的方法表现更好,即更深的网络比更广的网络要好。
  5. 最近的(2020年)Sota方法多采用了注意力机制,膨胀卷积与空间金字塔池化(可显著提高性能)
  6. 在许多基于CNN的方法中,视觉注意机制不是使用输入图像的所有信息,而是使用相关信息来计算神经响应,即学习权衡特征图中每一个像素的重要性。
  7. 由于视觉注意力机制具有突出的能力,已被应用于许多计算机视觉任务,如图像分类、语义分割、图像去模糊、视觉姿态估计,它也适用于人群计数问题,突出包含人群的感兴趣区域(ROI),并在背景杂乱的情况下滤除噪声。
  8. 膨胀卷积层能很好地替代池化层,已经证明在分割任务中的精确度有了显著的提高。膨胀卷积层的优点是扩大了感受野,而不会因池化操作(最大和平均池化等)而造成信息丢失。并且不增加参数数目和计算次数(例如FCN中的去卷积层的上采样操作)。因此,可以将膨胀卷积层整合到人群计数框架中,以捕捉更多多尺度特征并保留更详细的信息。
  9. 空间金字塔池化(SPP)最初是为视觉识别而提出的,与传统网络相比,它有几个优点:首先适应任意大小的输入图像;另外,作为不同大小的池化层从特征图中提取特征,然后将它们整合成固定长度的向量,从而提高了鲁棒性和准确性。此外,它还可以加快收敛速度。因此,在SCNet、PaDNet和CAN中,它被用来捕获和融合多尺度特征进行人群计数。
  10. 一般来说,多线索的信息融合可以显著提高算法的性能,例如,尺度感知和上下文感知的融合可以提高算法的性能
  11. 可考虑加入可变形卷积层和旋转不变性

你可能感兴趣的:(papers论文阅读)