人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization

2019 CVPR
Abstract

提出一个新奇的框架,能够同时解决两个内在联系的问题,技术和定位。
由图1说明,虽然人群总数一致,但局部人数是不一致的,是不准确的。
人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第1张图片
1. Introduction
contribution:

  • (1).模型能够判断精确的位置,因为

       1.1以往的MAE loss 不适合判断人群位置,应该采用稀疏性鼓励的损失,此处引入二元交叉熵损失的归一化变量。
       1.2观察到不同人群密度的区域具有非常大的定位性能差距。故,引入一个attention model,找出最需要被zoom的,最需要被复验的区域,重复此操作,直到没有这类区域出现。
    
  • (2).count和location 相互促进。模型的multi-branched,每个branch
    分别count或locate,最后做加权和。

  • (3).新的 evalution protocol

2.related work
3.1 Network Architecture

人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第2张图片

  • counting branch

和CSRnet 一模一样,VGG16的前13层+一些dilated conv layes
loss有一些差别

  • localization branch
    在这里插入图片描述
    人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第3张图片

VGG16 前13层接3个deconv layers。(deconv layers 是什么样的)

用K=[0 1 0 ;1 1 1 ;0 1 0] 来得到ground truth map
loss 用BEL loss ,计算入(3)

为了提高定位准确度,
先用33 stride=1 的平均卷积用,来提高尖点压缩噪声。
然后,用NMS避免检测点过近。也可以3
3的maxpooling,更为效率。为什么??

还有个疑问??,用以上的K卷积得到的GT,求sum,应该不是人群总数,这里理解对吗?但后文有用到基于localization map 的count,所以这里需要明确。

  • Two-stream fusion:
    在这里插入图片描述
    鉴于随着人群密度增大,两个branch的准确率都减低了,但location branch 相对更差。
    每个图片partition成4*4的subimages,并采用公式4 这种策略来计算总数。
    疑问 θf 是什么

  • Zooming Region Proposal Branch
    人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第4张图片
    cat 以上两个branch的预测结果,进行高密度区域的定位。有一系列的,喂到下面的RAZ-Net

  • Recurrent Attentive Zooming Net:

这个Branch 不包含counting branch。
这个Net的网络设置和权重与Main-Net一样,为了反正过拟合。
此外RAZ-Net 可以不断的训练和使用。

3.2 Implementation Details

训练顺序 counting branch -> localization branch -> zooming region proposal branch
30GPUS ???

4 Evaluations and results
人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第5张图片
人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第6张图片
人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第7张图片
人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第8张图片

人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization_第9张图片

你可能感兴趣的:(论文)