【论文笔记】Context-aware crowd counting

【论文笔记】Context-aware crowd counting_第1张图片

文章目录

  • Abstract
  • 1. Introduction
  • 2. Related Work
  • 3. Approach
    • 3.1. Scale-Aware Contextual Features
    • 3.2. Geometry-Guided Context Learning
    • 3.3. Training Details and Loss Function
  • 4. Experiments

Abstract

目前,拥挤的场景中的人群计数方法依赖于深层网络来估计人群密度。他们通常在整个图像或大图像块上使用相同的filter。只有这样,他们才能估计局部比例以补偿透视失真。这通常是通过训练辅助分类器来为预先定义的图像patch选择最佳的内核大小来实现的。因此,这些方法不是端到端可培训的,并且在它们可以利用的上下文范围内受到限制。

在本文中,我们介绍了一种端到端的可训练深度架构,该架构结合了使用多个接收场大小获得的特征,并了解了每个图像位置每个特征的重要性。换句话说,我们的方法自适应地编码了准确预测人群密度所需的上下文信息的规模。这样就产生了一种算法,其性能优于最新的人群计数方法,尤其是在透视效果强的情况下。

1. Introduction

人群计数对于视频监控和流量控制等应用非常重要。近年来,重点一直放在开发基于密度的计数算法,该算法依赖于经过训练的回归器来估计每单位面积的人口密度,以便可以通过积分获得总数,而无需进行明确的检测。回归器可以是基于Random Forests、Gaussian Processes、Deep Nets的,更多的是基于深度网络的。

标准卷积是这些基于深度学习的方法的核心。通过在整个图像上使用相同的filters和pooling操作,它们隐式依赖于各处的相同receptive field。但是,由于透视失真,因此应该改为改变整个图像的接收场大小。过去,这可以通过组合从不同分辨率的图像块中提取的密度图[26]或使用不同大小的卷积滤波器获得的特征图[42、5]来解决。但是,通过不分青红皂白地融合所有比例的信息,这些方法忽略了比例在整个图像中连续变化的事实。

在本文中,我们介绍了一种深层架构,该架构可显式提取多个接收场大小的特征,并了解每个图像位置每个特征的重要性,从而解决潜在的快速尺度变化。换句话说,我们的方法自适应地编码了预测人群密度所必需的上下文信息的规模。

因此,我们的贡献是一种将多尺度上下文信息直接整合到端到端可训练人群计数管道中的方法,并学习在每个图像位置利用正确的上下文。

2. Related Work

3. Approach

如上所述,我们旨在利用上下文,即图像中经常出现的大规模一致性。但是,正确评估在发生透视畸变的图像中该上下文的范围和程度是一个挑战。为了解决这个问题,我们引入了一种新的深度网络体系结构,该体系结构将多级上下文信息自适应地编码到其产生的feature map中。然后,我们介绍了如何使用这些可感知比例的feature来回归最终的密度图。

3.1. Scale-Aware Contextual Features

网络的前10层用的是预训练好的vgg16的前10层,输出的特征图 f v f_v fv如下表示:
在这里插入图片描述
我们以此为基础来构建scale-aware。

如第2节所述, F v g g F_{vgg} Fvgg的局限性在于它在整个图像上编码相同的receptive field。为了解决这个问题,我们通过执行Spatial Pyramid Pooling[11]从等式1的VGG特征中提取多尺度上下文信息来计算scale-aware特征。如图1所示。
【论文笔记】Context-aware crowd counting_第2张图片
我们用以下公式来计算scale-aware特征,
在这里插入图片描述
其中,对于每个比例 j j j P a v e ( ⋅ , j ) P_{ave}(·,j) Pavej将VGG特征平均为 k ( j ) × k ( j ) k(j)×k(j) kj×kj个blocks; F j F_j Fj是一个内核大小为1的卷积网络,用于在不更改其尺寸的情况下跨通道组合上下文特征。我们这样做是因为SPP保持每个特征通道独立,从而限制了表示能力。 U b i U_{bi} Ubi表示双线性插值,用于将上下文特征数组上采样为与fv相同的大小。在实践中,我们使用S = 4个不同的比例,并具有相应的块大小k(j)∈{1,2,3,6},因为与其他设置相比,它显示出更好的性能。

使用我们的scale-aware特征的最简单方法是将所有这些功能连接到原始VGG功能 f v f_v fv。但是,这不能解释整个图像上的缩放比例有所不同的事实。为了对此建模,我们建议学习预测权重图,该权重图在每个空间位置设置每个比例感知功能的相对影响。为此,我们首先将对比特征定义为
在这里插入图片描述
它们捕获特定位置的特征与附近特征之间的差异,这通常是表示显着性的重要视觉提。对于人类而言,这很重要,如图2所示,
【论文笔记】Context-aware crowd counting_第3张图片
我们的眼睛自然被中心的女人吸引,因为其他人都指向他。在我们的上下文中,这些对比功能为我们提供了重要的信息,以了解每个图像区域的局部比例。因此我们把 c j c_j cj作为输入,输入到一个权重为 θ s a j θ^j_{sa} θsaj的辅助网络中,来计算分配给不同scale S的权重 w j w_j wj
在这里插入图片描述
F s a j F^j_{sa} Fsaj是一个1*1的卷积层,后面跟着一个sigmoid函数避免除零。然后,我们使用这些权重来计算最终的上下文特征,如下所示:
在这里插入图片描述
其中[·|·]表示通道级联操作,⊙是权重图和特征图之间的元素级乘积。

总的来说,如图1所示,网络 F ( I , θ ) F(I,θ) FIθ提取上下文特征 f I f_I fI,如上所述,然后将其传递到由几个散布的卷积组成的解码器,从而生成密度图。具体算法如table1所示:
【论文笔记】Context-aware crowd counting_第4张图片

3.2. Geometry-Guided Context Learning

由于透视失真,适用于每个区域的上下文范围在整个图像平面上会有所不同。因此,场景几何与上下文信息高度相关,可用于引导网络更好地适应其所需的场景上下文。

因此,我们将先前的方法扩展为利用几何信息(如果可用)。为此,我们用透视图 M i M_i Mi表示图像 I i I_i Ii的场景几何形状,该图对图像平面中每米的像素数进行编码。透视图和输入图像的空间分辨率相同。 因此,我们将其用作前端VGG-16网络的输入。
在这里插入图片描述
f ‘ f^` f是修改后的vgg16,具有单通道。为了初始化与该通道相对应的权重,我们对原始三个RGB通道的权重进行平均。注意,我们也将透视图 M i M_i Mi标准化为与RGB图像相同的范围内。即使此初始化不会在最终计数精度上带来任何明显的不同,但它会使网络收敛更快。

为了将几何信息进一步传递到网络后面的阶段,我们使用上述所说的更改后的VGG特征,作为辅助网络的输入。
在这里插入图片描述
结构如图3所示:
【论文笔记】Context-aware crowd counting_第5张图片

3.3. Training Details and Loss Function

在这里插入图片描述
在这里插入图片描述
优化器使用SGD。

4. Experiments

【论文笔记】Context-aware crowd counting_第6张图片
【论文笔记】Context-aware crowd counting_第7张图片
【论文笔记】Context-aware crowd counting_第8张图片
【论文笔记】Context-aware crowd counting_第9张图片

你可能感兴趣的:(论文笔记)