《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译

摘要

      由于大规模变化,视角扭曲和严重遮挡等原因,人群计数或密度估计在计算机视觉中具有挑战性。现有方法通常存在两个问题:1)由多尺度CNN引起的模型av-eraging效应 广泛采用的l2回归损失; 2)不同比例输入的估计不一致。 为了明确地解决这些问题,我们提出了一种新的人群计数(密度估计)框架,称为Adversarial Cross-Scale Consisten-cy Pursuit(ACSCP)。一方面,U-net结构化生成网络被设计用于从输入补丁生成密度图,并直接利用对抗性损失将解压缩到一个子空间上,从而减弱密度图估计的模糊效果。 另一方面,我们设计了一种新的尺度一致性正则化器,它强制从局部斑块(即小规模)的人群数量的总和与它们的区域联合的总体计数(即,大规模)一致。 通过联合训练计划整合上述损失,从而通过更好地探索两个目标之间的协作来帮助提高密度估计绩效。 四个基准测试的深入实验充分证明了所提出的创新的有效性以及优于现有技术的性能。

1.引言

       由于复杂的照明、严重的遮挡、透视扭曲和人体尺寸的不同分布,产生高质量的人群密度图(人群计数)是一项具有挑战性的任务。其中,尺度变化问题是主要障碍。

       最近基于cnn的工作利用多路径架构来解决尺度变化问题,在人群密度估计方面取得了很好的改进。即对输入图像使用不同大小的卷积核来处理不同尺度的人,并融合多尺度路径的卷积图,得到最终的密度估计。 然而,这些方法中的大多数都存在固有的算法缺陷。 一方面,只使用传统的欧几里德损失来优化这些模型,众所周知这些模型具有某些不利之处[10],例如对异常值和图像模糊的敏感性。特别地,尽管使用不同大小的卷积核来提取多尺度特征,但每个子网路径都试图独立地最小化回归损失(即,多尺度模型竞争)并且预测具有所有人类大小的补丁的正确密度图。 如图1动机1所示,由于每个尺度特定的子网络只能在其对应的尺度上很好地工作,在其他尺度上性能急剧下降,很容易导致低质量和模糊的结果。另一方面,大多数现有的方法都没有从不同尺度来研究估计的密度图之间的一致性。也就是说,从局部区域(即小规模)的人群计数的总和不一定对应于它们区域联合的总体计数(即,大规模),如图1动机2所示。此外,大多数算法采用滑动窗口方案 ,局部区域边界丢失的累积将影响全局如人群计数。 因此,需要开发一种有利于进一步改善人群密度估计的交叉跟踪正则化方案。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第1张图片 Figure1.我们提出算法的两个动机:1)对抗损失“生成”密度图以获得更清晰和更高的分辨率; 2)跨尺度一致性约束。

       为了解决这些问题,我们提出了一种名为Adversarial Cross-Scale Consisten-cy Pursuit Networks(称为对抗性跨尺度一致性追踪网络ACSCP)的新型人群计数框架。 一方面,受到近期GAN在图像翻译方面的成功启发[9],我们提出了一种具有对抗性训练损失的Patch到density生成网络,以减轻仅由传统欧几里德损失优化引起的模糊效应。此外,所提出的多尺度U-net [24]生成体系结构执行从逐个人群图像像素到其对应密度值的逐像素转换,这确保了高分辨率和高质量密度图估计。另一方面,提出了一个新的正则化器,以进一步实施跨尺度模型校准,并激励不同规模的路径协同工作。特别地,我们的模型由两个互补的密度图生成器组成:一个采用大规模patch输入,另一个采用小规模patch输入。我们强调,局部区域(即小规模)人群计数的总和应当与其全局区域的计数(即,大规模)是一致的。上述目标通过联合训练方案进行整合,以通过进一步探索其协作来帮助提高密度估算性能。 对四个标准测试集多次实验已经很好地证明了所提出的创新方法的有效性,并且优于现有技术的优越性能。

2.相关工作

       在计算机视觉中,大量的人群计数算法已被提出。早期的工作是通过头部或身体的探测来估计行人的数量[32,18,31]。在极其密集的人群场景中,这种基于检测的方法受到严重遮挡的限制。方法[1,6,5,12,2,22,4]使用经过低级特征训练的回归量(例如HOG,SIFT,傅立叶分析, 预测和轨迹)预测全局数量。 这些方法不能提供人群的分布,这种低级特征的表现优于从CNN中提取的特征[34],这些特征具有更好和更深的代表性。

       近年来,人群计数已进入深度CNN时代。 最近基于CNN的人群计数方法的综合调查可以在[29]中找到。Wanget al [30]训练了一个经典的Alexnet风格的CNN模型来预测人群数量。 遗憾的是,这种模型在人群分析中具有局限性,因为它没有提供人群分布的估计Zhanget al [34]提出了一种用于人群计数的深度卷积神经网络,它可以用两个相关的学习目标来回归:人群计数和密度图。这种可切换的目标学习有助于提高这两个目标的性能。但这种方法的应用是有限的,因为它需要映射,在实际的训练和测试过程中不容易得到。

        [37,3]采用了多路径CNN结构。 不同的CNN路径具有不同感受野,他们可以获得尺度变化和透视角度的特征,然后通过1×1的卷积层将这些路径的特征融合在一起以回归人群密度。.受MCNN[37]的启发,Switch-CNN[25]方法提出了一种基于patch的切换架构,在crowd patch进入多路回归器之前。切换网络被训练成一个分类器,为一个特定的输入块明智地选择最合适的回归器,该回归器利用了单个图像内的块级密度变化。这些方法通过深度学习为人群计数的进展做出了巨大贡献。通过使用最大池化层和l2范数损失,他们更加关注预测人数的准确性,而忽略了回归密度图的质量。结果,这些质量差的密度图会对其他较高级别的认知任务产生不利影响,例如依赖于它们的计数和场景识别。最新的研究CP-CNN [28]提出了一个上下文金字塔CNN,用于整合全局和局部上下文,这些上下文是通过学习各种密度级特征获得的。通过由一组卷积和分步跨越层组成的Fusion-CNN从多列CNN提取的高维特征图与上下文信息融合。 我们的方法和CP-CNN都是当代作品,开始着眼于密度图的质量。 除了通过对抗训练提出块到密度的转化外,我们还进一步引入了一种新的正则化器,以实施跨尺度模型校准,并鼓励不同规模的路径协同工作。

3.方法

3.1重新考虑密度回归

        正如第1节所讨论的,最近最先进的方法[34,37,3,20,25]主要选择基于L2的损失函数来回归人群密度图。在大多数情况下,为了应对人头尺度的变化,[37,3,20,28]使用了多路卷积网络融合的方法对密度图预测,每路CNN具有不同的卷积核大小,用于提取不同尺寸的人头特征。假设Si表示第i路尺度CNN网络的前向计算,那么总体的损失函数可表示为:

        M是真实密度图,F(S1,S2,...)是由多尺度路径融合而得密度图。这些最先进的方法有两个主要问题:

1. 首先,虽然利用不同大小卷积核的CNN网络来提取不同尺度特征[37,28],(由于每个尺寸的卷积核对不同的人类规模敏感),但是不同尺度路径以一种竞争的方式工作,而不是一种合作方式。也就是他们各自都试图最小化回归损失来预测相应尺度的准确的人群密度图。由于模型的平均效应,对于每个子网络很容易生成一个模糊的密度图(被广泛认为会导致低质量和模糊效果,特别是对于图像重建任务)。这是基于密度图估计的方法固有的缺点,不可能通过简单的多尺度Conv paths来减弱。请参见下图的解释。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第2张图片
Figure2 对多尺度密度估计无法解决L2回归损失问题的解释。

左:三个尺度敏感模型; 右:L2回归(红色)导致模型竞争,在所有密度区域产生降低的
准确性,而对抗性损失(黑色)鼓励模型协作,从而在所有密度区域产生稳定的性能。
 

 2. 其次,在多尺度人群密度估计网络的各尺度敏感路径之间缺乏校准。由于每个子网络的输入路径会随着人群规模的不同而表现不同,给他们输入相同的块,不同子网络的输出不同(有时相差会很大),这直接导致了密度估计的不可靠。如果将一个图像分为互不重叠的几部分,很可能各子网络得到的人数估计的和并不等于将整个图像输入网络直接估计得到的人数。换句话说,就是现有的多尺度人群密度估计网络对如何提取局部块非常敏感,块尺寸的一个小小的变化可能会导致人数估计很大的变化。为了解决这两个问题,提出了一种名为Adversarial Cross-Scale Consistency Pur-suit Networks(ACSCP)的新型人群计数框架。 详细信息见以下章节。

3.2 网络架构

 

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第3张图片 Figure3 ACSCP网络提出的体系结构。通过跨尺度一致性损失共同训练的两个规模G / D.

        图3显示了我们提出的块到密度映射生成网络的体系结构,这部分是受最近成功的像素到像素转换架构启发[9]。 在我们的方法中,生成器网络G可以从输入人群图像块学习到其相应的端到端映射的密度图(我的补充翻译:生成网络G是一个从输入为人群图像块到相同尺寸密度图的端到端射生成器)。具体地,沿用[9,21,10]的方法,使用U-net [24]结构来构造生成器G,作为编码器 - 解码器结构。为了解决尺度变化问题,我们采用两个背对背的编码器 - 解码器结构的结构,即Glarge  和Gsmall。 这两个互补的生成器相互合作,Glarge提取大尺度信息,Gsmall提取小尺度细节。在编码部分,Glarge的8个卷积层堆叠在批归一化层和LeakyReLu激活层之后作为特征提取层,在解码部分,8个反卷积层紧随批归一化层和ReLu激活层(除了最后一个)。解码器最后连接着一个tanh激活函数。可以注意到,反卷积层是前面卷积层的镜像。另外,为抑制过拟合,前3个反卷积层后面分别添加了ratio=0.5的Dropout,镜对称的卷积层和反卷积层之间还增加了跳跃连接,有助于提高性能和效率。Gsmall的结构与Glarge的有结构类似。生成器Glarge和Gsmall的具体结构参数如表1所示。 他们的输入尺寸分别为240*240和120*120,输入和输出的尺寸相同。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第4张图片

3.3基于对抗性追踪的密度估计

       前面提到由于网络的平均效应,基于L2回归的多尺度网络会导致产生的密度图模糊。受最近GAN网络成功应用的影响,作者提出了一种对抗损失。对抗性损失通常包括发生器G和判别器D,类似于双人最小最大游戏:训练G生成图像来欺骗D,而训练D来区分合成图与真实图。更具体地说,在我们的问题中,由图像块生成人群密度图的对抗损失可以表示为:

       其中,x表示训练图像块,y表示对应的真实密度图。G试图最小化它的目标,然而D试图最大化它。

       我们的判别结构如图3所示。输入是连接成对的密集人群图像块和生成/基准密度图。请注意,生成的密度图与其基准图的大小完全相同。5层卷积层以及批归一化层和Leaky ReLU激活层(除了最后一层)充当特征提取器。在这些卷积层的末尾处叠加tanh函数以回归从-1.0到1.0的概率得分,其值表示输入是真实的(接近1.0)还是假的(接近-1.0)。结构和网络参数描述如下:C(48,4,2)-C(96,4,2)-C(192,4,2)-C(384,4,1)-C( 1,4,1)-tanh,C是卷积层,其中每个括号内的数字代表滤波器的数量,滤波器大小和步长。同样,ACSCP网络结构有两个判别器,Dlarge和Dsmall,他们具有同样的结构。

        相对于回归损失,对抗性损失的优点如下: 由于基于像素的欧几里德损失的向后梯度取决于某个像素的偏差幅度,当它面对尖锐的边缘和异常值时,它往往会激励模糊,从而导致图像生成的平均和模糊图问题[13] 。而对抗损失给定了一个二值判断,是真还是假,使其更加匹配其真实分布。原则上这可以降低模糊,也可以激励清晰的图像,因为模糊输出是不现实的。

        由于缺少来自真实图像的惩罚措施,只是简单的使用对抗损失可能会导致其空间结构异常(aberrant spatial structure),甚至在输入标签空间中不存在。受[9,21,35]的启发,作者引入了两个卷积损失来平滑、提升算法性能。实现细节如下:

(1) 欧几里得损失:在我们的模型中,L2损失使得从G生成的密度图不仅用于欺骗D,还可以使其在L2层面上更加接近真实图像。给定W*H*C的图像,像素级别的(pixel-wise)L2损失定义为:

            这里,pG(c)代表生成的密度图的像素,pGT(c)代表ground truth密度图的像素,C=3。

(2)感知损失:感知损失由Johnson等人第一次提出用来做图像转换和大规模任务处理。在我们的模型中,生成图像的高层感知特征和目标图像分别来自[26]中预训练的VGG-16的relu2_2层。其基本思想是,通过最小化两幅图像的感知差异,生成图像可以在语义上和目标图像更加相似。感知损失定义为:

          这里,fG(c)代表生成密度图中高层感知特征像素,fGT(c)代表ground truth密度图中高层感知特征像素,C=128。因此,整体损失可以表示为:

          这里,λe和λp是欧拉损失和感知损失的预定义权重。受[35]启发,这里设为λe=λp=150。

3.4跨尺度一致性追求损失

       如前所述,为了抑制亲子关系密度图的跨尺度一致性,我们提出了一种新的规则,称为跨尺度一致性约束。也就是说,这种新的约束以最小化大图像块的总体人类计数估计与其四个子块的计数之和(即,我们将大图像块划分为四个大小相等且不重叠的小图像块)之间的残差为目标。这种规则是为了解决以往密度估计方法的不足,容易产生不稳定的结果,因为它们的每个多尺度子网络只对特定的人类尺度敏感,并且这些子模型不以协作方式工作(即,从而导致较大的交叉标度误差)。更具体地说,在训练时,将人群图像块喂入Glarge和Gsmall以得到估计的密度父亲图Pparent和四密度孩子图Pchild(姑且这么翻译吧)。然后,根据Pparent将这四个密度图Pchild连接起来形成Pconcat。本文用l2范数计算了跨尺度一致性损失概率,定义为Pconcat和Pparent之间的差异/距离。从数学上讲,C个通道的W*H密度图的跨尺度一致性追踪损失可以被描述为:

        这里,Pprt(c)代表密度图Pparent的像素,Pcnt(c)代表密度图Pconcat的像素,C=3。通过最小化这个正则化器,父密度图和子密度图之间的距离会变小。如果知道每个子块的真实图的人数,也可以对每个Pchild定义L2损失,这也许会有和提出的跨尺度一致性损失类似的作用。必须强调的是,大多数情况下我们只知道一张图像的总人数,却没有任何局部人头位置的标注或真实密度图,因此只有作者提出的跨尺度一致性正则化器可以适用,因此这种新的正则化器更具有普适性。
         最终目标:上面的4个损失函数可以加权求和得到最终损失:

        这里,λc是跨尺度一致性追求损失预定义权重,如果λc=0,两种生成器将会独立训练。为了确定其值,在4.4中关于参数敏感性做了一个实验,最终取值为λc=10。

3.5  密度图训练

         训练和测试时,输入由人群图像块patch及其对应的密度图组成,我们采用与[34]中相同的方案来准备真实密度图。由于所有人群数据集都是以位于每个人头部中心的点注释的形式给出的,因此需要点云到密度图的转换。为此,应用高斯核来匹配每个子图人头的中心(平均值)和面积(方差)。因此高斯模的数目代表图像中的人数。为了解决未提供角度信息的数据集的人头数变化问题和角度干扰问题,我们遵循张等人[37]的方法,利用几何自适应高斯核生成密度图

3.6 训练细节

         训练时,输入由crowd patch及其对应的密度图构成一对。因此图像对先输入到大尺度子网络Glarge,然后平均分为无重叠的4等份输入到小尺度子网络Gsmall。每个子网络都是联合训练的,使用RMSprop优化器,学习率为0.00005。遵循的更新原则:每次迭代四次small的更新,然后是一次glage的更新。

        为增加训练数据,一般的方法之一是将输入图像对调整为更大的尺寸和随机裁剪特定大小的图像对。但是在人群计数任务中这样的数据增强对于图像插值算法来说是不合适的,例如最近点和双线性不可避免地改变了密度图中的人群数量。因此我们增加了50%的填充图像和反转图像。

        训练模型到收敛用了300次迭代,为了两个子网络的平衡训练,在前100次迭代中,预定义的权重λc方程被设置为0,然后被调整为10,继续训练。最终将训练好的生成器Glarge用于预测密度图。提出的网络的训练和测试过程都是基于Torch7框架实现的。

4.实验

4.1 人群计数数据集

       我们在四个主要人群计数数据集上评估我们的方法:

       ShanghaiTech:Shanghaitech数据集由Zhang等人创建。[37]包含1198个注释图像,包括互联网图像和街景图像。我们的模型分别在作者划分的训练集和测试集上进行训练和测试。为了增加训练数据,我们将图像放大到720×720,并对每个图像进行裁剪。每片为240×240,从不同的地方裁剪。Groundtruth密度图由第3.5节中提到的几何自适应高斯核生成。在测试时,一个240×240大小的窗口在测试图像上滑动,以裁剪50%重叠的块,作为训练好的生成器的输入。以上步骤同样适用于其他三个数据集。

        WorldExpo’10,WorldRxpo‘10数据集是由Zhang等人创建的,[34]用上海2010年世博会108台监控摄像机拍摄的1132个标注视频序列。3380帧作为训练集,其余600帧作为测试集,从5个不同的场景中抽取,每个场景包含120帧。测试场景中的像素数范围为1-220。此数据集提供了透视图(好像更应该翻译成远景图),其值表示图像中在真实位置覆盖一平方米的像素数。与shanghaiTech数据集不同,我们选择在[34]中介绍的人群密度分布核。按照前面的方法,只考虑感兴趣区域中的人群。

       UCFCC50.  UCFCC50数据集首先由Idreeset等人[8]提出,这是一个非常具有挑战性的数据,由50幅带注释的人群图像组成,人群数量和场景变化很大。人群数量从94到4543不等。我们遵循文献[8]的工作,使用五次交叉验证来评估所提出的方法。

       UCSD。该数据集由2000个大小为158×238的标记帧组成。GroundTruth被贴在每个行人的中心,46岁以下的人最多。还提供了投资回报率和前景图。为了覆盖行人的轮廓,我们选择一个二元归一化分布核形椭圆来生成密度图。我们遵循[5中相同的训练测试设置:从601到1400的800帧被视为训练集,其余1200帧被视为测试集。

       为了遵循前人的研究成果,我们采用了平均绝对误差(mae)和均方误差(mse)来评价实验中所有可比较的方法的性能。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第5张图片

4.2 算法研究

       在这一部分中,我们进行了一项研究,以证明对抗性追击和跨尺度一致性调节器的效果。对抗追踪利用对抗损失、感知损失和U-net结构生成器来提高生成的密度图的质量,如图4所示。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第6张图片

          值得注意的是,我们预测的密度图比MCNN的更符合人群的分布,模糊和噪音更少。此外,在表2中的ShanghaiTech[37]和WorldExpo10[34]数据集上进行了对比实验。可以观察到,具有附加对抗损失和知觉损失的训练比仅具有欧几里德损失的训练产生低得多的误差。为了显示跨尺度一致性调节器的效果,我们在图5(a)中绘制了在各种数据集的所有测试块上,父块和其子块的相应总和之间的平均人类计数估计误差。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第7张图片

        我们注意到所提出的跨尺度一致性调节器有效地减少了来自不同尺度的估计间隔。图5(b)展示了残差图的一个例子(即父补丁图和其四个子补丁图之间的差异),进一步巩固了效果。结合cscp损失,最终损失反映了表2所示的最优结果。绩效改进强调了利用对抗性训练和跨尺度一致性调节器的好处。

4.3与最先进技术的比较

        将所提出的方法与四个基准上的几种最新方法进行了比较。结果如表3、4、5、6所示。从所有的表格中,我们注意到我们的方法始终比以前的方法优越得多。表3和表4显示了ShanghaiTech_part_B和WorldExpo10数据集的比较,这些数据集的图像比其他数据集更接近真实的监控屏幕。我们提出的ACSCP获得了很客观的改进,超越现有技术,因为在这些数据集上出现了大量跨尺度的不一致。另外,表5显示我们的方法在最近的6个UCFCC50数据集中获得了最佳平均误差和可比最小均方误差。这表明所提出的方法在少量训练样本(即UCFCC50只有50个样本)上,也能取得良好的效果。在表6中,与UCSD数据集上的其他五种最先进的方法相比,我们的ACSCP获得了最低的最大和最小均方误差,这表明我们的算法不仅在估计密集流的图像上,而且在估计相对稀疏的人的图像(即单个场景和46以下的最大计数)上具有良好的性能。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第8张图片

 

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第9张图片

      在此基础上,对Shanghai_PartA进行了较为详细的比较,根据人数的增加,将测试图像分为五组。从图6的柱状图可以看出,我们的结果比switch cnn和mcnn的结果要好,甚至在第5组(即,人群极其密集且训练样本很少的组)。从表3中我们注意到,CP-CNN在这一方面达到了最低的MAE,但是,CP-CNN的训练过程需要额外的先验密度类标签(即全局和局部密度类),而这些标签并不是由数据集直接提供的,这似乎是不公平的。此外,正如作者所说,密度类的数量是由特定的数据集决定的,这不是通用的方法。

      考虑人群计数算法的实际应用,我们进行了模型复杂性研究。如表7所示,CP-CNN拥有最多的参数,比最小的MCNN多500倍,这限制了其应用。相比之下,我们的算法具有第二少的参数,它在一台Intel Core i7-6700K机器上以16 fps的速度运行,该机器带有Atitan x GPU。

4.4 .参数λc研究

        为了选择λc在等式7的最佳值,在ShanghaiTech数据集的Part_B进行了对比实验。如图7所示,MAE误差随着λ的增大而减小,最小误差在λc= 10时获得。此后,误差迅速上升,因为与L1损失相比,跨尺度一致性损失的权重变得太大。因此,我们最终在实验中设定λc=10。

《Crowd Counting via Adversarial Cross-Scale Consistency PursuitZan》 论文翻译_第10张图片

5.结论

        本文提出了一种基于gans的人群计数网络,该网络充分利用了gans在图像生成中的优异性能。为了更好地限制不同尺度人群带来的误差,我们提出了一种新的正则化方法,称为交叉尺度一致性追求,它对交叉尺度人群密度估计提供了一种强大的正则化约束。大量实验表明,该方法在四个主要的人群计数数据集上均取得了较好的性能。

 

至此,本文所要内容全部翻译完。但是文中有些名词可能意思相近但是没有统一起来。

 

你可能感兴趣的:(Crowd,Counting,密集人群计数,密集人群计数论文,Crowd,Counting,via,Adversarial)