人群计数论文笔记之Density-Aware Multi-Task Learning for Crowd Counting

文章目录

  • 背景
  • 论文要解决的问题
  • 论文方案
  • 本文目标
  • 论文网络思想

背景

  • 已有方法的缺点:
    基于图片分类,目标检测,语义分割等领域迁移到人群计数领域方法中的各种基于cnn的方法虽然有显著的提升(什么显著的提升?没有看懂,精度还是?)但在一个或多个场景中人群密度分布差异较大时表现会下降。 分布差异主要来自两个方面。第一个因素是人们在一个场景中的真实聚集和分散。 第二个因素是相机的视角,这是导致比例问题的主要原因。靠近镜头的人看起来比远离镜头的人要大。
    多尺度方法(eg mcnn): 这种方法缺少与密度信息相关的先验(密度先验和多任务学习架构的灵感来源)
    switchcnn, contextual pyramid cnns: 这些方法考虑到一定先验。但是,考虑到不同场景中的人群分布可能相当复杂,因此先验信息无法提供足够详细的信息来描述人群分布。并且这种先验在训练产生密度图之前便已经确定了, 即上下文先验和密度图不是共同学习的。并且cpcnn中由于需要获得patch级别的信息,因此计算代价高(语义特征的灵感来源)。

论文要解决的问题

  • 解决同复杂人群分布不同的场景问题。

论文方案

  • 密度先验聚合机制。
    该机制在生成密度图时集成了高级密度先验, 这些先验是像素级密度级语义特征,可以提供更丰富的信息。 通过利用多任务学习架构来实现这一机制,该架构联合学习密度级别分类和密度图估计, 基于此,提出了DensityCNN。

本文目标

开发一种方法,可以处理复杂人群分布的人群场景

论文网络思想

主要包含两个子网:分别为density-level classification network (DLCNet)和 density map estimation network (DMENet).

  • DensityCNN-L
    使用VGG16框架,为DLCnet和DMEnet提供低阶特征。来自DLCnet中的语义特征连接到DMEnet中的CONV12,拼接后作为输入发送,以提取高级特征,并映射到密度图。
    人群计数论文笔记之Density-Aware Multi-Task Learning for Crowd Counting_第1张图片

  • DensityCNN-H
    不仅使用vgg-16的框架,而且还使用来自conv6-conv10的中级和高级特征。 来自DLCNet的语义特征与高层Conv13特征连接,然后直接映射到密度图。
    人群计数论文笔记之Density-Aware Multi-Task Learning for Crowd Counting_第2张图片

    以DensityCNN-L为例,讲解DLCNet和DMENet。

  • DLCNet

    目的: 提供多通道密度级语义特征作为指导信息
    材料:一张图片经过vgg-16主干提取的底层特征
    工具:vgg-16backbone,conv6,decov7,conv8,conv9,global average pooling,softmax
    加工流程:conv6是一个卷积层,输出特征图大小为H/16H/16256,conv7是一个的反卷积层,输出特征图大小为H/8H/8128,将特征图送入卷积核为3的conv8中,得到25个特征图。(为了使这25个特征图包含不同的信息,设计了基于组的卷积conv9), 即有5个(1×1×5×1,1*1是卷积核,5是特征通道,1是输出特征通道数)卷积组,每个卷积组有5个输入通道和1个输出通道。conv9产生5个特征通道(分数图), 然后使用全局平均池对它们进行聚合,以输出最终的密度级分类分数。 然后将它们发送到softmax交叉熵函数来计算分类损失。

  • DMEnet:

    目的: 结合以上密度级语义特征预测密度图
    材料: 一张图片经过vgg-16主干提取的底层特征
    工具:conv,deconv,concatenates,
    加工流程:首先conv10在VGG-16的主干上生成高维特征,输出特征图大小为H/16H/16256,conv11是一个的反卷积层,输出特征图大小为H/8H/8128,conv12是一个卷积层,输出特征图大小为H/8H/8128,随后DMEnet中来自conv12的128个特征通道与DLCnet中来自conv8的25个特征图进行concatenate, 将产生的153个特征信道发送到两个新的卷积层Conv13-1和Conv13-2。 最后,采用密度图预测层Conv14(1×1×153×1)生成输出密度图

  • 总结
    这篇文章将分类任务与密度估计任务相结合, 前者的任务是相当粗略地估计密度分布,预测一个区域是稠密还是稀疏。后一个任务是精确估计每个像素的密度值。(最近的流行趋势是不是这样的,将分类任务中应用的比较好的几个点应用到回归任务中来,套路就是先将密度进行一个从低到高的不同level的排序,再将这种排序信息加入到对密度图的生成中去)。

你可能感兴趣的:(深度学习)