《人群计数和密度估计方法综述》(阅读笔记20220315)

Approaches on crowd counting and density estimation: a review

人群计数和密度估计方法综述

人群计数最新综述(2021)_目睹闰土刺猹的瓜的博客-CSDN博客_人群计数



目录

方法分类

详细介绍基于密度图的方法

感受野:

通道 channel:

CNN中stride(步幅)和padding(填充)的详细理解:

池化和下采样(最大池化和平均池化):

全连接层原理:

池化层:

 卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层:

VGG-16网络:

Dilated Convolution —— 空洞卷积(扩张卷积、膨胀卷积)

global average pooling(全局平均池化):

dropout:

马尔科夫随机场Markov Random Field:???

 Ground Truth:真值

 特征金字塔网络 (FPN):Feature Pyramid Networks

 特征金字塔 提出的原因、解决了什么问题:

Corase network粗网络 / Fine network细网络/ corase-to-fine

Fine-grained image recognition细粒度图像识别

GAN:

LSTM(Long Short Term Memory Network):

 Datasets and metrics数据集和指标

 Datasets:

Evaluation metrics:

Challenges



方法分类:

人群计数方法简介_ckqsars的博客-CSDN博客_人群计数

《人群计数和密度估计方法综述》(阅读笔记20220315)_第1张图片



详细介绍基于密度图的方法:

《人群计数和密度估计方法综述》(阅读笔记20220315)_第2张图片

感受野:

《人群计数和密度估计方法综述》(阅读笔记20220315)_第3张图片

《人群计数和密度估计方法综述》(阅读笔记20220315)_第4张图片

 (https://mp.csdn.net/mp_blog/creation/editor)

通道 channel:

【CNN】理解卷积神经网络中的通道 channel_scxyz的博客-CSDN博客_深度学习通道数

CNN中stride(步幅)和padding(填充)的详细理解:

CNN中stride(步幅)和padding(填充)的详细理解_G果的博客-CSDN博客_padding和stride

设置步幅的目的:希望减小输入参数的数目,减少计算量

设置填充的目的:希望每个输入方块都能作为卷积窗口的中心


栗子4:  一个特征图尺寸为6*6的输入, 使用3*3的卷积核,步幅=2,填充=1
         输出的尺寸=(6 + 2*1 - 3)/2 + 1 = 2.5 + 1 = 3.5 向下取整=3
         (降采样:边长减少1/2)

池化和下采样(最大池化和平均池化):

深度学习原理11——池化和下采样_xiaotiig的博客-CSDN博客_最大池化下采样

全连接层原理:

深度学习 | 全连接层原理_努力努力再努力tq的博客-CSDN博客_全连接层原理

 全连接层通俗讲解_weixin_42713739的博客-CSDN博客_全连接层

全连接层之前的作用是提取特征

全连接层的作用是分类。

池化层:

对输入的特征图进行压缩,一方面使特征图变小,简化网络计算复杂度;一方面进行特征压缩,提取主要特征。

Avy Pooling平均池化 / Max Pooling最大池化

一般池化(General Pooling):sizeX=stride  池化作用于图像中不重合的区域(这与卷积操作不同)

重叠池化(OverlappingPooling):sizeX>stride  重叠池化正如其名字所说的,相邻池化窗口之间会有重叠区域

空间金字塔池化(Spatial Pyramid Pooling):空间金字塔池化可以把任何尺度的图像的卷积特征转化成相同维度,这不仅可以让CNN处理任意尺度的图像,还能避免cropping和warping操作,导致一些信息的丢失,具有非常重要的意义。
一般的CNN都需要输入图像的大小是固定的,这是因为全连接层的输入需要固定输入维度,但在卷积操作是没有对图像尺度有限制,所有作者提出了空间金字塔池化,先让图像进行卷积操作,然后转化成维度相同的特征输入到全连接层,这个可以把CNN扩展到任意大小的图像


————————————————
版权声明:本文为CSDN博主「yjl9122」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/yjl9122/article/details/70198357

 《空间金字塔池化》论文笔记_gzj_1101的博客-CSDN博客_空间金字塔池化论文《人群计数和密度估计方法综述》(阅读笔记20220315)_第5张图片

 卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层:

卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层_yjl9122的博客-CSDN博客_卷积神经网络输入层

VGG-16网络:

4.1 VGG网络详解及感受野的计算_哔哩哔哩_bilibili

《人群计数和密度估计方法综述》(阅读笔记20220315)_第6张图片

Dilated Convolution —— 空洞卷积(扩张卷积、膨胀卷积)

膨胀卷积(Dilated convolution)详解_哔哩哔哩_bilibili

作用:(1)增大感受野

            (2)保持原输入特征图W、H(size=3  stride=1  padding=1)

【转载】Dilated Convolution 简单介绍_大白羊_Aries的博客-CSDN博客

Dilated Convolution的最大价值是可以不改变feature map的大小而增大感受野。而之前的FCN (全卷积网络)使用pooling下采样来增大感受野,但随后又不得不通过Deconvolution或者upsampling来增大feature map大小,这样的一小一大总会损失很多信息。

空洞卷积gridding问题(网格效应/棋盘问题):

Dilated Convolution (空洞卷积或扩张卷积)_gwpscut的博客-CSDN博客_扩张卷积和空洞卷积

        (1)局部信息丢失:由于空洞卷积的计算方式类似于棋盘格式,某一层得到的卷积结果,来自上一层的独立的集合,没有相互依赖,因此该层的卷积结果之间没有相关性,即局部信息丢失。

        (2)远距离获取的信息没有相关性:由于空洞卷积稀疏的采样输入信号,使得远距离卷积得到的信息之间没有相关性,影响分类结果。

global average pooling(全局平均池化):

全局平均池化(Global Average Pooling)_五岳凌峰的博客-CSDN博客_全局平均池化

dropout:

理解dropout_张雨石的博客-CSDN博客_dropout

dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini-batch都在训练不同的网络。节点失活

dropout是CNN中防止过拟合提高效果的一个大杀器,但对于其为何有效,却众说纷纭。

马尔科夫随机场Markov Random Field:???

马尔可夫网络,(马尔可夫随机场、无向图模型)(Markov Random Field)_青莲太初的博客-CSDN博客

《人群计数和密度估计方法综述》(阅读笔记20220315)_第7张图片

 Ground Truth:真值

机器学习里面的Ground Truth是什么意思_敲代码的quant的博客-CSDN博客_ground truth

《人群计数和密度估计方法综述》(阅读笔记20220315)_第8张图片

 特征金字塔网络 (FPN):Feature Pyramid Networks

常见的四种特征金字塔网络结构_Tiám青年的博客-CSDN博客_特征金字塔

特征金字塔网络 (FPN)_whitenightwu的博客-CSDN博客_金字塔网络

《人群计数和密度估计方法综述》(阅读笔记20220315)_第9张图片

 神经网络学习小记录29——特征金字塔-Feature Pyramid Networks(FPN)_Bubbliiiing的博客-CSDN博客_特征金字塔《人群计数和密度估计方法综述》(阅读笔记20220315)_第10张图片

 特征金字塔 提出的原因、解决了什么问题:

图像金字塔、特征金字塔(FPN)_福尔摩斯帅双的博客-CSDN博客_图像金字塔和特征金字塔

《人群计数和密度估计方法综述》(阅读笔记20220315)_第11张图片

Corase network粗网络 / Fine network细网络/ corase-to-fine

Fine-grained image recognition细粒度图像识别

《人群计数和密度估计方法综述》(阅读笔记20220315)_第12张图片

GAN:

生成对抗网络(Generative Adversarial Networks, GAN)是文献[108]提出的一种深度学习模型。近年来,它已经成为复杂分布的无监督学习中最有前途的方法之一。GAN包括生成模型和判别模型两个模块 (a generative model and a discriminative model),它们相互竞争,尽可能多地了解实际数据的分布情况。在人群计数的相关研究中,一些研究人员先用生成器得到密度图,然后用判别器将密度图与ground truth区分开。这种相互竞争最终使得到的密度图更加精确。

LSTM(Long Short Term Memory Network):

长短时记忆网络

LSTM原理详解_Wimb的博客-CSDN博客_lstm原理



 Datasets and metrics数据集和指标

 Datasets:

《人群计数和密度估计方法综述》(阅读笔记20220315)_第13张图片

 目前,缺乏数据或大型数据集仍然是人群统计的主要困难之一。如3.1节所述,现有的大部分数据集存在各种问题,如场景单一(UCSD[11])、角度单一(Mall[12])、容量小(UCF_CC_50[13])等。

UCSD数据集[11]包含一个视频序列中的2000帧,每5帧对应一个ground truth。它是由安装在人行道上的固定摄像机拍摄的,所以场景相对缺乏变化。此外,人行道上的人群密度也存在着从稀疏到拥挤的变化。这个数据集是在人群计数中创建的第一个数据集。由于数据集发布时间较早,数据集存在很多局限性,如图像采集位置单一,场景不可避免的单一。数据分布与许多真实场景不匹配,不适合更一般的应用。

Mall数据集[12]由2000个320 × 230个视频帧组成,包含6000个被标记的行人。通过标记所有帧的行人头部来提供标记个体。与USCD数据集相比,Mall数据集具有更高的人群密度和更丰富的场景。

UCF_CC_50数据集[13]由50个不同分辨率的图像组成。每张图片平均包含1280人。整个数据集总共包括63075人。每个图像中的个体数在94 - 4543之间,有些图像包含非常密集的人群。该数据集还包含了音乐厅、示威集会、体育馆等多种多样的场景。

WorldExpo 10数据集[14]由3980 576 × 720个视频帧组成,共有199,923个被标记的行人。它的训练集来自103个场景中的1127个1分钟视频序列,测试集来自5个不同场景中的5个1小时视频序列。每个测试场景包含120帧图像,每帧图像中的个体数在1 - 220之间。

ShanghaiTech数据集[15]包含1198个标记图像和330,165个标记头,分为a和B两个部分。A部分包含482幅图像,其中训练集有300幅,测试集有182幅。这些图片是从互联网上收集的。B部分是在上海城市街道拍摄的400幅训练图像和316幅测试图像。与A区相比,B区人群密度相对较小。这个数据集涵盖了多个场景和不同的密度级别。ShanghaiTech数据集是一个非常具有挑战性的数据集,最近的人群计数工作都是基于该数据集进行比较的。

GCC中的图像取自《侠盗猎车手5》。Wang et al.[17]设计了一个数据收集器和标签器来捕捉游戏中稳定的图像及其头部标签。该数据集涵盖了400种场景,场景中的个体有不同的肤色、性别、外貌等。作者还使用了一种循序渐进的方法来打破图像中个体的最大数量的限制。这是人群计数中最大的数据集,无论是样本大小还是涵盖的场景。用它对模型进行预训练,然后对模式分析与应用1 3进行微调,对具有实际数据的模型通常可以获得较好的计数性能。

考虑到基于cnn的方法需要支持庞大的数据集,而现有的数据集又太小,所以Wang等[146]提出了NWPU-Crowd。它是目前人群计数中最大的数据集,有5109张图像和2133238个标记实体。此外,该数据集还包含一些负样本,有助于增强模型的鲁棒性。此外,它包含各种照明场景,密度范围最大[0,20033]。

Evaluation metrics:

For evaluating objects quantity

平均绝对误差(mean absolute error, MAE)是回归模型中常用的评价标准,表示预测值与ground truth之差的绝对值之和,定义如下:

《人群计数和密度估计方法综述》(阅读笔记20220315)_第14张图片

均方误差(Mean square error, MSE)是另一个常用的回归评价标准,它表示的是预测值与ground truth之间距离的平方,定义如下:

与MAE相比,MSE赋予离群值更大的权重,更好地体现了模型的鲁棒性。

 《人群计数和密度估计方法综述》(阅读笔记20220315)_第15张图片

  For evaluating the Density map:

图像的峰值信噪比(PSNR)的计算方法_漠北尘-Gavin的博客-CSDN博客_峰值信噪比

峰值信噪比(PSNR), 一种评价图像的客观标准。它具有局性,PSNR是“PeakSignaltoNoiseRatio”的缩写。peak的中文意思是顶点。而ratio的意 思是比率或比列的。整个意思就是到达噪音比率的顶点信号,psnr一般是用于最大值信号和背景噪音之间的一个工程项目。通常在经过影像压缩之后,通常输 出的影像都会在某种程度与原始影像不同。为了衡量经过处理后的影像品质,我们通常会参考PSNR值来衡量某个处理程序能否令人满意。它是原图像与被处理图 像之间的均方误差相对于(2^n-1)^2的对数值(信号最大值的平方,n是每个采样值的比特数),它的单位是dB。

《人群计数和密度估计方法综述》(阅读笔记20220315)_第16张图片

SSIM[150](结构相似度)也是两幅图像相似度的度量。作为结构相似理论的一种实现,SSIM将图像的失真建模为三个不同因素的产物:亮度、对比度和结构。平均值被用作亮度的估计值,标准差被用作对比度的估计值,协方差被用作结构相似性的度量值。SSIM的值在[0,1]范围内,值越大,图像失真度越小。SSIM可以弥补MSE不能度量图像结构相似性的缺陷。计算公式如下:

图像质量评价(四):SSIM和MSSIM_Dillon2015的博客-CSDN博客_ssim 图像质量

《人群计数和密度估计方法综述》(阅读笔记20220315)_第17张图片



Challenges:

(1)Scale variation尺度变化,包括人群尺度(场景变化密集程度变化)和头部大小。目前主要有两种解决方案:多尺度特征融合和多尺度密度图融合。通过融合不同层次的特征或密度图,可以在一定程度上缓解尺度变化。

(2)occlusion problem遮挡。目前的研究大多利用卷积神经网络强大的特征提取能力和学习能力来缓解这一困难。

(3)occlusion problem不均匀分布,个体分布不均匀,人群密度分布变化较大。两种解决方案:利用注意力机制和基于补丁的处理,注意力机制使得模型更加关注拥挤的区域。其他方法就是将输入图像分成多个patch,分别处理不同的patch,从而缓解分布不均的问题。

(4)occlusion problem角度变化

(5)Other数据集小、背景噪声大、光照差异大等



Density map密度图

人群计数之MCNN - 简书

人群密度估计 - CVPR2018最新论文CSRNet原理、配套代码解析_lucky li的博客-CSDN博客_csrnet

你可能感兴趣的:(笔记,深度学习,人群计数,目标计数,密度图,密度估计)