A Purely Point-Based Framework (论文阅读笔记)

A Purely Point-Based Framework 论文阅读笔记

A Purely Point-Based Framework (论文阅读笔记)_第1张图片
这是一篇ICCV2021年的文章,出自腾讯优图实验室。

一、介绍

  1. 在人群分析的相关具体任务中,人群计数是一个基本的支柱,目的是估计人群中个体的数量。然而,简单地给出一个数字显然远远不能满足更高级的人群分析任务,例如人群跟踪、活动识别、异常检测、流量/行为预测等。
  2. 这个领域有一个明显的趋势,即除了简单的计数之外,更具有挑战性的细粒度估计(即个体的位置)。 因此,与以往基于密度图和检测框的方法不同,文章提出了一种完全基于点的模型框架——P2PNet,用于群体中的联合计数和个体定位。这个框架鼓励细粒度的预测,有利于人群分析中下游任务的实际需求。
  3. 在评价指标方面,文章提出了一种新的密度归一化平均精度(nAP)度量指标,为定位误差和计数误差提供了一个综合的评价指标。nAP度量支持框和点表示作为输入。

二、相关工作

2.1 计数方法

A Purely Point-Based Framework (论文阅读笔记)_第2张图片
在近年来的文章中,人群计数的方法主要有两类

  1. 基于密度图的方法:该方法虽然取得了不错的计数精度,但是不能提供人群中个体的确切位置;
  2. 基于定位的方法:这类方法通过预测个体的位置来实现计数,一些方法是将人群计数直接视为头部检测问题,但在小尺度、密集型头部进行标注时花费了很多力气。 其他的方法则试图利用头部的点标注来生成头部的伪边界框,这些不准确的边界框不仅使模型训练过程变得混乱,而且使后处理NMS无法抑制误检。另一些试图直接定位个体的几种方法在抑制过近的候选实例时陷入困境,同时由于头部尺度的变化,特别是对于高度拥挤的区域,它们容易出错。

2.2 评价指标

传统普遍认可的评价指标只度量计数误差,却忽略了单个图像中估计误差的空间变化。一些文章主张采用像素级绝对计数误差作为标准,而不是常用的图像级度量。另一项研究提出了Mean Localization Error来计算预测点与真实点之间的平均像素距离,仅仅是评估定位误差。还有相关文献受目标检测中使用的评价指标的启发,提出在贪婪关联后使用Precision-Recall曲线下的面积,但忽略了重复预测的惩罚。因此,有人提出采用顺序匹配,然后使用标准的平均精度(Average Precision, AP)进行评价的方法。

三、本文方法

3.1 纯粹基于点的网络

给定一个有N个个体的图像,用N个点来表示个体的头部中心点。网络输出两个东西,一个是预测头部的中心点坐标P,另一个是该中心点的置信度C。
网络的目标是使预测点与ground truth尽可能地接近,并且有足够高的置信度。同时预测的个体数量M也应该足够接近实际值N。

3.2 密度归一化平均精度指标

密度感知准则:
一个预测点 pˆj 在匹配到某个ground truth p^i 时才被归类为 TP。其中pi之前不能被任何更高等级的点匹配。 匹配过程由基于像素级欧几里德距离的准则,由L (ˆpj , pi) 计算。
然而,直接使用像素距离来测量亲和度忽略了人群之间大密度变化的副作用。 因此引入了密度归一化,以缓解密度变化问题。

简单说来就是引入最近邻K(取3)个点,将它们的距离归一化。
A Purely Point-Based Framework (论文阅读笔记)_第3张图片
用公式表示如下:
A Purely Point-Based Framework (论文阅读笔记)_第4张图片

3.3 匹配策略分析

文章提出的框架旨在预测一个大小未知的点集,本质上是一个开放集问题。因此,这种方法的一个关键问题是确定当前预测点应对应哪个真实点。

第一种方法:对于每个真实点,距离最近的方案应该产生最好的预测。然而,如果我们为每一个真实点选择最近的预测点,很可能一个预测点匹配到多个真实点,如图(a)所示。在这种情况下,只有一个真实点可以正确预测,导致被低估,尤其是对拥挤的地区。
A Purely Point-Based Framework (论文阅读笔记)_第5张图片
第二种方法:对于每一个预测点,将最近的真实点指定为它的目标,从直观上看,该策略可能有助于减轻优化的总体开销,因为最近真实点相对更容易预测。然而,在这种分配中,可能存在多个预测点同时匹配同一真实点的情况,导致过高的估计,如图(b)所示。
A Purely Point-Based Framework (论文阅读笔记)_第6张图片
因此,本文通过匈牙利算法进行1对1的匹配,如图(c)所示。
A Purely Point-Based Framework (论文阅读笔记)_第7张图片
在上面的匹配中使用的距离可以是像素距离以外的任何其他成本度量,例如置信分数和像素距离的组合。经验表明,在一对一匹配过程中考虑建议的置信度分数有助于改进建议的nAP度量。

3.4 P2PNet 模型

该模型建立在 VGG16 之上,它首先引入了一个上采样路径来获得细粒度的深度特征图。 然后它利用两个分支同时预测一组点提议及其置信度分数。
A Purely Point-Based Framework (论文阅读笔记)_第8张图片
损失函数:
A Purely Point-Based Framework (论文阅读笔记)_第9张图片

四、实验

4.1 数据增强

首先采用随机缩放,比例因子选自[0.7,1.3],保持短边>=128,然后从调整大小的图像中随机裁剪出大小为128 × 128的固定图像块。最后采用随机翻转,概率为0.5。对于分辨率极高的数据集,如QNRF和NWPU-Crowd,图像的最大尺寸分别不大于1408和1920,并保持原始的宽高比。

4.2 实验结果

A Purely Point-Based Framework (论文阅读笔记)_第10张图片
A Purely Point-Based Framework (论文阅读笔记)_第11张图片

你可能感兴趣的:(机器学习,人工智能,深度学习)