An End-to-End Transformer Model for Crowd Localization

CLTR(人群定位)

提出问题:

人群定位,即预测头部位置,是一项比简单计数更实用、更高层次的任务。现有方法采用伪包围盒或预先设计的定位图,依靠复杂的后处理来获得头部位置。

解决方法:

CLTR基于DETR人群定位视为一个直接集预测问题,将提取的特征和可训练的嵌入作为transformer解码器的输入。为了获得良好的匹配结果,引入了一种基于KMO的匈牙利,它创新性地从上下文视图而不是独立的实例视图重新访问标签分配。

KMO(Kaiser-Meyer-Olkin)检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。

匈牙利算法是一种在多项式时间内求解任务分配问题的组合优化算法,并推动了后来的原始对偶方法。

An End-to-End Transformer Model for Crowd Localization_第1张图片

首先,将输入图像I馈送到基于CNN的主干以提取特征F。其次,将特征F添加到位置嵌入中,产生Fp,馈送到变压器编码器层,输出Fe。第三,我们定义N×可训练嵌入Qh作为查询,Fe作为键,transformer解码器将Qh和Fe作为输入来生成解码特征Fd最后,Fd可以解耦到点坐标和相应的置信度。

损失函数

L1损失

实验结果

An End-to-End Transformer Model for Crowd Localization_第2张图片

你可能感兴趣的:(Crowd,density,estimation,transformer)