Boosting Crowd Counting with Transformers

TAM与RTM(人群计数)

提出问题:

通过将更大的上下文集成到卷积神经网络(CNN)中,在人群计数问题上取得了重大进展。

解决方法:

研究了全局上下文在人群计数中的作用。提出了两个新的模块:token注意模块(TAM)和回归token模块(RTM)。

引入token注意模块(TAM)来细化由上下文token通知的编码特征。

使用回归token模块(RTM)进一步指导上下文token的学习,该模块在人群总数的回归中容纳辅助损失

提出的TAM模块旨在解决vision transformer中的多头自注意力(MHSA)仅模拟空间交互的观察问题,而经过验证的真实通道交互也被证明具有至关重要的有效性。为此,TAM通过特征通道的条件重新校准将上下文token印在本地token上,因此显式地建模了通道相关性。

通过具有全局背景的学习特征,提供了密度监督人群计数的另一个视角。框架解决了CNN在捕获人群计数问题的全局背景方面的不足。

Boosting Crowd Counting with Transformers_第1张图片

重叠拆分。在流行的ViT[50]中,输入图像被分割成非重叠的面片,导致面片周围的局部结构被破坏的问题。相反,我们将输入分割成重叠的面片

损失函数

学习密度图的损失是计数损失、最佳传输损失[82]和变化损失的组合,与CCTrans相同。

实验结果

Boosting Crowd Counting with Transformers_第2张图片

你可能感兴趣的:(Crowd,density,estimation,transformer)