TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读

论文:https://arxiv.org/abs/2104.09116

代码:GitHub - dk-liang/TransCrowd: TransCrowd: Weakly-Supervised Crowd Counting with Transformer

        本文主要是搞弱监督的人群计数+Transformer。

        首先全监督的人群计数就是通过点级标注生成ground truth(GT),然后再放入CNN中回归生成预测密度图。但是全监督的问题是点级标注耗时耗力,并且在测试时并不使用带注释的点标签。如图(a)所示。

        目前的弱监督就是直接回归图像的总计数,直接从图像到计数。如图(b)所示。

        本文提出的TransCrowd就是在弱监督上加上一个transformer。

TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读_第1张图片

整个模型看下来并没有什么大的创新点,图片处理是按照VIT把图片切成一个个patch,线性映射后变为一个个token。token的处理有两种,一种是仿照一般模型加class token的做法加了一个regression token。另外一种是不加额外的token而是采用全局平局池化操作来降低序列长度。

TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读_第2张图片

最终实验结果如图:

TransCrowd: Weakly-Supervised Crowd Counting with Transformer解读_第3张图片

 

代码的话还在看,里面timm库是有问题的。他的要求里的timm=0.1.30会报错,改成 pip install timm==0.3.2

你可能感兴趣的:(人群计数,pycharm,python,机器学习,深度学习)