论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》

代码主页:https://github.com/siyuhuang/crowdcount-stackpool

解决问题:在池化层上下功夫,解决了图像处理中的多尺度问题;

发现:

1.在人群计数的图片数据集上,如果将不同区域的图片resize到一定的尺寸,这两个区域会表现出极大的视觉相似性(包括人物大小、人群密度、层叠关系);见下图。

2.

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》_第1张图片

a larger pooling range enables an invariance when the input goes through a scale variation.

 

提出方法:池化模块变化得到multi-kernel pooling和stacked pooling,从而提高卷积网络的尺度不变性;多核池化是由多个感受野的池化层组成,从而捕捉到多尺度的信息;堆积池化其实和多核池化是等价的,但是会大大减少计算量;

优点:Non-parametric,不引入额外参数和超参数,确保模型高效同时防止学习过程中的过拟合;

          Simple and flexible:They can take place of the vanilla pooling layer at any time when need be.(ps: vanilla pooling在这里时表示pure pooling的意思 吗?这个单词让我感觉pooling都甜甜的)

 

Multi-kernel pooling

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》_第2张图片

Stacked pooling

论文理解《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》_第3张图片

上面两张图片效果其实是等价的;

 

SIFT理解: https://zhuanlan.zhihu.com/p/22476595

 

 

你可能感兴趣的:(crowd,count,crowd,count,scale,invariance)