Dense Scale Network for Crowd Counting-paper reading

主要创新点:

  1. 提出一种新模块Dense dilated convolution block(DDCB),串联不同dilation的空洞卷积+dense连接
  2. DDCB之间加了残差连接
  3. 一种新的loss(这个loss在其他论文中也出现过,见Crowd Counting and Density Estimation by Trellis Encoder-Decoder Network)谁先提出来的就不知道了

一般搞CNN放个图就明白的七七八八了,网络简称DSNet,
Dense Scale Network for Crowd Counting-paper reading_第1张图片
dilated卷积的使用,比普通卷积的速度慢很多,pytorch测试了一下,耗时大概是普通卷积的3-4倍,而且模型文件也会变得更大,虽然号称是保证了参数不变。吐槽完毕,这个DDCB模块大概就是级联了不同dilation的空洞卷积,分别是1-2-3,为什么不像之前那么都选2,可以百度空洞卷积拯救之路,有篇论文专门讲这个的,因为一串互质的dilation可以少遗失像素信息,不互质会遗失很多 像素信息。为了防止网络长的太宽,加了一些1*1的卷积核降channel数量。

中间图片的一些箭头就是跨越残差连接(DRC)了,也算是比较常用的技巧。

至于那个loss,在上面提到的另一篇论文里,名称应该是SAL,大概就是估计的密度图和真实密度图都做池化降分辨率,计算误差,再降分辨率,再计算误差,不过SAL应该是L2 Loss,这个文章里是L1 Loss,话说L1 Loss好像不利于反向传播更新参数?两个Loss的权重在不同数据集上也不一样,充分说明了调参的重要性。文章采用了1-2-4的池化结果,因为再增加更多池化结果也不会更好。

喜闻乐见的效果环节
Dense Scale Network for Crowd Counting-paper reading_第2张图片
Ablation Study
可以看出来DDCB的加入,使精度得到提升,继续加效果会更好?为啥不再加了
Dense Scale Network for Crowd Counting-paper reading_第3张图片

Dense Scale Network for Crowd Counting-paper reading_第4张图片

你可能感兴趣的:(深度学习,算法)