第十四周学习周报20181210-20181216

一、回顾《Pyramid Scene Parsing Network》
1)指出global average pooling with FCN可以改善分割效果
但对复杂场景并不有效
所以提出:different-region-based context aggregation
2)基于FCN+dilated network
3)采用4层金字塔模型,最后通过卷积后连接起来

二、看了一篇新的论文
《Fully Convolutional Networks for Semantic Segmentation》
1、end to end、pixel-wise

2、网络结构
1)FCN将传统CNN中的3层全连接层转化成一个个的卷积层。卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)。
2)FCN使用了上采样,使分辨率低的粗略图像恢复到原图的分辨率。需要进行上采样,以得到原图一样的大小。上采样是通过反卷积实现。对第5层的输出(32倍放大)反卷积到原图大小,得到的结果不够精确,一些细节无法恢复。本文将第4层的输出和第3层的输出也依次反卷积,分别需要16倍和8倍上采样。

3、优缺点
1)优点:
一,可以接受任意大小的输入图像,而不要求所有的训练图像和测试图像具有同样的尺寸。
二,更加高效,避免了由于使用像素块而带来的重复存储和计算卷积的问题。

2)缺点:
一,是得到的结果不够精细。进行8倍上采样虽然比32倍的效果好了很多,但是上采样的结果还是比较模糊和平滑,对图像中的细节不敏感。
二,是对各个像素进行分类,没有充分考虑像素与像素之间的关系,忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性

三、跑代码
1)跑了一下PSPNET的源码
2)跑通了之前看过一篇re-id论文的源码,测试结果和原文差了1%~2%。可能是测试集输入大小的问题。

四、看了跑通的re-id源码

你可能感兴趣的:(学习周报,学习周报)