DeconvNet

Learning Deconvolution Network for Semantic Segmentation
DeconvNet_第1张图片
DeconvNet的提出是受到了VGG16和FCN影响的。
论文中提出了FCN的一些缺点:
基于FCN网络的几个限制:
(1)网络的感受野尺寸是预先固定。因此,对于输入图片中比感受野大或者小的物体可能会被忽略。换言之,对于较大的物体,只有局部的细节信息能够被正确标记,或者标记的结果是不连续的,而对于小物体会被忽略。由于分割的边界细节和语义信息之间的权衡,通过跳跃结构来改善效果这一做法也无法从根本上解决问题。
(2)由于,卷积后送入反卷积层的feature map十分稀疏,而且,反卷积的过程又十分的粗糙,输入图片中的结构细节信息会有所损失。
论文中提出的自己的主要贡献:
(1)学习一个带有反卷积层,上采样层,ReLU层的深层反卷积网络。
(2)将训练好的模型,应用到图片的proposals中,得到实例级分割结果,最终将这些结合组成最终的分割结果,解决了原始FCN网络中的尺寸问题,同时,物体的细节信息更详尽。

DeconvNet的体系结构:

如上图:网络包括两个部分,卷积网络和反卷积网络两部分,完全对称。卷积网络部分将输入图片转变为多维度的特征表示,用作提取特征,反卷积用于从提取的特征生成分割物体的形状。网络的最后一层输出是一张概率map,与输入图片的大小相同,表示每个像素代表属于某个类别的概率。
DeconvNet_第2张图片
一些层
卷积层:使用的是VGG16的前13层。在卷积层后接Relu和Maxpooling。增加了两个全连接层(1×1的卷积)来强化特定类别的投影。
反卷积:转置卷积,可学习 进行上采样,是卷积层的镜像。其中的unpooling操作是通过pooling过程中所用的Max值索引实现的。
DeconvNet_第3张图片
关于unpooling 和 deconv的作用
低层的deconvolution获得目标的位置,形状等较粗信息,高层的deconvolution获得更精细的信息。
unpooling是为了获得图像空间结构细节,deconvolution获得的是物体类别分类信息。
训练过程中对于小样本提出的Two stage 方法
两阶段训练:首先基于标签,对含有实例的图片进行裁剪得到包含目标的图片,进一步构成较简单的数据进行预训练,然后使用复杂的数据进行微调,复杂数据集基于简单数据进行构建,proposals与groundTruth的Iou大于0.5的被选作用于训练。但此做法的弊端是,目标物的位置与尺寸信息与原始数据集出现差别。
论文中的实现方法
采用edge-box来生成 object proposals。对于每个测试图像,生成大约2000个proposals,并根据它们的objectness scores选择最高的50个。实验证实这个数目足以获得精确的分割。
为了获得整个图像的像素级条件概率图,采用最大值的方式来聚合proposal。

你可能感兴趣的:(机器学习)