目录
语义分割
1. 常见数据集格式
2. 常见语义分割评价指标
转置卷积
1. 运算步骤(s为步长,p为padding,k为卷积核尺寸)
2. 优势以及存在的问题
膨胀卷积
1. Gridding Effect网格效应
2. 小目标分割效果差的问题
3. 膨胀卷积的一些特点
FCN
DeepLabV1
DeepLabV2
DeepLabV3
LR-ASPP
UNet
U2Net
语义分割(semantic segmentation),对每个像素进行分类;区别于实例分割和全景分割。
Transposed Convolution,转置卷积,并不是卷积的逆运算,主要用于upsampling。图像分割和图像生成等任务需要图像恢复到原尺寸,这个将图像由小分辨率映射到大分辨率的尺寸恢复操作,叫做上采样。(待补充图像处理中常用的上采样操作,eg:最近邻插值、线性插值、双线性插值、双三次插值)
在输入特征图元素间填充s-1行,0列
在输入特征图四周填充k-p-1行,0列
将卷积核参数上下、左右翻转
做正常卷积运算(padding0,stride1)
转置卷积操作后特征图的大小可以通过如下公式计算:
其中stride[0]表示高度方向的stride,padding[0]表示高度方向的padding,kernel_size[0]表示高度方向的kernel_size,索引[1]都表示宽度方向上的。通过上面公式可以看出padding越大,输出的特征矩阵高、宽越小,你可以理解为正向卷积过程中进行了padding然后得到了特征图,现在使用转置卷积还原到原来高、宽后要把之前的padding减掉。
原文链接:https://blog.csdn.net/qq_37541097/article/details/120709865
Diated convolution又叫做空洞卷积,在保持卷积参数量不变的情况下:①增大卷积感受野;②保持原输入特征图长和宽不改变。
举个例子:VGG网络中,maxpooling下采样倍率太大,丢失了细节信息,但去掉maxpooling层的话(pooling操作不可逆),导致特征图对应原图感受野减小,无法重构小的物体图像。因此引入膨胀卷积。当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小(在先减小再增大尺寸的过程中,有一些信息损失掉)
仅采用大 dilation rate 的信息或许只对一些大物体分割有效果,而对小物体来说可能则有弊无利了。锯齿状本身的性质就比较好的来同时满足小物体大物体的分割要求(小 dilation rate 来关心近距离信息,大 dilation rate 来关心远距离信息)。
(CVPR 2015)首个端到端的针对图像分割(像素级预测)的全卷积网络。主要将分类网络中的全连接层替换成卷积层。地位类比于目标检测中的Faster R-CNN。
原文链接:Fully Convolutional Networks for Semantic Segmentation