CV笔记——上采样的方法及空洞卷积感受野计算

一、为什么语义分割中要把标签转换为one-hot,而不是1,2,3…?

  1. 因为每个类都是等价的,如果使用1,2,3这种形式,就隐含着实际中不存在的隐含关系如:第3类输出要比1和2大
  2. [0,0,1],[0,1,0],[1,0,0]这样的one-hot标签是正交的,线性无关,这样各类别之间没有依赖关系,符合实际情况。

二、Dense Predictions

CV笔记——上采样的方法及空洞卷积感受野计算_第1张图片
预测图像中每个像素标签的任务

三、Upsampling的方式

  1. Unpooling 反池化(一般不用)
  2. Bilinear Interpolation 双线性插值
torch.nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
  1. Transposed Convolution 转置卷积(反卷积)
    https://blog.csdn.net/tsyccnh/article/details/87357447
torch.nn.ConvTranspose2d
  1. Dilated Convolution 膨胀卷积(Atrous 空洞卷积)
    由于一般的设置经常是kernel_size=3,stride=1,所以卷积核之间经常有重叠部分3-1=2,空洞卷积就是卷积核跳过一个或几个像素,进行卷积。如图中是跳过了一个像素,再卷积。

对于标准的k*k卷积操作,stride为s,分三种情况:

(1) s>1,即卷积的同时做了downsampling,卷积后图像尺寸减小;
(2) s=1,普通的步长为1的卷积,比如在tensorflow中设置padding=SAME的话,卷积的图像输入和输出有相同的尺寸大小;
(3) 0 当然将普通的卷积stride步长设为大于1,也会达到增加感受野的效果,但是stride大于1就会导致downsampling,图像尺寸变小。

感受野的计算

https://zhuanlan.zhihu.com/p/28492837

一下是带有空洞卷积的感受野计算过程

CV笔记——上采样的方法及空洞卷积感受野计算_第2张图片

你可能感兴趣的:(神经网络,卷积,计算机视觉,深度学习,python,人工智能)