DL小笔记

一、下采样与上采样。

DL小笔记_第1张图片

下采样(subsampled)又称为降采样(downsampled),即抽取特征 缩小图像尺寸,减少矩阵的采样点数。

有两个作用:减少计算量,防止过拟合;增大感受野,使得后面的卷积核能够学到更加全局的信息。

常用方法:1、加入池化层,如Max-pooling(相比平均池化,最大池化计算简单而且能够更好的保留纹理特征);

2、加入卷积层,下采样的过程是一个信息损失的过程,而池化层是不可学习的,用stride为2的可学习卷积层来代替pooling可以得到更好的效果,当然同时也增加了一定的计算量。

上采样(upsampling)又称为插值(interpolating),即放大图像,增加矩阵的采样点数,是下采样的逆向操作。在卷积神经网络中,由于输入图像通过CNN提取特征后,输出的尺寸往往会变小,而有时需要将图像恢复到原来的尺寸以便进行进一步的计算(如图像的语义分割),这个使图像由小分辨率映射到大分辨率的操作。

常用方法:1、插值,一般使用的是双线性插值,效果最好,计算上比其他插值方法稍微复杂,但不值一提,其他插值方式还有最近邻插值、三线性插值等;

2、转置卷积又名反卷积(Transpose Conv),通过对输入feature map间隔填充0,再进行标准的卷积计算,可以使得输出feature map的尺寸比输入更大;

3、Up-Pooling - Max Unpooling && Avg Unpooling --Max Unpooling,在对称的max pooling位置记录最大值的索引位置,然后在unpooling阶段时将对应的值放置到原先最大值位置,其余位置补0

二、token

在NLP输入一段句子,分词器会将句子中的单词、符号转换成一个个token,可以认为每一个单词是一个token,然后还有一个标注句子语义的标注cls。

在CV领域,不能直接把每个像素看作一个token(token太多了,远超BERT的上限512个),所以ViT把图像切割成一个个16x16的patch(具体数值可以修改),每个patch块看作是一个token。

你可能感兴趣的:(深度学习,计算机视觉)