论文笔记之U-net详细介绍

U-net是一种编码器-解码器结构。编码器逐渐减少池化层的空间维度,解码器逐步修复物体的细节和空间维度。编码器和解码器之间通常存在快捷连接,因此能帮助解码器更好地修复目标的细节。U-Net 是这种方法中最常用的结构。
论文笔记之U-net详细介绍_第1张图片
蓝色代表卷积和激活函数, 绿色代表复制, 红色代表下采样, 黄色代表上采样然后在卷积,conv1X1代表核为1X1的卷积操作,这个网络没有全连接,只有卷积和下采样,这也是一个端到端的图像, 即输入是一幅图像, 输出也是一副图像。上采样和下采样的卷积核都是3X3,进行pooling的时候采用maxpooling并且保留了位置信息,使得在进行上采样的时候能够还原其位置信息.橙色包含conv和激活函数ReLu,也有一些论文在这部分进行了改进,加入了Batch Normalization,它是一个自适应的重新参数化的方法,试图克服神经网络层数加深导致模型难以训练,它目前最常用的深度学习基础模型包括前向神经网络(MLP),CNN 和 RNN。其中Batch Normalization有两种方式插入,一种是在激活函数Relu之前,一种是在激活函数Relu之后,对这个想了解更多,我推荐一篇博客https://blog.csdn.net/u010899985/article/details/82251932
这里面有关Batch Normalization介绍的很详细。

下采样用来逐渐展现环境信息,而上采样的过程是结合下采样各层信息和上采样的输入信息来还原细节信息,并且逐步还原图像精度。
缩小图像:或称为下采样(subsampled)或降采样(downsampled)
主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图
原理:对于一幅图像I尺寸为MN,对其进行s倍下采样,即得到(M/s)(N/s)尺寸的得分辨率图像,当然s应该是M和N的公约数才行,如果考虑的是矩阵形式的图像,就是把原始图像s*s窗口内的图像变成一个像素,这个像素点的值就是窗口内所有像素的均值
论文笔记之U-net详细介绍_第2张图片
放大图像:或称为上采样(upsampling)或图像插值(interpolating)
主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。
原理: 图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

下采样、上池化与下采样、上采样的区别
论文笔记之U-net详细介绍_第3张图片
UnPooling是在Maxpooling的时候保留最大值的位置信息,之后在unPooling阶段使用该信息扩充Feature Map(除最大值位置以外,其余补0)。与之相对的是upsampling,两者的区别在于UpSampling阶段没有使用MaxPooling时的位置信息,而是直接将内容复制来扩充Feature Map。

U-net 最后层Softmax layer ,一般有softmax 和 Logsoftmax,其区别:

softmax:是一个 non-linearity, 但它的特殊之处在于它通常是网络中一次操作. 这是因为它接受了一个实数向量并返回一个概率分布.其定义如下. 定义 x 是一个实数的向量(正数或负数都无所谓, 没有限制). 然后, 第i个 Softmax(x) 的组成是

在这里插入图片描述
其输出为一个概率分布,数值为正,输出层全部输出总和都是1.
在这里插入图片描述
因为输出层的输出之和为1,其中一项增加,其他所有项则会相应减少。
Logsoftmax:
在这里插入图片描述
在softmax的结果上再做多一次log运算,也就是将原始数据从 x ⇒ log (x),无疑会原始数据的值域进行一定的收缩。进一步地,还可对原始数据进行进一步的预处理(xi=xi−max(x))

你可能感兴趣的:(深度学习,深度学习,神经网络,机器学习)