多尺度特征的融合操作

在目标检测和分割的任务中,我们都喜欢用多尺度 特征融合操作来提高准确率。以语义分割为例,大家在看到U-Net 以后想到的第一个自认为的创新就是加上 ASPP 结构。加上一个特征金字塔结构。然后做实验发现整个效果还是不错的。其实这个特征金字塔的结构就是一个多尺度特征融合的例子。在这里也可以证明了多尺度特征融合在深度学习中的好处。那为什么多尺度融合有效果呢。

        我们知道现在的检测和分割网络基本都喜欢用卷积神经网络通过逐层抽象的方式来提取目标的特征,我们可以知道高层网络的感受野比较大,语义信息表征能力强,但是特征图的分辨率低,几何信息的表征能力弱(空间几何特征细节缺乏);低层网络的感受野比较小,几何细节信息表征能力强,虽然分辨率高,但是语义信息表征能力弱。高层的语义信息能够帮助我们准确的检测或分割出目标。因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。

多尺度特征的融合操作_第1张图片

上图就是一个典型的多尺度融合网络结构。下采样倍数小(一般是浅层)的特征感受野小,适合处理小目标,小尺度map(深层)分辨率信息不足不适合小目标在yolov3中对多尺度检测的理解是,1/32大小的特征图(深层)下采样倍数高,所以具有大的感受野,适合检测大目标的物体,1/8的特征图(较浅层)具有较小的感受野,所以适合检测小目标。对于小目标,小尺度feature map无法提供必要的分辨率信息,所以还需结合大尺度的feature map,这也就是在进行分割和检测网络中如果进行多次的下采样操作很容易到底小目标的丢失。

多尺度特征的融合操作_第2张图片

其中主要的网络结构可以分为以下几种:(1) 多尺度输入。(2) 多尺度特征融合。(3) 多尺度特征预测融合。(4) 以上方法的组合

这个方法来自AI 不惑境。

多尺度输入:这种方法基本就是那种图像金字塔的结构,就是对输入的图像进行操作,得到不同的大小的图像分辨率,然后再把这些图像进行组合输入进去。方法如下图

多尺度特征的融合操作_第3张图片

这种就是一个典型的多尺度图像融合的方法。

多尺度特征融合:这个方法主要是对特征不同阶段的特征进行组合在一个而得到的结果。这种方法也好理解

看下面的几个结构

多尺度特征的融合操作_第4张图片多尺度特征的融合操作_第5张图片

这是两个比较经典的不同尺度的特征融合方法。还有一个比较经典的就是ASPP网络

多尺度特征的融合操作_第6张图片

多尺度的特征预测:这种方法主要是对不同的特征的进行预测输出然后把这个输出的结果进行组合得到一个最后的输出结果。这种方法在检测中应用的比较多。

多尺度特征的融合操作_第7张图片

其实这种多尺度的特征融合的方法对于检测和分割网络的效果提升还是比较明显的。如果有机会大家也都可以试试。

你可能感兴趣的:(DL,神经网络,深度学习)