(学习笔记2)特征融合

(学习笔记2)特征融合

特征融合的定义

特征融合的分类

参考文献

特征融合的定义

特征融合是模式识别领域的一种重要方法,计算机视觉领域的图像识别问题作为一种特殊的模式分类问题,仍存在很多挑战,特征融合方法能够中和利用多种图像特征,实现多特征的优势互补,获得更加鲁棒和准确的识别结果。

计算机视觉(Computer Vision)又称为机器视觉(Machine Vision),顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下,计算机视觉与自然语言处理(Natural Language Process, NLP)及语音识别(Speech Recognition)并列为机器学习方向的三大热点方向。而计算机视觉也由诸如梯度方向直方图(Histogram of Gradient, HOG)以及尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)等传统的手办特征(Hand-Crafted Feature)与浅层模型的组合逐渐转向了以卷积神经网络(Convolutional Neural Network, CNN)为代表的深度学习模型。

特征融合的分类

  1. 1.早融合(Early Fusion)

    在特征上进行融合,进行不同特征的连接,输入到一个模型中进行训练(先融合多层的特征,然后在融合后的特征上训练预测器,只有在完全融合之后,才进行检测)。这类方法也被称为skip connection,即采用concat、add操作。

    skip connection的初衷是为了解决梯度消失的问题。在学习深度神经网络的参数时,通常都是通过梯度下降的方式,即从网络的输出层开始由后向输入层计算每一层的梯度。由于梯度通常是小于1的数值,当层数很多的时候,梯度就会变的越来越小。最终出现梯度消失的问题。当梯度无限接近于0,网络就没有办法更新学习了。所以就有了skip connection这个思路,简言之,在深度网络的中间层额外加入浅层的input,使得梯度的“路径”不再那么长。类似提供一个复合路径,在原来的“长路径”的基础上,现在额外添加一个“捷径”。Skip connection在本质上就是额外提供一个计算梯度的“捷径”。

    1. 1.concat(concatenation,级联)

      来源于DenseNet,在一个Dense Block中,较浅层的输入会级联在一起输入下一层次网络。一层层递推,越往后的层,获得级联的信息就越多。如图,这种方式可以多很多条“捷径”,浅层的输入直接有通道通往block的输出层。这样做也可以很大程度上降低网络梯度消失的问题。

      DenseNet以前馈的方式(feed-forward fashion)将每个层与其它层连接起来。在传统卷积神经网络中,对于L层的网络具有L个连接,而在DenseNet中,会有L(L+1)/2个连接。每一层的输入来自前面所有层的输出。

    2. 2.add(addition,加法)

      来源于ResNet,其实就是做一个residual block(RB):这个block通过“identity function”的方式提供捷径。把residual block里面的网络看做一个函数F(x),他的输入是 x 和输出F(x)+x。“identity”就体现在输入和输出都有一个x,在addition的部分(+x)为求梯度提供了一条捷径。

      ResNet(深度残差网络)的提出是CNN图像史上的一件里程碑事件

  2. 2.晚融合(Late Fusion)

    在预测分数上进行融合,做法就是训练多个模型,每个模型都会有一个预测分数,我们对所有模型的结果进行融合,得到最后的预测结果。(通过结合不同层的检测结果改进检测性能,尚未完成最终融合之前,在部分融合的层上酒开始检测,会有多层的检测,最终将多个检测结果进行融合)。这一思路的代表是feature不融合和feature进行金字塔融合,融合后进行预测。

    1. 1.feature不融合

      多尺度的feature分别进行预测,然后对预测结果进行综合,如Single Shot MultiBox Detector(SSD),Multi-scale CNN(MS-CNN)。

      SSD属于one-stage方法,在保证了精读的同时,又提高了检测速度。SSD算法在传统的基础网络(比如VGG)后添加了5个特征尺寸依次减小的卷积层,对5个特征图的输入分别采用2个不同的3*3的卷积核进行卷积,一个输出的分类用给的confidence,每个default box生成21个类别的confidence;一个输出回归用的localization,每个default box生成4个坐标值,最后将5个特征图上的结果合并(contact),送入loss层。

    2. 2.feature进行金字塔融合,融合后进行预测

      如Feature Pyramid Network(FPN)等。

      FPN网络有效地解决了物体检测中的多尺度问题。底层特征图中的信息较少,但是目标位置准确,高层特征图信息丰富,但是位置比较粗略,FPN不同的地方在于在不同的特征层独立进行预测。

参考文献

[1]  https://blog.csdn.net/qq_42012782/article/details/123202419 特征融合的分类和方法

[2]  https://zhuanlan.zhihu.com/p/457590578 浅析深度学习中的Skip Connection

[3]  https://zhuanlan.zhihu.com/p/31852747 你必须要知道CNN模型:ResNet

[4]  https://zhuanlan.zhihu.com/p/67206089 CNN(卷积神经网络)介绍

[5]  https://blog.csdn.net/zj15939317693/article/details/80596870 SSD(Single Shot MultiBox Detector)算法理解

[6]  https://blog.csdn.net/stu_shanghui/article/details/92017675 FPN网络详解——feature pyramid network

你可能感兴趣的:(图像处理)