基于深度学习的计算机视觉研究新进展_文献阅读

基于深度学习的计算机视觉研究新进展
摘要:本文着眼于2016年以来典型网络和模型,对基于深度学习的计算机视觉研究进行综述,主要包括以下部分:

  • 总结了对凸显分类的主流深度神经网络模型(标准化模型和轻量化模型)
  • 总结了针对不同计算机视觉领域的主流方法和模型(目标检测、目标分割和图像超分辨率)
  • 总结了深度神经网络搜索方法
    本文收稿于2022-02-10

引言
时间节点

  • 深度学习早在1986年就被Dechter[2]引入机器学习领域
  • 2000年Aizenberg等[3]又在机器学习领域引入了人工神经网络(Artificial neural network,ANN)
  • 深度学习常常用多种抽象结构来学习复杂的映射关系,如2009年蒙特利尔大学的Bengio教授提出的带隐藏层的ANN[7]等
  • 2005年多伦多大学的Hinton教授团队试图用图模型模拟人类的大脑[8],在文献[9]中提出了一种逐层贪婪算法来预训练深度信念网,克服了深度网络难以训练的弊端,,并用自编码器降低数据维度[10],开启了深度学习的热潮,使其被广泛应用在语音识别、计算机视觉和自然语言处理等领域。
  • 2011—2012年,深度学习技术在语音识别领域中最先取得重大突破,Dahl团队[11]和Hinton团队[12]先后将识别错误率降至20%~30%
  • 在2012年的ImageNet大规模视觉识别挑战竞赛,Hinton的学生提出的AlexNet[13]以超过第二名准确率10%的巨大优势夺得冠军,深度学习正式进入了爆发期

1、通用深度神经网络模型

  • 1989年AT&T贝尔实验室的研究员LeCun通过反向传播算法成功地训练了卷积神经网络

  • 1998年LeCun等基于前人的工作提出了LeNet,由2个卷积层和3个全连接层组成,因此也被称为LeNet-5,主要被用于识别手写数字。
    基于深度学习的计算机视觉研究新进展_文献阅读_第1张图片
    图1:LeNet-5

  • 2007年,普林斯顿大学李飞飞团队基于WordNet的层级结构开始搭建ImageNet数据集[19],通过网络抓取、人力标注和众包平台等各种方式,最终在2009年公开,如今ImageNet数据集包含超过14 000 000张带标签的高清图像、超过22 000个类别

  • 2012年的冠军AlexNet[13]首次将深度学习技术应用到大规模图像分类领域,证明了深度学习技术学习到的特征可以超越手工设计的特征,开启了计算机视觉领域中的深度学习热潮,AlexNet和LeNet结构理念相似,采用5层卷积层和3层全连接层,激活函数用ReLU取代了sigmoid,用dropout方法取代了权重衰减缓解过拟合。
    基于深度学习的计算机视觉研究新进展_文献阅读_第2张图片
    图2:AlexNet结构示意图

  • 2014年的冠军团队提出的ZFNet[22]通过反卷积可视化CNN学习到的特征,取得了11.7%的错误率。

  • 2015年的冠军团队Szegedy等提出的GoogLeNet[23]将错误率降到了6.7%。GoogLeNet提出了一种Inception模块,这种结构基于网络中的网络(Network in network,NiN)的思想[24],有4条分支,通过不同尺寸的卷积层和最大池化层并行提取信息,1×1卷积层可以显著减少参数量,降低模型复杂度。GoogLeNet一共使用9个Inception模块,和全局平均池化层、卷积层及全连接层串联。Szegedy提出很多改进的Inception版本,陆续使用了Batch Normalization[25]、Label Smoothing[26]和残差连接[27]等方法。
    基于深度学习的计算机视觉研究新进展_文献阅读_第3张图片
    图3:Inception模块示意图

  • 2015年的ILSVRC亚军是由牛津大学视觉几何团队提出的VGGNet[28]。VGGNet重复使用了3×3的卷积核和2×2的池化层,将深度网络加深到16~19层,如图4所示
    基于深度学习的计算机视觉研究新进展_文献阅读_第4张图片
    图4:VGG模块和VGG结构示意图

  • 2016年,微软亚洲研究院He等提出的ResNet[29]夺得了ILSVRC冠军,将top-5错误率降至3.6%。ResNet最深可达152层,以绝对优势获得了目标检测、分类和定位3个赛道的冠军。该研究提出了残差模块的跳接结构,网络学习残差映射f (x)-x,每1个残差模块里有2个相同输出通道的3×3卷积层,每个卷积层后接1个BN(Batch normalization)层和ReLU激活函数。跳接结构可以使数据更快地向前传播,保证网络沿着正确的方向深化,准确率可以不断提高。ResNet的思想产生了深远的影响,是深度学习领域的一个重要进步,奠定了训练更深的深度网络的基础,其结构如图5所示。
    基于深度学习的计算机视觉研究新进展_文献阅读_第5张图片
    图5 残差模块

  • 和ResNeXt同年提出的Xception[32]也是一种基于Inception分组卷积思想的模型。分组卷积的核心思想是将通道拆分成不同大小感受野的子通道,不仅可以提取多尺寸的特征,还可以减少参数量,降低模型复杂度。Xception模块可以视为一种极端情况的Inception模块,它的输入先经过一个1×1的卷积层后进入多个完全相同的3×3卷积层分支,如图8所示。
    基于深度学习的计算机视觉研究新进展_文献阅读_第6张图片

补充中ing
本博客用于记录自己在读《基于深度学习的计算机视觉研究新进展》论文过程的心得,如有需求与知网参考原文,如有侵权,联系作者进行相应处理
参考文献:基于深度学习的计算机视觉研究新进展

你可能感兴趣的:(机器学习算法,神经网络)