深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺

深度卷积神经网络的发展及其在计算机视觉领域的应用

  • 原文pdf和笔记下载
  • chap1 引言
    • 1.1 Deep CNN 发展史
  • chap2 卷积神经网络及其相关技术
    • 2.1 什么是CNN
      • 2.1.1 卷积层
      • 2.1.2 采样层
      • 2.1.3 全连接层
    • 2.2 各种技术手段对神经网络图像分类精度的提升效果
      • 2.2.1 增加网络层数
      • 2.2.2 增加训练数据集规模
      • 2.2.3 正则化
      • 2.2.4 其他改进训练学习方法
        • 2.2.4.1 激活函数
        • 2.2.4.2 损失函数
        • 2.2.4.3 batch normalization 基本思想
  • 3 卷积神经网络的应用
  • 4 视觉认知的理论启示
  • 5 展望

原文pdf和笔记下载

点击跳转

chap1 引言

1.1 Deep CNN 发展史

  1. Hubel 和 Wiesel在1962年通过对猫的视觉皮层细胞进行 深入研究,提出了高级动物视觉系统的认知机理模型。该模型提出高级动物视觉神经网络由简单细胞复杂细胞构成(如图1所示).
    深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第1张图片

  2. 神经网络底层的简单细胞的感受野只对应视网膜的某个特定区域, 并只对该区域中特定方向的边界线产生反应.复杂 细胞通过对特定取向性的简单细胞进行聚类,拥有 较大感受野,并获得具有一定不变性的特征.

  3. 1984 年日本学者Fukushima在Hubel和 Wiesel 的感受野概念基础上,提出了神经认知机(Neocog- nitron) 模型:S细胞的功能是提取局部特征(如边缘或角 等);.C细胞对 应 Hubel-Wiesel模型的复杂细胞,对S细胞的输入 进行一些处理,如图像较小的位移或轻微变形等.

  4. 20世纪90年代初期,纽约大学的LeCun等人 提出了多层卷积神经网络并成功应用于手写数字识 别中,所提出的LeNet 系列都达到商用水平

  5. 2012 年,Hinton 团队在ImageNet 图像分类比 赛中获得压倒性胜利,将1000类图像的 TOP-5 分类 错误率从26.172%降低到15.315% .在这一年, Deep CNN还被用于解决Drug Activity 预测问题, 并获得当时最好成绩.至此,神经网络的研究进入了 一个崭新的时代,开启了神经网络研究的热潮.

  6. 当前,Deep CNN相对传统机器学习算法的优 势不断扩大,传统学习方法在多个领域无法与深 度学习抗衡,比如手写体识别、图像分类、图像语 义理解、语音识别和自然语言理解等技术领域.

  7. 为了改进神 经网络的训练,研究人员提出了深层结构的优化和训 练学习方法的改进,包括使用ReLU激活函数,使用 dropout 进行网络训练,使用batch normalization技 术归一化特征的数据分布等.

chap2 卷积神经网络及其相关技术

2.1 什么是CNN

这里是我之前的关于神经网络的笔记
卷积神经网络是由用于特征提取的卷积层和用于特征处理的亚采样层交叠组成的多层神经网络. 典型的卷积神经网络结构 如图2所示:
深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第2张图片

其实我很推荐吴恩达教授的NN课程,b站上有

2.1.1 卷积层

第l层的第j个特征图矩阵可能由前一层若干个特征图卷积加权得到,一般可以 表示为(式1)
在这里插入图片描述

常用的神经元激活函数有sigmoid函数、tanh 函数、ReLU函数等

2.1.2 采样层

也称为“池化”层,其作用是基于局部相 关性原理进行池化采样,从而在减少数据量的同时 保留有用信息.采样过程可以表示为(式2)
在这里插入图片描述

2.1.3 全连接层

卷积神经网络在卷积层和采样层后,通常会连 接一个或多个全连接层.全连接层的结构和全连接 神经网络的隐层结构相同,全连接层的每个神经元 都会与下一层的每个神经元相连。

2.2 各种技术手段对神经网络图像分类精度的提升效果

2.2.1 增加网络层数

在给定带标签数据集的前提下,提升深度神经 网络识别精度的一种直接方法是增加网络层数。
2012的AlexNet:模型结构如图3
深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第3张图片

2014的 VGG(Visual Geometry Group) 网络获得了定位任务第一名和 分类任务第二名,图4
深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第4张图片

2019年定级深度神经网络:表1
深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第5张图片

2.2.2 增加训练数据集规模

图7,过拟合示意图:
深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第6张图片

2.2.3 正则化

训练大型卷积神经网络除了增大训练数据集 外,还经常使用正则化方法来防止过拟合问题.发 生过拟合的模型一般在某些很小的区间里,函数值 的变化很剧烈.这就意味着函数的参数值偏大,使某 些小区间里的导数值(绝对值)非常大.正则化是通 过约束参数的范数使其不要过大,以此降低模型的 复杂度,从而减小噪声输入的扰动,可以在一定程度 上减少过拟合情况.

  1. L_2 正则化是最常用的一种正则化技术,又称权重衰减(weight decay ),它是在原始的损失函数C0 后面再加上一个正则化项:式7
    在这里插入图片描述

  2. L_2 正则化是通过修改代价函数来实现的,而 Dropout 则是通过修改神经网络本身来实现 的,它是训练网络时常用的一种技巧。

  3. DropConnectMaxout都可以提高深度神经网络的泛化能力,两者是对 Dropout 的改进.图9深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第7张图片
    深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第8张图片

2.2.4 其他改进训练学习方法

卷积神经网络中改进训练学习的方法除了使用 正则化外,还有改进激活函数、定义不同损失函数、 使用batch normalization等常用技术

2.2.4.1 激活函数

  1. Sigmoid函数(非线性)(x)= 1/1+e^{-x}
  2. Tannh函数 f(x)=e^x - e^{-x} / e^x + e^{-x}
  • 以上两种激活函数君存在梯度消失问题,会导致训练销量低下
  1. ReLU(Rectified Linear Units ,修正线性单元)f(x)=max(0,x),函数曲线如图11(a)深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第9张图片

  2. LReLU:为了避免ReLU神经单元在训练时可能会“死亡” 现象.**LReLU(Leaky Rectified Linear Unit)**激活函 数使神经元在整个训练过程中能持续得到更新

  3. PReLU(Parametric Rectified Linear Unit )
    α是个随机 变量,训练时它在给定范围随机取值,α=0时, PReLU相当于ReLU;当α取一个很小的值时,相 当于LReLU.

2.2.4.2 损失函数

面对特定的任务,选择合适的损失函数非常关 键.常用的损失函数有softmax函数、hinge损失函 数、contrastive损失函数、triplet损失函数等.在本 节开头已介绍过softmax函数,这里重点介绍其他 三种损失函数

  1. Hinge损失函数:在这里插入图片描述

  2. Conrtastive 损失函数常用于训练Siamese网 络.Siamese网络是由结构相同且共享权值的两个 卷积神经网络组成。conrtastive 损失函数定义如下在这里插入图片描述

  3. Triplet 网络由结构相同且共享权值的三个卷 积神经网络组成,Triplet 损失函数是最小化下式:在这里插入图片描述

深度学习——day39 综述——(2019 计算机学报)深度卷积神经网络的发展及其在计算机视觉领域的应用_张顺_第10张图片

2.2.4.3 batch normalization 基本思想

batch normalization的基本思想,通过预处理操作,让每个隐层的所有节点的激活输入分布归一化到均值为0方差为1的标准正态分布,并且均值和方差都在当前迭代的 mini- batch 样本中计算得到

3 卷积神经网络的应用

卷积神经网络是近十几年来类脑计算领域取得的一个重大研究成果,它在计算机视觉、语音识别、自然语言处理、多媒体等诸多领域都取得了巨大成
功.在计算机视觉领域的各类任务中,图像分类任务是根据图像信息中反映的不同特征,把不同类别的目标(如鸟、人、车、飞机等)区分开来,即给每幅图片分配一个语义类别标记,而目标检测是定位出某类目标在图像中出现的区域.与图像分类任务要建立图像级理解不同,图像语义理解要得到图像像素级别的目标分类结果.图片标题生成也是建立于图片的语义理解上,要求自动产生自然语言对图片的目标及目标间关系进行描述.相比于图像分类和目标检测关注于多类或单类物体目标的区分或定位,人脸识别和行人再识别任务则分别聚焦于人脸和行人的身份辨识.另外一种任务———图像超分辨率,能够提供更清晰的图像以及更多的图像细节,为高层视觉任务提供更好的输入.
本节将重点介绍卷积神经网络在图像分类、目标检测、人脸识别、行人再识别、超分辨率、人体动作识别以及图像检索的最新研究进展.

4 视觉认知的理论启示

人类视觉系统是至今为止所知的功能最强大和完善的生物视觉系统,是人脑感知外部环境的最主要方式,人类获取外部世界的信息约70%来源于视
觉.利用非凡的脑信息处理能力,人类能够快速高效地从客观世界的杂乱场景中抽取有效信息,分析感兴趣的目标或区域,形成对视觉场景内容的高度理解和认知.神经网络的研究与人类视觉的研究密切相关,借鉴人类视觉认知机制的相关计算理论,是未来研究提升神经网络性能的一个方向.

5 展望

人工神经网络是由基本的数学计算单元及其交互联接构成的一种网络计算结构,用来模拟人脑中信息的处理过程,让机器通过学习训练机制主动获取数据中所蕴含的规律.本文围绕其中的一种学习模型———深度卷积神经网路,介绍了现阶段提升深度卷积网络性能的技术方法和在计算机视觉领域内的应用,并分析了人脑视觉机制的特点和对当前计算模型的一些理论启示.尽管当前深度卷积网络较传统机器学习方法有了很大的提高,但不可忽略的是,它们与人脑视觉系统还是有非常大的差距,从根本上并没有解决视觉认知的根本问题.未来基于深度卷积神经网络的类脑智能研究仍有许多亟待解决的问题与挑战:

  1. 借鉴视觉认知的研究成果,改进神经网络
    的模型结构
  2. 基于无监督式特征学习的研究
  3. 利用海量增加的数据进一步提高卷积神经网络的特征学习能力
  4. 优化神经网络模型,降低计算复杂度
  5. 研究卷积神经网络的迁移和泛化能力

你可能感兴趣的:(深度学习,cnn,计算机视觉)