卷积神经网络初学者必看文章

第一篇

卷积神经网络(CNN)新手指南


引言

卷积神经网络:听起来像是生物与数学还有少量计算机科学的奇怪结合,但是这些网络在计算机视觉领域已经造就了一些最有影响力的创新。2012年神经网络开始崭露头角,那一年Alex Krizhevskyj在ImageNet竞赛上(ImageNet可以算是竞赛计算机视觉领域一年一度的“奥运会”竞赛)将分类错误记录从26%降低到15%,这在当时是一个相当惊人的进步。从那时起许多公司开始将深度学习应用在他们的核心服务上,如Facebook将神经网络应用到他们的自动标注算法中,Google(谷歌)将其应用到图片搜索里,Amazon(亚马逊)将其应用到产品推荐服务,Pinterest将其应用到主页个性化信息流中,Instagram也将深度学习应用到它们的图像搜索架构中。

卷积神经网络(CNN)新手指南

然而最经典的,或者说最流行的神经网络使用范例是将其用于图像处理领域。提到图像处理,本文主要介绍的是如何使用卷积神经网络来进行图像分类。

问题空间

图像分类是将输入图像(猫、狗等)进行分类输出或者将其分类成最能描述图像特征的类别的任务。对于人类来说,认知是我们出生之后就学会的第一个技能,也是作为成年人来说非常自然和轻松的技能。我们可以毫不犹豫迅速识别出我们周围的环境以及物体,当我们看到一张图片或者观察周遭环境时,大部分时间我们都能马上对场景做出判断并且给每个物体都打上标识,这些甚至都不需要刻意去观察。这些技能能够迅速识别其模式,从我们以前的经验中做出推论,然后将其运用至不同的图片或者环境中——这些都是我们与机器不同的地方。

卷积神经网络(CNN)新手指南

输入与输出

当计算机看到一张图片时(即输入一张图片),它所看到的是一系列的像素值。根据图片的分辨率与大小,计算机将看到的是一个32×32×3的数字阵列(3指代的是RGB—颜色值)。我们稍微将一下这个,假设我们有一张480 x 480的JPG格式图片,它的表达阵列即为480 x 480 x 3。这些数字中的每一个值都可以从0取到255,它描述了在这一点上的像素强度。这些数字虽然对于我们进行图像分类时没有任何意义,但其却是计算机在图像输入时唯一获取的数据。这个理念就是你给电脑指定相关数据排列,它将图像是一个特定的类别的可能性进行输出(如80—猫,15—狗,05—鸟等)。

我们希望电脑做什么

现在我们了解到问题是在输入和输出上,让我们来考虑如何解决这个问题。我们希望电脑能做到的是在所有的给定图像中分辨出不同的类别,它能找到那些“狗之所以是狗”或者“猫之所以是猫”的特性。这个就是在我们的头脑中潜意识里进行认知识别的过程,当我们看到一张狗的图像时,我们能够将其分类因为图像上有爪子或者四条腿等明显的特征。以类似的方式计算机能够进行图像分类任务,通过寻找低层次的特征如边缘和曲线,然后运用一系列的卷积层建立一个更抽象的概念。这是卷积神经网络应用的一个总体概述,接下来我们来探讨下细节。

生物联系

首先要稍微普及下一点背景知识,当你第一次听到卷积神经网络这个词时,你也许会想这是是不与神经科学或者生物学有关?恭喜你,猜对了一部分。卷积神经网络的确从生物学上的视觉皮层得到启发,视觉皮层有微小区域的细胞对于特定区域的视野是十分敏感的。

1962年,Hubel和 Wiesel发现大脑中的部分神经元只对一定的方向的边缘做出回应。例如,当暴露在垂直边缘或者一些当水平或对角线边缘时,一些神经元才会做出回应。Hubel和 Wiesel发现,所有这些神经元都被架构在一个柱状结构中,这样的架构使它们能够产生视觉感知。系统中的特定成员可以完成特定任务这种理念(神经细胞在视觉皮层中寻找特定的特征)也能很好地应用在机器学习上,这也是卷积神经网络的基础。

架构

对于卷曲神经网络更详细的介绍是将图片通过一系列的卷积、非线性、池(采样)、全连接层,然后得到一个输出。正如我们前面所说的,输出是一个类或者一个图像类别的可能性概率。现在,困难的部分是了解每一层的任务。

第一层—数学

卷积神经网络的第一层是卷积层,第一件事是你要记住卷曲层的输入时什么。像我们之前提到的,输入的是一个32×32×3的系列像素值。解释卷积层的最好方式是想象一个手电筒正在图像的左上方进行照射,假设手电照射的区域是5 x 5的范围。再想象下这个手电筒在输入图像的各个区域进行滑动。在机器学习术语中,这个手电筒叫做过滤器(有时候也称为神经元或者核心),它照射着的区域被称为接受场。这个过滤器也是一系列的数据(这些数据被称为权重或者参数)。必须提到的是这个过滤器的深度必须是和输入的深度相同(这样才能保证数学正常工作),所以这个过滤器的尺寸是5×5×3。现在,让我们先拿第一个位置的过滤器为例。由于过滤器在输入图像上是滑动或卷积的,它是相乘的值在滤波器的原始图像的像素值(又名计算元素的乘法),这些乘法全部相加(从数学上讲,这将是75次乘法总和)。所以现在你有一个数字。请记住,这个数字只是当过滤器在图像的左上角时才有代表性,现在我们在每一个位置上重复这个过程。(下一步将过滤器移动到右边的1个单位,然后再向右移动1个单位,等等),每一个输入层上独特的位置都会产生一个数字。将过滤器滑动完所有位置的,你会发现剩下的是一个28×28×1的系列数字,我们称之为激活图或者特征图。你得到一个28×28阵列的原因是有784个不同的位置,一个5×5的过滤器可以适配一个32×32的输入图像,这组784个数字可以被映射到一个28×28阵列。

卷积神经网络(CNN)新手指南


目前我们使用两个5 x 5 x 3的过滤器,我们的输出量将是28×28×2。通过使用更多的过滤器,我们能够更好地维持空间尺寸。在数学层面上来说,这些是在一个卷积层中进行的任务。

第一层—高阶视角

让我们从高阶角度来谈谈这个卷积层的任务,这些过滤器中每个都可以被认为是特征标识符。当我说特征时,我说的是如直边、简单的颜色和曲线等。思考一下,所有的图像都有同样的最简单的特征。我们的第一个过滤器是7×7×3,而且是一个曲线探测器。(在这一部分让我们忽略一个事实,过滤器是3个单位深的,只考虑顶部过滤器的深度和图像。)作为一个曲线检测器,过滤器将有一个更高的数值且有曲线的形状的像素结构(记住关于这些过滤器,我们考虑的只是数字)。

卷积神经网络(CNN)新手指南


现在,让我们回到数学可视化部分。当我们在输入的左上角有了这种滤波器后,它会在哪个区域的过滤器和像素值之间计算乘积。现在让我们以一个我们要分类的图像为例,把我们的过滤器放在左上角。

卷积神经网络(CNN)新手指南


记住,我们需要做的是使用图像中的原始像素值在过滤器中进行乘积。

卷积神经网络(CNN)新手指南


基本上在输入图像中,如果有一个形状是类似于这种滤波器的代表曲线,那么所有的乘积累加在一起会导致较大的值!现在让我们看看当我们移动我们的过滤器时会发生什么。

卷积神经网络(CNN)新手指南


检测值竟然要低得多!这是因为在图像中没有任何部分响应曲线检测过滤器。记住,这个卷积层的输出是一个激活图。因此,在简单的情况下一个过滤器的卷积(如果该过滤器是一个曲线检测器),激活图将显示其中大部分可能是在图片中的曲线区域。在这个例子中,我们的28×28×1激活图左上方的值将是6600,这种高值意味着很可能是在输入中有某种曲线导致了过滤器的激活。因为没有任何东西在输入使过滤器激活(或更简单地说,在该地区的原始图像没有一个曲线),其在我们的激活图右上方的值将是0。记住,这仅仅只是一个过滤器。这个过滤器将检测线向外和右边的曲线,我们可以有其他的曲线向左或直接到边缘的过滤器线条。过滤器越多,激活图越深,我们从于输入中获取的信息也就越多。

声明:在这一节中描述的过滤器是简化的,其主要目的是描述在一个卷积过程中的数学过程。在下图中你会看到一些对训练过的网络中第一个卷积层的过滤器的实际显示示例,尽管如此,主要的论据仍然是相同的。

卷积神经网络(CNN)新手指南


进一步深入网络

现在展示一个传统的卷积神经网络结构,还有其他层在这些层之间穿插转换。强烈建议那些有兴趣的读者去了解他们的功能和作用,但一般来说他们提供的非线性和尺寸留存有助于提高网络的鲁棒性,同时还能控制过度拟合。一个经典的卷积神经网络架构看起来是这样的:

卷积神经网络(CNN)新手指南


然而,最后一层是非常重要的内容,不过我们将在后面提到。让我们退后一步,回顾一下我们目前提到的东西。我们谈到了第一个卷积层的过滤器被设计用来探测。他们检测到低阶的特征如边缘和曲线。正如想象的那样,为了预测图像的类型,我们需要神经网络能够识别更高阶的特征,如手、爪子、耳朵。让我们考虑经过第一层卷积层后网络的输出是什么,这将是一个28×28×3的体量(假设我们使用三个5×5×3过滤器)。当穿过另一个卷积层时,卷积层的第一输出成为第二卷积层的输入,这有难以视觉化想象。当我们谈论第一层时,输入的只是原始图像。然而,当我们谈论第二个卷积层时,输入是第一层的结果激活图(S)。因此,每一层的输入基本上是描述某些低阶特征在原始图像中的位置。现在当你应用一组过滤器(通过第二卷积层),输出将被激活且代表更高阶的特征。这些特征的类型可能是半圆(曲线和直线边缘的组合)或方形(几个直边的组合)。当通过网络、更多的卷积层,可以激活地图,代表更多和更复杂的特征。在神经网络的结束,可能有一些激活的过滤器,表示其在图像中看到手写字迹或者粉红色的物体时等等。另一个有趣的事情是当你在网络往更深的地方探索时,过滤器开始有越来越大的接受场,这意味着他们能够从一个更大的区域或者更多的原始输入量接收信息。

全连接层

现在我们可以检测到这些高阶特征,锦上添花的是在神经网络的末端连接一个全连接层。这层基本上将一个输入量(无论输出是卷积或ReLU或池层)和输出一个N是程序选择类别的N维向量,具体过程如下图所示。这个全连接层的工作方式是,它着眼于前一层的输出(代表高阶特征的激活图),并确定哪些功能是最相关特定的类。例如如果该程序预测,一些图像是一只狗,它在激活图中会有高的值,代表高阶特征如一个爪子或4条腿等。类似地,如果该程序是预测一些图像是鸟的功能,它在激活图中会有高阶值,代表高阶特征如如翅膀或喙等。

卷积神经网络(CNN)新手指南


训练过程

训练工程作为神经网络的一个部分,我之前故意没有提到,因为它有可能是最重要的一部分。阅读时你可能会遇到有很多问题,例如第一个卷积层中过滤器如何知道寻找边缘和曲线?全连接层如何知道激活图在哪里?每一层的过滤器如何知道有什么样的值?计算机能够调整其过滤值(或权重)的方式是通过一个称为反向传播的训练过程。

在我们介绍反向传播之前,我们必须先回顾下谈谈神经网络运行所需要的是什么。在我们出生的那一刻,我们的思想是全新的,我们不知道什么是猫,什么是鸟。类似地,在卷积神经网络开始之前,权重或过滤器的值是随机的,过滤器并不知道去寻找边缘和曲线,在更高阶的层过滤器不知道去寻找爪子和喙。然而当我们稍微大了一点之后,我们的父母和老师给我们展示了不同的图片和图像,并给了我们一个相应的标签。给图像以标签这个想法既是卷积神经网络(CNNs)的训练过程。在讲到它之前,让我们稍微介绍下我们有一个训练集,其中有成千上万的狗,猫和鸟类的图像,每一个图像有一个标签对应它是什么动物的图片。

反向传播可以分为4个不同的部分:前向传播、损失计算、反向传播、权重更新。在前向传播的过程中,你需要一个数字阵列为32×32×3的训练图像,并将其传递通过整个网络。在我们的第一个训练例子中,所有的权重或过滤器的值被随机初始化,输出可能是类似[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]的东西,基本上是一个不能优先考虑任何数字的输出。目前权重的网络是无法寻找那些低阶的功能,因此也无法对分类可能性作出任何合理的结论。这就到了反向传播中的损失计算部分。我们现在使用的是训练数据,此数据有一个图像和一个标签。比方说,第一个输入的训练图像是一个3,则该图像的标签将是[ 0 0 1 0 0 0 0 0 ]。损失计算可以按许多不同的方式定义,但常见的是MSE(均方差)—½倍(实际预测)的平方。

卷积神经网络(CNN)新手指南


假设变量L等于这个值,正如你想象的,对于第一组训练图像来说损失将是非常高的。现在,让我们更直观地来进行思考。我们想得到一个点的预测标签(ConvNet的输出)作为训练相同的训练标签(这意味着我们的网络预测正确)。为了实现则这个,我们要尽量减少我损失量。可视化在微积分上只是一个优化问题,我们需要找出哪些输入是(在我们的例子中的权重)最直接导致网络的损失(或错误)所在。

卷积神经网络(CNN)新手指南


这是一个dL/DW的数学等价,其中W是在一个特定层的权重。现在我们要做的通过网络是执行一个反向传播过程,检测哪个权重损失最大并且寻找方法来调整它们使损失降低。一旦我们将这个计算过程进行完,就可以到最后一步—权重更新。把所有的过滤器的权重进行更新,使它们在梯度方向上进行改变。

卷积神经网络(CNN)新手指南


学习速率是由程序员选择的一个参数。一个高的学习率意味着更多步骤是在权重更新部分,因此它可能需要更少的时间为最佳的权重在模型上进行收敛。然而学习率太高,可能会导致跨越太大而不够精准达到最佳点。

卷积神经网络(CNN)新手指南


前向传播、损失计算、反向传播、参数更新的过程也称为一个epoch。程序会对于每一个固定数量的epoch、每个训练图像重复这一过程。在最后一个训练例子中完成了参数更新后,网络应该都训练的足够好了,各层的权重也应该调参正确了。

测试

最后要来测试我们的卷积神经网络是否工作,将不同的图片和标签集通过卷积神经网络,将输出结果与真实值进行对比,即可测试出其是否正常运行。

业界如何使用卷积神经网络

数据,数据,数据。给一个卷积神经网络的更多的训练数据,可以做的更多的训练迭代,也就能实现更多的权重更新,对神经网络进行更好的调参。Facebook(还有Instagram)可以使用数以亿计的用户目前的所有照片,Pinterest可以使用在其网站上的500亿的信息,谷歌可以使用搜索数据,亚马逊可以使用每天数以百万计的产品购买数据。

现在你知道他们是如何使用这些的魔法了,有兴趣的话可以自己尝试一下。

第二篇



卷积神经网络初学者必看文章_第1张图片

引言

本文将进一步探讨有关卷积神经网络的更多细节,注:以下文章中部分内容较为复杂,为了保证其简明性,部分内容详细解释的研究文献会标注在后。

步幅和填充

让我们看回之前的转换层,在第一部分中我们提到过过滤器、接受场。现在,我们可以通过改变2个主要参数来校正每一层的行为。在选择过滤器大小之后,我们也必须选择“步幅”和“填充”。

步幅控制着过滤器如何进行卷积。在第一部分中我们有提到一个例子,过滤器围绕输入体量通过一次移动一个单位进行卷积。过滤器移动的总量即步幅。步长通常以一个方法进行设置使输出量是一个整数,而不是一个分数。让我们看看一个例子,想象一个7×7输入体量,一个3×3过滤器(出于简化角度考虑忽略第三维度),另外还有一个步幅1。这个就是我们习惯的情况。

 卷积神经网络初学者必看文章_第2张图片

是不是和之前的一样?你还可以尝试猜测下当步幅增加到2,输出量会发生什么情况。

 卷积神经网络初学者必看文章_第3张图片

因此,正如你所看到的那样,接受场正在以2个单位进行移动,同时输出量也会减少。注意如果我们试图将我们的步幅设置为3,那么其在间距和确保接受场适合的输入量两个方面会出现问题。通常情况下,如果程序员希望接受场重叠更少以及更小的空间尺寸的话,他们通常会增加步幅。

现在我们来接着关注填充,在正式开始之前,让我们设想一个场景。当你将三个5×5×3的过滤器应用到一个32×32×3的输入体量中时会发生什么?

注意空间维度会降低。当我们持续应用卷积层时,体量的大小将减少得比我们想的快。在我们神经网络的早期层中,我们要保存尽可能多的原始输入信息,以便我们可以提取这些低阶特征。我们想要应用同样的卷积层,但我们想将输出量保持在32 x 32 x 3。要做到这个,我们可以将大小为2的零填充(zero padding)应用到该层。零填充(zero padding)在边界周围填充了值为零的输入量。如果我们考虑大小为2的零填充(zero padding),那么这将导致在一个36×36×3输入量。

 卷积神经网络初学者必看文章_第4张图片

如果有1的步幅并且将零填充(zero padding)的大小设置为

 卷积神经网络新手指南之二

K是过滤器大小,输入和输出量将会一直保持同样的空间维度

对于任何给定的卷积层输出大小的计算公式

 卷积神经网络新手指南之二

O是输出大小,K是过滤器大小,P是填充,S是步幅。 

选择超参数

我们怎么确定需要用多少层、多少卷积层、过滤器的大小是什么,或者步幅和填充的值?这些都是重要的问题,并且没有一套所有的研究人员都在使用的标准。这是因为神经网络在很大程度上取决于你所拥有的数据类型。数据大小因为图像的复杂性、图像处理任务的类型以及更多因素而千差万别。当你看着自己的数据集时,选择超参数的一种方式是发现在一个适当的范围创造图像抽象的正确组合。

修正线性单元(ReLU)层

在每个卷积层后,习惯在其后马上添加一个非线性层(或激活层)。这一层的目的是将非线性引入系统,基本上是在卷积层进行线性运算(只是元素的乘法和累加)。在过去都是像tanh 或者sigmoid的线性算法,但研究人员发现ReLU层效果更好,因为网络训练速度能加快很多(因为计算效率)且精度没有显著差异。它也有助于缓解消失的梯度问题,这是因为网络训练较低层的速度非常缓慢,梯度通过不同的层级指数下降。ReLU层的采用的函数f(x)= max(0,x)所有值的输入量。基本上,这一层将所有的负激活变成了0。这一层提高了模型的非线性特性,且整体网络不影响卷积层的接受场。感兴趣的还可以参看深度学习之父Geoffrey Hinton的论文Geoffrey Hinton

 池化层(Pooling Layers)

经过一些ReLU层之后,程序员可以选择池化层,它也被称为下采样层。在这一类别中,也有几种层可供选择,但maxpooling(最大池化层)是最受欢迎的。它需要一个过滤器(通常大小2x2)和一个相同的步幅长度,然后将其应用在过滤器卷积周边每一个分区的输入和输出的最大量处。

卷积神经网络初学者必看文章_第5张图片

池层的其他选项(pooling layers)还有是平均池(average pooling)和 L2-norm pooling。这层背后的原因是一旦我们知道一个特定的特性是其原始输入量(将有一个高激活值),那么其确切位置不重要的。可以想象,这一层大大降低了输入体积的空间维度(长度和宽度的变化,但不是深度)。这样做有两个主要目的,首先是参数或权重的量减少了75%,从而降低了计算成本。其次,它能够控制过度拟合。这个术语是指当一个模型针对训练例子如此调整的话,它是不能够概括验证和测试集的。过度拟合的特征是有一个模型能得到100%或99%的训练集,但只有50%的测试数据。

降层(Dropout Layers)

降层在神经网络中有一个十分特别的功能。在上一节中,我们讨论了过度拟合的问题。在训练之后,网络的权重被调整到给定的训练样本上,这样的话当给定新的样本时神经网络的表现并不好。降层这个理念在自然中过分单纯的。

降层通过在前向传播过程中将其设置为零在该层中随机“抛弃”一些激活,就是这么简单。在这个过程中这样做有什么好处呢?在某种程度上,它迫使网络变成“多余”的。即使一些激活在过程中被抛弃,神经网络也应该能够对特定样本提供正确的分类或者输出。它确保网络对于训练数据不会过于“合适”,从而有助于缓解过度拟合的问题。重要的一个这一层只在训练过程中使用,而不是在测试中。

网络层网络

网络层网络指的是一个使用1 x 1大小的过滤器的卷积层。现在,第一眼你可能会想知道为什么这种类型的层会有帮助,因为接受场通常是大于他们映射空间的。然而,我们必须记住这些1x1卷积跨度有一定的深度,所以我们可以认为它是一个1 x 1 x N的卷积,其中N是该层中过滤器应用的数量。实际上这层是执行一个N-D 元素级的相乘,其中N是输入量成层深度。

分类,定位,检测,分割

在这节中我们使用第一部分曾提到过的例子,来看一下图像分类任务。图像分类任务是将输入图像识别并输入一系列的图像类别的过程,然而当我们将对象定位作为任务时,我们的工作不仅是得到一个分类标签,另外还需要划定一个对象在图像中的范围。

 卷积神经网络初学者必看文章_第6张图片

同样还有对象检测任务,需要将图像中所有对象进行图像定位任务。因此,在图像中将会有多个划定范围还有多个分类标签。

最后,还有对象分割任务,对象分割任务指的是输出一个类的标签,以及输入图像中的每一个对象的轮廓。

卷积神经网络初学者必看文章_第7张图片

迁移学习(Transfer Learning)

目前在深度社区的一个常见的误解是:没有谷歌那样的数据量的话,不可能建立一个有效的深度学习模型。虽然数据确实是创建神经网络的一个重要组成部分,但是迁移学习的理念能够有助于减少数据的需求。迁移学习是经过一个预先训练的模型(网络的权重和参数已通过一个大数据集或者别人训练),并且用你自己的数据集进行“微调”的过程。这个理念就是预先训练的模型将作为一个特征提取器,将网络的最后一层删除并用自己的分类器替换它(取决于您的问题空间)。然后冻结所有其他层的权重,并正常训练网络(冻结层意味着在梯度下降/优化过程中能够不改变权重)。

让我们来弄清楚为什么这样会有用,举例来说我们在ImageNet上的预先训练模型(ImageNet是一个数据集,包含超过1000类的1400万幅图像)。当我们考虑网络的低层时,我们知道他们会检测到边缘和曲线等特征。现在除非你有一个非常独特的问题空间和数据集,你的网络也会需要检测曲线和边缘。与其通过一个随机初始化的权重来训练整个网络,我们可以使用预先训练的(并冻结)模型的权重,并专注于更重要的(更高的)层级的训练。如果你的数据集与ImageNet等完全不同,那么你就要多培养你的层并冻结一些低级层。

转自:https://blog.csdn.net/tealex/article/details/52075338

卷积神经网络初学者必看文章_第8张图片

引言

本文将进一步探讨有关卷积神经网络的更多细节,注:以下文章中部分内容较为复杂,为了保证其简明性,部分内容详细解释的研究文献会标注在后。

步幅和填充

让我们看回之前的转换层,在第一部分中我们提到过过滤器、接受场。现在,我们可以通过改变2个主要参数来校正每一层的行为。在选择过滤器大小之后,我们也必须选择“步幅”和“填充”。

步幅控制着过滤器如何进行卷积。在第一部分中我们有提到一个例子,过滤器围绕输入体量通过一次移动一个单位进行卷积。过滤器移动的总量即步幅。步长通常以一个方法进行设置使输出量是一个整数,而不是一个分数。让我们看看一个例子,想象一个7×7输入体量,一个3×3过滤器(出于简化角度考虑忽略第三维度),另外还有一个步幅1。这个就是我们习惯的情况。

 卷积神经网络初学者必看文章_第9张图片

是不是和之前的一样?你还可以尝试猜测下当步幅增加到2,输出量会发生什么情况。

 卷积神经网络初学者必看文章_第10张图片

因此,正如你所看到的那样,接受场正在以2个单位进行移动,同时输出量也会减少。注意如果我们试图将我们的步幅设置为3,那么其在间距和确保接受场适合的输入量两个方面会出现问题。通常情况下,如果程序员希望接受场重叠更少以及更小的空间尺寸的话,他们通常会增加步幅。

现在我们来接着关注填充,在正式开始之前,让我们设想一个场景。当你将三个5×5×3的过滤器应用到一个32×32×3的输入体量中时会发生什么?

注意空间维度会降低。当我们持续应用卷积层时,体量的大小将减少得比我们想的快。在我们神经网络的早期层中,我们要保存尽可能多的原始输入信息,以便我们可以提取这些低阶特征。我们想要应用同样的卷积层,但我们想将输出量保持在32 x 32 x 3。要做到这个,我们可以将大小为2的零填充(zero padding)应用到该层。零填充(zero padding)在边界周围填充了值为零的输入量。如果我们考虑大小为2的零填充(zero padding),那么这将导致在一个36×36×3输入量。

 卷积神经网络初学者必看文章_第11张图片

如果有1的步幅并且将零填充(zero padding)的大小设置为

 卷积神经网络新手指南之二

K是过滤器大小,输入和输出量将会一直保持同样的空间维度

对于任何给定的卷积层输出大小的计算公式

 卷积神经网络新手指南之二

O是输出大小,K是过滤器大小,P是填充,S是步幅。 

选择超参数

我们怎么确定需要用多少层、多少卷积层、过滤器的大小是什么,或者步幅和填充的值?这些都是重要的问题,并且没有一套所有的研究人员都在使用的标准。这是因为神经网络在很大程度上取决于你所拥有的数据类型。数据大小因为图像的复杂性、图像处理任务的类型以及更多因素而千差万别。当你看着自己的数据集时,选择超参数的一种方式是发现在一个适当的范围创造图像抽象的正确组合。

修正线性单元(ReLU)层

在每个卷积层后,习惯在其后马上添加一个非线性层(或激活层)。这一层的目的是将非线性引入系统,基本上是在卷积层进行线性运算(只是元素的乘法和累加)。在过去都是像tanh 或者sigmoid的线性算法,但研究人员发现ReLU层效果更好,因为网络训练速度能加快很多(因为计算效率)且精度没有显著差异。它也有助于缓解消失的梯度问题,这是因为网络训练较低层的速度非常缓慢,梯度通过不同的层级指数下降。ReLU层的采用的函数f(x)= max(0,x)所有值的输入量。基本上,这一层将所有的负激活变成了0。这一层提高了模型的非线性特性,且整体网络不影响卷积层的接受场。感兴趣的还可以参看深度学习之父Geoffrey Hinton的论文Geoffrey Hinton

 池化层(Pooling Layers)

经过一些ReLU层之后,程序员可以选择池化层,它也被称为下采样层。在这一类别中,也有几种层可供选择,但maxpooling(最大池化层)是最受欢迎的。它需要一个过滤器(通常大小2x2)和一个相同的步幅长度,然后将其应用在过滤器卷积周边每一个分区的输入和输出的最大量处。

卷积神经网络初学者必看文章_第12张图片

池层的其他选项(pooling layers)还有是平均池(average pooling)和 L2-norm pooling。这层背后的原因是一旦我们知道一个特定的特性是其原始输入量(将有一个高激活值),那么其确切位置不重要的。可以想象,这一层大大降低了输入体积的空间维度(长度和宽度的变化,但不是深度)。这样做有两个主要目的,首先是参数或权重的量减少了75%,从而降低了计算成本。其次,它能够控制过度拟合。这个术语是指当一个模型针对训练例子如此调整的话,它是不能够概括验证和测试集的。过度拟合的特征是有一个模型能得到100%或99%的训练集,但只有50%的测试数据。

降层(Dropout Layers)

降层在神经网络中有一个十分特别的功能。在上一节中,我们讨论了过度拟合的问题。在训练之后,网络的权重被调整到给定的训练样本上,这样的话当给定新的样本时神经网络的表现并不好。降层这个理念在自然中过分单纯的。

降层通过在前向传播过程中将其设置为零在该层中随机“抛弃”一些激活,就是这么简单。在这个过程中这样做有什么好处呢?在某种程度上,它迫使网络变成“多余”的。即使一些激活在过程中被抛弃,神经网络也应该能够对特定样本提供正确的分类或者输出。它确保网络对于训练数据不会过于“合适”,从而有助于缓解过度拟合的问题。重要的一个这一层只在训练过程中使用,而不是在测试中。

网络层网络

网络层网络指的是一个使用1 x 1大小的过滤器的卷积层。现在,第一眼你可能会想知道为什么这种类型的层会有帮助,因为接受场通常是大于他们映射空间的。然而,我们必须记住这些1x1卷积跨度有一定的深度,所以我们可以认为它是一个1 x 1 x N的卷积,其中N是该层中过滤器应用的数量。实际上这层是执行一个N-D 元素级的相乘,其中N是输入量成层深度。

分类,定位,检测,分割

在这节中我们使用第一部分曾提到过的例子,来看一下图像分类任务。图像分类任务是将输入图像识别并输入一系列的图像类别的过程,然而当我们将对象定位作为任务时,我们的工作不仅是得到一个分类标签,另外还需要划定一个对象在图像中的范围。

 卷积神经网络初学者必看文章_第13张图片

同样还有对象检测任务,需要将图像中所有对象进行图像定位任务。因此,在图像中将会有多个划定范围还有多个分类标签。

最后,还有对象分割任务,对象分割任务指的是输出一个类的标签,以及输入图像中的每一个对象的轮廓。

卷积神经网络初学者必看文章_第14张图片

迁移学习(Transfer Learning)

目前在深度社区的一个常见的误解是:没有谷歌那样的数据量的话,不可能建立一个有效的深度学习模型。虽然数据确实是创建神经网络的一个重要组成部分,但是迁移学习的理念能够有助于减少数据的需求。迁移学习是经过一个预先训练的模型(网络的权重和参数已通过一个大数据集或者别人训练),并且用你自己的数据集进行“微调”的过程。这个理念就是预先训练的模型将作为一个特征提取器,将网络的最后一层删除并用自己的分类器替换它(取决于您的问题空间)。然后冻结所有其他层的权重,并正常训练网络(冻结层意味着在梯度下降/优化过程中能够不改变权重)。

让我们来弄清楚为什么这样会有用,举例来说我们在ImageNet上的预先训练模型(ImageNet是一个数据集,包含超过1000类的1400万幅图像)。当我们考虑网络的低层时,我们知道他们会检测到边缘和曲线等特征。现在除非你有一个非常独特的问题空间和数据集,你的网络也会需要检测曲线和边缘。与其通过一个随机初始化的权重来训练整个网络,我们可以使用预先训练的(并冻结)模型的权重,并专注于更重要的(更高的)层级的训练。如果你的数据集与ImageNet等完全不同,那么你就要多培养你的层并冻结一些低级层。

你可能感兴趣的:(机器学习过客,卷积神经网络)