本文是对由邵天兰主讲的知乎Live 深度学习中的常见名词术语(图像方向) 的笔记整理。本文使用到了来自Live Slides以及互联网的一些图片,如有侵权将第一时间删除。
很推荐大家听听这场Live(链接在上面),通俗易懂,能构建起对图像方向深度学习的大致概念。
本节名词列表:
分类(classify)
分类器(classifier)
MNIST
CIFAR10
ImageNet
类内方差(intra-class variance)
类间方差(inter-class variance)
函数(function)
拟合(fit)
数据驱动(data-driven)
深度学习在图像方向上应用最基本的问题就是分类问题:我们给计算机看一个图像,希望它告诉我们图像里是什么。
为了解决分类问题,我们希望能够做出分类器,而在今天,我们希望通过机器学习的手段做出分类器。
MNIST是一个手写数字图片数据集,包含60000张训练样本和10000张测试样本。
Cifar-10由10个分类的60000张32*32的RGB彩色图片构成,包含50000张训练样本,10000张测试(交叉验证)样本。
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。提供了标注完成的超过1400万的图像,其中至少一百万个图像还提供了边界框。ImageNet包含2万多个类别。
为了考察分类问题的难易程度,我们来看类内方差与类间方差。
类内方差是指同一类物体之间的差异,类内方差越大,分类难度越大。例如上面的MNIST数据集中的所有“0”,虽然形态各异,但是差异较小,而上面Cifar-10数据集中的所有“猫”,因为品种、毛色等等方面的区别,就体现出较大的类内差异。显然后者较前者的类内方差更大,完成后者的分类的难度要高于前者。
类间方差指的是不同类物体之间的差异,类间方差越大,分类难度越低。例如,区分“猫”和“房子”要比取分“猫”和“狗”要容易的多。
分类问题可以理解为让计算机解决类似于由“手写数字8的图片”到“标签8”的映射问题,而我们需要找出的就是完成这一映射的函数。
找到这个“函数”的过程我们通常称为拟合出这个函数。
让机器从数据中发现规则、规律,拟合出我们想要的函数,从而解决分类问题,而非使用手动的规则。
本节名词列表
特征(feature)
特征向量(feature vector)
特征工程(feature enginerring)
下面给出一个手动设计的“王二狗”分类器。首先输入一个“王二狗”,然后我们对“高”、“帅”、“富”三个特征进行提取,根据特征提取的结果,我们就可以做出判别。
要对图像进行分类,本质上是要通过图像的某些特征对图像进行判别。
在王二狗的例子中,我们提取了他的三个特征:“高”、“帅”、“富”。
将提取到的多个特征放在一起,就叫做特征向量。
找到特征的过程一般称为特征工程。
本节名词列表
初级特征(low-level feature)
高级特征(high-level feature)
手工设计的特征(hand-crafted feature)
判断王二狗只需要一个手动设计的分类器即可,而在图像的分类上则需要借助更先进的手段,例如深度学习,这是因为图像分类的一个显著难点就是特征难以提取。
图像上最基础的特征就是初级特征,例如:圆弧、线等等。
高级特征是例如“有眼睛”、“有脸”、“有腿”这样的高层次显著特征。
机器视觉的特征非常难以设计,尤其是介于初级特征与高级特征中间的中级特征,例如:眼睛、腿、脸是怎样用低级特征组合出来的。传统的机器视觉算法通过人工的方式设计了很多特征,例如HOG,SIFT,SURF等,取得了一定的成果,但是也存在瓶颈。
本节名词列表
可分(separable)
特征提取(feature extraction)
特征学习(feature learning)
表示学习(representation learning)
例如:我与王二狗是否有钱这一特征,是容易区分的,称之为可分;而让机器看长得一模一样的双胞胎照片,则缺乏能够将二者取分开来的特征,称之为不可分。
能否找到足够的特征让机器能够完成分类是十分关键的一点。
将特征提取出来的过程。深度学习可以自动完成这一过程。
深度学习具备自动完成特征提取,称其为具备特征学习的能力。
用数字/向量/矩阵等方法来表达现实世界中的物体,而且这种表达方式有利于后续的分类或者其他决策问题。
特征的可分性决定分类器的上限,分类方法(神经网络?随机森林?)决定接近这个上限的程度。
深度学习的关键之处在于能够进行特征学习,自行根据训练数据学习出特征。
在分类问题上,如果数据量并不是非常大、类别不是非常多、而且具备非常好的人工提取feature,那么神经网络相对于随机森林、支持向量机等传统方法并没有非常明显的优势。而深度学习在更大的数据量下、处理更复杂的任务时,能够发挥长处,如下图所示:
本节名词列表
突触(synapse)
特征提取(V1, Primary Visual Cortex)
深度学习的部分做法可以从大脑的工作机制中得到印证和启发,例如:分级特征提取、从数据中学习、神经元的感受野等,但是大部分的工作仍然与人脑的关系较远。
一个神经元的输入端。
人眼看到的信息首先传到初级视皮层(V1)进行特征提取,然后再传到V2等进行更高级的特征提取。
本节名词列表
输入(input)
输出(output)
神经元(neuron)
加权和(weighted sum)
连接权重(weights)
偏置(bias)
神经元最基本的工作原理就是加权和。
下面给出一个神经元的工作过程:
基本写法: y = x 1 w 1 + x 2 w 2 + x 3 w 3 y=x_1w_1+x_2w_2+x_3w_3 y=x1w1+x2w2+x3w3
求和写法: y = ∑ x i w i y=\sum{x_iw_i} y=∑xiwi
向量写法: y = x ⋅ w y=x\cdot w y=x⋅w
神经元的任务,就是将各项输入乘上连接权重并求和,得到加权和后输出。
如果将加权和再加上一个常数项b,则这个常数项就称为偏置。
深度学习所使用的神经网络可以看作成千上万神经元进行组合,每一个神经元的功能都非常简单,但是组合起来之后可以实现复杂的功能,这一点与人脑十分类似。
本节名词列表
非线性(non-linearity)
线性可分(linearly seperable)
激活函数(activation function)
在二维状况下,如左图,画一条直线可以将图中的蓝色和黄色的部分分开,这种情况为线性可分。而如右图,则无法通过一条简单的直线对蓝色黄色两部分进行分割,这种情况为线性不可分。
如果网络中的每一个神经元都是线性的,那么最后的总效果也只能是线性的,这样我们的网络没有办法处理线性不可分的问题。因此,我们要为网络引入非线性模块,这个非线性模块就是下图中的 f ( ) f() f(),我们称之为激活函数。
下面给出一张包含激活函数的神经元图:
基本写法: y = f ( x 1 w 1 + x 2 w 2 + x 3 w 3 ) y=f(x_1w_1+x_2w_2+x_3w_3) y=f(x1w1+x2w2+x3w3)
求和写法: y = f ( ∑ x i w i ) y=f(\sum{x_iw_i}) y=f(∑xiwi)
向量写法: y = f ( x ⋅ w ) y=f(x\cdot w) y=f(x⋅w)
本节名词列表
Sigmoid
ReLU
TanH
函 数 表 达 式 : f ( x ) = 1 1 + e − x 函数表达式:f(x)=\frac{1}{1+e^{-x}} 函数表达式:f(x)=1+e−x1
特点:
函 数 表 达 式 : f ( x ) = { 0 , x < 0 x , x ≥ 0 函数表达式:f(x)=\begin{cases} 0, &x<0\cr x, &x\geq0\end{cases} 函数表达式:f(x)={0,x,x<0x≥0
特点:
函 数 表 达 式 : t a n h ( x ) = 2 1 + e − 2 x − 1 函数表达式:tanh(x)=\frac{2}{1+e^{-2x}}-1 函数表达式:tanh(x)=1+e−2x2−1
本节名词列表
全连接层(fully-connected layer, FC, Dence)
把许多个神经元排布在一层,就构成了层(layer)。
每一个神经元的输入都是上一层所有神经元的输出。王二狗的例子中,框出的这一层,所有的输入都来自于上一层中的输出,所以为全连接层。
本节名词列表
隐含层(hidden layer)
输入层(input layer)
输出层(output layer)
上图中,中间两层即为隐含层。
上图中最左边接收输入的层即为输入层。
上图中最右边的即为输出层。
所谓深度学习,就是网络越来越深,层数越来越多。
本节名词列表
卷积神经网络(convolutional neural network, CNN)
局部性(locality)
如果把全连接层直接应用于图像,将导致网络参数极多,网络极大,难以实际使用。而且,将全连接层直接应用于图像的方案是没有必要的,因为图像的特征具有局部性。对此我们采用的方案是:卷积结构。
下图给出了一张Le-Net5卷积神经网络的示意图:
包含卷积计算及深度结构的前馈神经网络。卷积神经网络与之前提到的网络一样,也是一层一层的神经元,但所使用的连接方式不是之前提到的全连接,而是下面将讲到的卷积结构。
从人脑的结构出发,研究证明,人脑中的神经元不会与之前的所有的神经元相连接,例如,初级视皮层上的神经元不会与视网膜上的每一个神经元,而是V1上的每一个神经元只看到视网膜上的一小部分。
本节名词列表
卷积(convolution)
卷积核(kernel)
滤波器(filter)
特征图(feature map)
下面给出了一张卷积操作的示意图
其中蓝色的部分可以看作输入的图片,灰色的移动部分我们将其称为卷积核,而右边的绿色的部分则是这个卷积操作的输出。我们让卷积核在输入上“扫”过去,就会得到一个输出。卷积核在每个位置,把卷积核上的每一个数字和输入上对应位置的数字进行相乘,再把乘积加起来,就得到了输出。这一过程本质上依然是加权和,以上图为例,加权和的输入即为蓝色部分的数字,权重即为灰色的卷积核上的数字,得到的输出即为绿色部分。
下面再给出一张卷积的示意图,展示和卷积计算的过程。
下面给出一张卷积操作的示意图,去掉了数字,便于理解。
那么我们为什么要进行卷积操作呢?我们可以将卷积理解为一个特征提取的过程,而卷积核表述了我们要提取的特征,最后的结果我们称之为特征图。下面用一个例子来说明:
上图的左侧有一个图像中“竖直直线”的示意图,其特征是水平方向上有数值突变,而竖直方向上没有变化。我们分别用两个不同的卷积核“卷”过这幅图片,卷积核A卷过的结果是,在竖线处出现了一列数字2,而卷积核B卷过的结果是全为0。这里的卷积核A和B分别代表了我们要找的不同特征,卷积核A表示找竖线,而卷积核B表示找横线,最终得出了不同的结果。
卷积操作完成了一个“滤波”的过程,将特定的图像特征提取出来,所以卷积核也常称为滤波器。
下图展示了一个对图像进行卷积操作的过程。
通过训练,卷积层可以学习到更加复杂的特征以完成更加复杂的任务:
本节名词列表
池化/采样(pooling)
降采样/下采样(down sampling)
平均池化(average pooling)
最大池化(max pooling)
平移不变性(translation invariant)
如上图所示,中间4x4的矩阵,经过池化,就变成了一个2x2的矩阵。
池化层可以看作采样,通常会降低层的长度与高度(最常见的是长宽减半)。
上图右上方展示的是平均池化的过程,他对每一个2x2的小区域求平均值,得出新的结果,例如绿色部分的结果15,为原矩阵中绿色部分的平均值。
上图右下方展示的是最大池化的过程,他取每一个每一个2x2的小区域中的最大值作为新的结果,例如绿色部分的结果21,为原矩阵中绿色部分的最大值。
历史上平均池化曾起到重要的作用,而如今一般使用最大池化,可以理解为最大池化能够保留图像中“最有用”的信息。
经过上述的过程,图像的分辨率下降了,所以我们称之为降采样/下采样。
池化产生了一定的不变性,可以认为是一种选取最有用信息的操作。例如上图中第一行第二列位置的8如果产生微小变化,例如变成了9,经过最大池化,绿色部分的结果仍为21。这使我们的模型不会因为输入的微小变化产生区别很大的结果。
本节名词列表
核尺寸(kernal size)
感受野(receptive field)
步幅(stride)
填充(padding)
在卷积操作这一节中展示的动图中,卷积核是“一格一格地”卷过去的,我们称步幅为1。
而当步幅增大到2时:
可以发现当步幅为1时,输出与输入的规模是一致的。当步幅大于1时,输出的规模比输入小。
卷积层的步幅一般为1,池化层的步幅一般大于1,所以池化层完成了降采样的过程。
上面几张图中,周围围着的一圈0即为填充,当我们在卷积的时候,卷积核在边界时可能会超出输入的范围,这时我们需要在周围加上一圈填充。
在本节的几张图中,卷积核的尺寸为3x3,而在池化/采样一节中,核的尺寸为2x2。
由神经科学而来的词汇,原来指例如初级视皮层上一个神经元接收视网膜上信息的范围。在卷积/池化中我们也借用了这样的词汇。一般核尺寸越大它的感受野就越大。
本节名词列表
深度(depth)
实际上,每一层的输入是三维的(长宽卷积核种类的数量),输出也是三维的(长宽卷积核种类的数量)。而这个第三维的参数就是深度。
对于输入的图片A,经过一次操作,在C1处得到了六张“方片”,每一张“方片”都是一个卷积核(滤波器)所得到的特征图。
本节名词列表
独热编码(one hot encoder)
概率分布(probability distribution)
SoftMax
在最开始的王二狗的例子中,我们就用到了独热编码:我们将王二狗分为两种状态(“抱紧”或“滚粗”),在最后一层中用了与状态数量一致的神经元,即两个神经元,而且仅有一种状态为1,其他为0,即结果只为“抱紧”或“滚粗”,两者不可能同时为真。
直观来说独热编码就是,最后一层中,有多少个状态就有多少神经元,而且只有一个状态为1,其他全为0。
而在MNIST的例子中,我们要识别10种不同的手写数字,我们在最后一层中有10个神经元(或11个神经元,即10个数字+不是数字),且只有一种状态概率为1(或接近于1),其他全为0,这也是运用了独热编码。
每项概率都大于等于0,且加起来等于1。
神经网络的输出常常使用独热编码,但是最后一层神经元的输出未必符合概率分布,对此我们使用SoftMax解决
本节名词列表
VGG(VGG16/VGG19)
VGG是Oxford的Visual Geometry Group在ILSVRC 2014上的相关工作,有两种结构,分别是VGG16和VGG19,两者并没有本质上的区别,只是网络深度不一样,16或19为卷积层+全连接层的数量,不包含池化层和SoftMax,因为他们没有需要训练的参数。
上图所示的即为VGG的示意,可以看到网络不断地进行卷积、池化,最后经过全连接层和SoftMax处理得出结果。
本节名词列表
批标准化(batch normalization)
正则化(regularizer)
如果每层神经元的输入在训练过程中分布保持一致,网络将更容易收敛,而现有每层神经元的输入来自上一层,而上一层的输出在训练的过程中分布会变化,对此我们的解决方法是,强行让上一层的输入在一组数据中符合一定要求(均值为0,输入为1),这一过程成为批标准化,这是Google的一项重要工作。
正则化方法是指向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法。
本节名词列表
ResNet
残差(residual)
跨层连接(skip connection)
上图的最上方是ResNet的网络示意图。
深度残差网络ResNet的提出是CNN图像史上的一件里程碑事件,ResNet在ILSVRC和COCO 2015上取得了5项第一其作者何凯明也因此摘得CVPR2016最佳论文奖。
这个网络拥有跨层的连接,区别于前面的第一层→第二层→第三层这样的走法,在这个网络中,会有第二层的输入直接接到第五层,再与第四层的结果加起来再往下走的跨层连接过程,实现了残差的学习。
本节名词列表
串接(concatenation)
GoogLeNet
Inception
上图为GoogLeNet的示意图。
从左往右看,这个网络依然是一层一层的排布结构,但是在每一层上又有好几个组成部分,也就是说这个网络的宽度就不是1了。
下图所示的inception结构是GoogLeNet的基本组成部分:
我们可以看到在inception结构中有1x1的卷积、3x3的卷积、5x5的卷积、3x3的池化等等。相当于原来只有一层,而我们现在有了多层并将结果串接起来。对此的直观理解可以是:我们的卷积层在提取特征时究竟采用几x几的卷积核效果最好是比较难确定的,于是我们在这里把各种卷积核的大小都进行尝试。
这里特别讲一下看似没有意义的1x1的卷积,之前已经提到过,卷积层不仅有长和宽,它是一个三维的概念。我们的图像可能不止有一个通道,例如我们常见的RGB色彩模式,就有三个通道,从下图可以看出,卷积操作实际上会把每个通道的计算结果进行叠加,所以1x1的卷积并非是无意义的操作。
####深度学习的本质困难
本节名词列表
模型参数(model parameters)
过拟合(overfitting)
泛化能力(generalization)
核弹厂(NVidia)
在王二狗的例子当中,我们一共有八个神经元,每个神经元有三个参数需要调整,那么总共就有24个参数需要调整,可以想象在上面提到的更复杂的情况中,将会有更多的参数出现。机器学习的参数越多,模型就越复杂。
参数多的优势在于,它使机器能够完成更加复杂的学习任务。
与此同时,参数多也带来许多困难。首先,训练数据和参数数量相比太少,极易发生过拟合。比如在下图中,我们要将蓝色和红色的点区分开来,黑色的线条较好的将两者分割开来了,而绿色的线虽然实际上完美地区分了蓝色和红色的点,但实际上没有学习到红蓝两方的本质特征,缺乏泛化能力。
这好比小明在做习题集时没有理解习题的本质内容,只是在背答案,当遇到新的题目时,如果题目数据发生变化,小明就不能很好的应对。
其次参数太多,训练的难度大、效率低。
对此我们的对策是:第一,收集海量数据(例如ImageNet所做的工作)
第二,爆计算力(堆核弹),使用更强的硬件计算能力对抗复杂的训练工作。
第三,在算法中加入缓解过拟合、加快训练收敛的方法。
本节名词列表
Dropout
Noise
在上面小明背答案的例子中,显然我们可以通过如下的方式来逼小明认真学习:改变题目中的数字、随即改变选项顺序、将数学问题包装成应用题……这些方法破坏了一道题的低级特征,这样能够“逼迫”小明去发现题目的高级特征,完成真正的学习。
在深度学习领域,同样地,我们可以通过破坏数据低级不稳定的特征来“逼迫”神经网络抓住事物的本质特征。
如下图所示,训练时随机让一些神经网络输出0,相当于随机扔掉一些特征,这逼迫神经网络去学习一些更加稳定的特征,一般图像中事物的本质特征总是组合更多、更加稳定。
训练时让神经元输出加上一些噪声,为了避免在实际运用时神经网络因为一些噪声而失去作用,在训练时我们就像其中加入一些噪声,使神经网络更加稳定。
本节名词列表
训练(train)
预测(inference)
真值(ground truth)
损失函数(lost function)
成本函数(cost function)
前向传播(forward propagation)
反向传播(back propagation)
链式求导法则(chain rule)
梯度消失(gradient vanishing)
梯度爆炸(gradient exploding)
训练是指我们将训练数据喂给神经网络,并调整神经网络的参数的过程。
预测就是当我们有了一个神经网络,使用它对输入的数据进行分类等任务的过程。
下图展示了预测的过程:
下图展示了训练的过程:
真值是指监督学习中对一个数据预测结果的标准答案。真值往往由人类标注给出。
损失函数一般指对单个样本的做的损失计算,成本函数一般是数据集上总的成本和损失计算。
前向传播是指先通过已有的网络进行图像分类,得到结果的过程。反向传播指的是,根据得到的结果计算损失函数,从后至前依次调整每一层参数的过程。
链式求导法则是反向传播过程中用于调整参数时使用的法则。
反向传播的过程中会遇到许多问题,例如向前算着算着权值更新的梯度越来越接近于0,称为梯度消失,反之梯度越来越接近于无限大,称为梯度爆炸。
本节名词列表
导数(derivative)
梯度下降(gradient descent)
一个函数在某一点的导数描述了这个函数在这一点附近的变化率。
那么怎样更新网络中的参数呢?我们做的是一个让梯度下降的过程:我们希望通过梯度下降的过程找到令损失函数最小的一组参数。仿佛我们在一座山上,不知道怎样去山顶,但我们只要一直沿着坡度向上的方向往上走,就可以到达山顶。
下图展示了梯度下降的过程,可以将红色的圆环理解成等高线,我们不断沿登高线垂直方向走,就可以到达山顶。
下图在函数图像上展示了梯度下降的过程。
本节名词列表
局部极小值(local minimum)
全局最小值(global minimun/absolute minimum)
随机梯度下降(SGD)
冲量(momentum)
学习率(learning rate)
学习率衰减(learning rate decay)
在做梯度下降的过程中会遇到一些问题,例如,我们找到的极小值可能只是局部范围之内的最小值,而不是整个函数范围内的最小值(全局最小值)。
我们仍然把梯度下降的过程想象成过山坡,在下面这张图中,红点在函数图像上下降到一个“小坑”里就不动了,这个小坑是局部的最低点,但不是全局的最低点,这就是我们上面讲到的局部极小值,它陷入了局部最优。
这里我们引入冲量的概念,可以想象成过山坡时有一股冲劲使得红点能够冲过小坑,进入全局的最小点,下面是引入冲量之后的梯度下降过程:
学习率控制着我们基于损失梯度调整神经网络权值的速度,学习率越小,沿着损失梯度下降的速度越慢。看似使用小的学习率可以避免错过任何局部最优解,但也意味着要花更多时间来收敛,尤其是如果我们处于曲线的至高点。而学习率设置过大,就会出现振荡,无法收敛,如下图:
新权值 = 当前权值 - 学习率 × 梯度
学习率大,会发散,学习率小,会变慢。那么我们能否让学习率有大小变化(先大后小)呢?这一过程就是学习率衰减。如果我们反复让学习率变大变小变大变小,就称为循环学习率衰减。
面对我们上面提到的找“谷底”的问题,我们有不同的Solver(优化算法),下图中可以看到不同的优化算法针对同一个找谷底的问题,表现上的不同:
我们评价不同优化算法的标准就是,他们能否克服局部最优解,能否收敛、快速收敛。
本节名词列表
Fine-tuning
冻结层参数(Freeze Layers)
在实际应用中,再大数据集上的训练非常耗时,而很多问题的数据集又很小,对此,针对不同任务,图像的很多特征是相通的,可以重用在大数据集上学到的特征,具体的操作是,在大数据集上训练网络,保持卷积层不变(可选),重新初始化全连接层,再训练。
Fine-tuning就是把现成的模型进行微调然后再作少量训练,主要用于样本数量不足的情形。
冻结层参数就是上面提到的,保持部分层参数不变的操作。
下图展示了在ImageNet(1000类图片)上训练网络,fine-tune成20类图片分类问题的过程:
本节名词列表
GPU
CUDA
数据并行(data parallelism)
模型并行(model parallelism)
定点化(quantization)
剪枝(pruning)
稀疏(sparse)
卷积核全连接层参数量和运算量都非常巨大,好在它的并行度比较高,可以使用GPU或专用硬件(FPGA, ASIC)并行计算。CUDA是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。
除了并行计算以外,模型本身也有大量可以优化、简化的空间:
比如,我们刚刚提到的网络中,参数都是用浮点数进行表示的,我们可以将它定点化,方便芯片进行运算。
又如我们刚刚提到的网络中,一个神经元可能连接了一百个神经元,但实际上也许并没有必要连接这么多,我们可以对其进行剪枝,精简网络的结构。稀疏模型可以将大量的冗余变量去除,简化了模型的同时保留数据集中最重要的信息。
本节名词列表
目标检测(object detection)
语义分割(semantic segmentation)
实例分割(instance segmentation)
真正的人类视觉比图像分类复杂得多,因此还有许多重要的工作:
从分类到目标检测:RCNN, Fast RCNN, Faster RCNN, SSD, YOLO
从图片中判别及找出存在的物体。
语义分割:FCN, Mask FRCNN
不仅识别图中有什么物体,还对边界进行划分。
另外,为了将深度学习的能力下放到边缘设备上,模型小型化(SqueezeNet, ShuffleNet)成为趋势。
框架的作用:
推荐的框架:
斯坦福2017课程:Convolutonal Neural Neiworks for Visual Recognition
http://cs231n.stanford.edu
Ian Goodfellow, Yoshua Bengio, Aaron Courville 《深度学习》