Deep Learning Tutorial

大纲

  • 深度学习介绍
  • 深度学习训练的技巧
  • 神经网络的变体
  • 展望

Lecture I:概论

1.介绍深度学习

深度学习过程大体分为三个步骤:(1)定义方法(2)判断方法优劣(3)选出最佳方法


Deep Learning Tutorial_第1张图片

(1)定义方法——神经网络

深度学习可以理解为多层的神经网络。神经网络的思想来源于对于人脑的生理上的研究,人脑由数亿个神经元组成,神经元通过轴突互相连接通信。神经网络和人脑类似,存在多个层级(layer),每个层级都有多个节点(神经元neuron),层级和层级之间相互连接(轴突),最终输出结果。


Deep Learning Tutorial_第2张图片

对于神经网络的计算能力可以理解为通过一层层Layer的计算归纳,逐步的将抽象的原始数据变的具体。以图片识别为例,输入是一个个像素点,经过每层神经网络,逐步变化成为线、面、对象的概念,然后机器有能力能够识别出来。


Deep Learning Tutorial_第3张图片

(2)判断方法优劣

首先准备待训练的数据和它们的标签,最终目标是由训练数据学习而来的。
我们用学习出来的参数对测试数据进行计算,得出对应的预测(y)然后和真实的测试数据的目标值(t)进行比对,y和t之间的差距往往就是Loss。
我们评估一个方法的好坏,就是看这个Loss是不是尽可能小

Deep Learning Tutorial_第4张图片

(3)选出最佳方法

获得最佳的学习是采用梯度下降算法,作者也提到梯度下降算法存在局部最优解的问题,即找到一条最“陡峭”的路下山。人们往往认为机器无所不能,实际上更像是在一个地图上面拓荒,对周边一无所知。

神经网络计算梯度的算法是反向传播算法,简称BP。

Deep Learning Tutorial_第5张图片

2.Why Deep?

很显然,神经网络的参数越多,预测能力就越好。那么如果是同样的参数情况下,为什么层级较多的表现会更好呢?


Deep Learning Tutorial_第6张图片

作者认为深度网络可以带来模块化的好处,模块化是从数据中自动学习的。随着网络的层级变多,神经网络会将像素元素逐渐归纳出一些基本的特征,进而变成纹理,进而变成对象。


Deep Learning Tutorial_第7张图片

3.Keras

TensorFlow or Theano的接口。

Lecture II:训练方法

经过神经网络训练之后会发现两种问题:
1.训练结果很差→重新选择训练方式
2.测试结果很差→(往往由于过拟合导致)重新定义方法

Deep Learning Tutorial_第8张图片

1.优化训练方法的手段:

(1)Choosing proper loss
选择合适的Loss function,使用Cross Entropy(交叉熵)效果要优于Mean Square Error(均方差)。

(2)Mini-batch
每次训练使用少量数据而不是全量数据效率更高。

(3)New activation function
使用ReLU(线性整流函数)替代Sigmoid可以解决梯度消失的问题,可以训练更深的神经网络。网络不是越深越好

(4)Adaptive Learning Rate
可以随着迭代不断自我调整,提高学习效率。

(5)Momentum
可以一定程度上避免陷入局部最低点的问题。

Deep Learning Tutorial_第9张图片

2.避免过度拟合的方法

增加数据量是最简单的方法:创造更多的数据、给数据加噪声。

(1)Early Stopping
使用cross validation的方式,不断对validation data进行检验,一旦发现预测精度下降则停止。

(2)Regularization(Weight Decay)
参数正则化的一种方式。删除无用的联系。

(3)Dropout
通过随机去掉一些节点的连接达到改变网络形式,所以会产生出多种网络形态,然后汇集得到一个最佳结果。

(4)Network Structure
如CNN等其他形态的网络。

Lecture III: 神经网络的变体

1. 卷积神经网络(CNN) 广泛用在图像处理中

Deep Learning Tutorial_第10张图片

通常情况下,一个CNN包含多次的卷积、池化,然后Flatten,最终再通过一个深度神经网络进行学习预测。CNN在图像、语音识别取得非常好的成绩,核心的想法在于一些物体的特征往往可以提取出来,并且可能出现在图片的任何位置,而且通过卷积、池化可以大大减少输入数据,加快训练效率。

why CNN for Image?
图片中的一些模式比整张图片要小,一个神经元不需要去看见整个图片来发现这种模式,只用少量的参数来去连接小的区域即可。卷积网络的特性:某些模式比整个图片小,相同的模式出现在不同的区域。下采样像素不会改变目标。

2. 递归神经网络(RNN,Recurrent Neural Network)

Deep Learning Tutorial_第11张图片

RNN的想法是可以将hidden layer的数据存储下来,然后作为输入给下一个网络学习。这种网络的想法可以解决自然语言中前后词语是存在关联性的,所以RNN可以把这些关联性放到网络中进行学习。

Lecture IV: Next Wave

你可能感兴趣的:(Deep Learning Tutorial)