目录
前言
感知机
多层感知机(MLP)
卷积神经网络(VGG/GoogleNet/AlexNet/ResNet)
循环神经网络(RNN)
自编码器(Autoencoder)
生成对抗网络(GAN)
近些年随着大规模高质量标注数据集的出现;并行运算的发展;更好的非线性激活函数的使用;更多优秀的网络结构的发明;深度学习开发平台的发展;更多稳健的优化算法的出现等,得到快速的发展。并在语音识别,机器翻译,图像识别,AI等领域得到充分的应用。
与传统的机器学习相比,深度学习不需要人工特区特征,可以自动学习有用特征。
深度学习的核心思想:表示学习/特征学习;非线性函数逼近;端到端学习。
由输入空间到输出空间的如下函数:
称为感知机,也就是单个的神经元节点。
其中X为特征,w为特征权重,bias为偏差,y为标签。阶跃函数为激活函数,当输入X使得WX+bias>=0时(或WX>=-bias),(类似神经元激活)输出1,否则输出0。
多个神经元以全连接层次相连,这种网络也称为前馈神经网络,当网络为多层时也称为深度学习网络。
万能逼近原理:MLP能够逼近任何函数
= () = 3(3,2(2,1(1, ))
模型的参数为网络中边的权重和神经元中的偏置,记为W、b
在解决回归问题,最常用的误差为均方误差:
对于训练样本,模型预测值为
模型的目标是获取最优的权重w和bias,最小化误差E。
前馈神经网络:
链式法则计算梯度,梯度下降法更新参数。
又称BP神经网络
图像处理时由于像素多,容易导致参数爆炸,当图像大小为1024*1024,第一层复杂度O(1024*1024),全连接网络并不适用于图像。
CNN:卷积神经网络采用稀疏连接;参数共享;等变表示。适合处理网格型数据,
在计算机视觉领域获得巨大成功:物体识别,图片分类,2维网格。
全连接与稀疏连接的对比。(上:稀疏连接;下:全连接)
在自然语言处理、时间序列分析等领域不仅需要考虑当前t时刻输入还要考虑t-i(i=1-n)时刻的输入。RNN在这方面得到成功应用,如机器翻译、词性标注、词向量、语音识别、图像描述生成、时间序列分析等。使用最成功的模型为长短期记忆模型(LSTM)
Autoencoder为无监督特征学习。
输出尽量逼近输入,隐层节点通常比输入少,可用于特征提取
非线性: 表达能力比PCA更好
GAN被评价为“20年来机器学习领域最酷的想法”,其利用深度网络生成数据,也利用深度网络判别,其结构如下图。
D为判别网络,G为生成网络。
真实数据和G生成网络伪造的数据同时交由D判别网络判别。当判别网络识别出伪造的数据,优化生成网络,否则优化判别网络,这样反复优化,使得G与D网络都得到优化。