精通数据科学笔记 深度学习

这一章主要介绍了ANN,CNN,RNN,LSTM,VAE,GAN


利用神经网络(ANN)识别数字

MNIST图集:0~9的手写数字图片,包含60000张训练图片和10000张测试图片,存储格式特殊,需要专门的程序解析

防止过拟合的惩罚项

ANN是很复杂的模型,非常容易发生过拟合,通用的方法是加入惩罚项,常用的惩罚项有三种:

\bar{L}=L+0.5\lambda \left \| W \right \|^{2}

\bar{L}=L+\lambda \left \| W \right \|_{1}

\bar{L}=L+\lambda [lw\left \| W \right \|_{1}+(1-lw)\left \| W \right \|^{2}]

防止过拟合之Dropout

在训练模型的每一步中随机暂时剔除一些神经元,在预测时,使用完整的网络,同时需要将相应的神经元输出扩大到原来的1/p倍,P是每个神经元被保留的概率。


卷积神经网络(CNN)

ANN丢失了像素之间的位置关系,CNN可以捕捉像素之间的位置关系和模拟人眼对图像的模糊处理

CNN的结构为:输入层,卷积层,池化层,全连接层。其中,卷积层和池化层是为了提取图像特征,全连接层相当于输出层


递归神经网络(RNN)

当前神经元的输出不但能影响后面神经元的状态,还能通过网络影响它前面的神经元。这相当于在神经网络里建立起时间或上下文的概念。

生产中应用广泛的一种递归神经网络:长短期记忆(LSTM),被广泛用于语音识别,自然语言处理和机器翻译等领域。

记长期记忆为C_{t},短期记忆为H_{t},模型输入为X_{t},则长期记忆的更新机制为

若记忆力度为R_{t},则

R_{t}=f(W_{t}\circ X_{t}+U_{r}\circ H_{t-1}+b_{r} )

若更新力度为I_{t},表示多大比例的长期记忆将转换成短期记忆,候选新增记忆为NC_{t}

I_{t}=f(W_{i}\circ X_{t}+U_{i}\circ H_{t-1}+b_{i})

NC_{t}=tanh(W_{n}\circ X_{t}+U_{n}\circ H_{t-1}+b_{n})

长期记忆的更新公式为

C_{t}=R_{t}\circ C_{t-1}+I_{t}\circ NC_{t}


非监督学习

VAE=神经网络+生成式模型

VAE属于全连接网络,网络结构通常是对称的,输入层和输出层的神经元个数相同,模型训练的目标是让输入层与输出层越相似越好。

通过神经网络的前半部分,找到相应的隐藏状态,这一步称为编码;然后根据得到的隐藏状态和后半部分神经网络得到还原之后的数据,这一步称为解码,理想情况下,解码之后得到的数据近似等于训练数据,通过这样的模型,我们可以得到数据不可观测的类别(数据的隐藏状态)

GAN

你可能感兴趣的:(精通数据科学笔记 深度学习)