神经网络与深度学习

绪论

简单来说,人工智能先是以专家编写规则的形式取得了短暂的成功。之后由神经网络对人脑神经网络进行模拟得到了一种计算模型,兴盛了一时之后由于计算机算力限制等原因衰落。机器学习由于其可解释性强,计算量小,等原因占据了主流,特征学习和最终模型预测学习分开进行,但由于数据形式多种多样(文本、视频),深度学习的在原有机器学习基础上,将特征提取也让计算机进行自己选择,准确率更高。

机器学习

机器学习在早期的工程领域也称为模式识别。基本概念是在一组训练集中学习到一个函数能接近真实的映射关系,并将总结出来的规律推广到未观测样本上。这里的规律是人们假定数据是由一个规律产生的,模型就是人们找到真实规律后的载体。不同机器学习算法的区别在于模型、学习准则(损失函数)和优化算法的差异。其中最普遍的优化算法是梯度下降法,小批量梯度下降法拥有收敛快,计算开销小的优点,成为大规模机器学习中的主要优化算法。找规律中的参数的过程叫做参数学习或参数估计,主要有经验风险最小化,结构风险最小化,最大似然估计,最大后验估计。最大似然估计是从建模条件概率的角度进行参数估计的,比如它可以假定参数先服从高斯分布或柏松分布等,再去估计这个参数值。最大后验估计是一种参数的区间估计。为了避免过拟合,我们常在模型拟合能力和复杂度之间权衡,而偏差和方差是这个问题的度量。偏差指的是一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的拟合能力;第二项方差指模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。可用多个高方差模型的平均来降低方差。

线性模型

线性模型形式是 f ( x ; w ) = w T x + b \begin{aligned} f(\mathbf{x} ; \mathbf{w}) =\mathbf{w}^{\mathrm{T}} \mathbf{x}+b \end{aligned} f(x;w)=wTx+b。在分类问题中,由于输出的y是离散的标签, f ( x ; w ) f(\mathbf{x} ; \mathbf{w}) f(x;w)的值域是实数,因而需要引入非线性决策函数来预测输出目标,其中 f ( x ; w ) f(\mathbf{x} ; \mathbf{w}) f(x;w)也称为判别函数。

两类线性可分问题是多类分类问题的基础,常用的多类分类问题的方式是,一对其余(C个判别函数),一对一(C(C-1)/2个判别函数),以及argmax(C个判别函数,选出预测值最大的类别)。

Logistic回归是将线性函数的值域从实数映射到(0,1)之间,用来表示概率。Logictic回归也可看作是标签的对数几率,几率是样本X正反例后验概率的比例。Logictic回归采用交叉熵作为损失函数,并使用梯度下降法。Softmax回归是Logictic回归在多类分类问题上的推广,也是采用交叉熵和梯度下降的方法来更新W。感知器是一个神经元的神经网络,是一种线性分类器,其损失函数 L ( w ; x , y ) = max ⁡ ( 0 , − y w T x ) \mathcal{L}(\mathbf{w} ; \mathbf{x}, y)=\max \left(0,-y \mathbf{w}^{\mathrm{T}} \mathbf{x}\right) L(w;x,y)=max(0,ywTx)的解释是,分对的参数L=0,不参与参数更新,分错的函数错的越多L越大更新参数越多。

前馈神经网络

Sigmoid型激活函数由Logistic函数和Tanh函数,可以通过分段函数来近似,减小计算开销。其中非零中心化的输出会使得后一层神经元的输入发生偏置偏移,并进一步使得梯度下降的收敛速度变慢。
修正线性单元ReLU有好的稀疏性,能缓解Sigmoid函数梯度消失的问题,缺点是在训练时容易死亡,LeakyReLU、PReLU、ELU、Softplus可以解决神经元永远不被激活的问题。
Swish函数是一种门控激活函数,当 β = 0 \beta=0 β=0时是ReLU函数。Maxout单元是一种分段线性函数,输入的是上一层神经元的全部原始输入,整体学习输入到输出之间的非线性映射关系。

卷积神经网络

卷积运算常用语信号处理中是计算当前时刻收到的信息由当前时刻产生的信息和以前延迟信息的叠加;在图像经过卷积后,得到的结果称为特征映射,常用的卷积核(又称作滤波器)有高斯滤波器可以用来对图像进行降噪。在机器学习领域,主要会以互相关运算(不翻转卷积)来代替卷积,以减少一些不必要的操作和开销。在标准卷积定义基础上,还增加来滤波器的滑动步长和零填充来增加卷积的多样性。

CNN是一种具有局部链接、权重贡献特性的前馈神经网络。可大幅度减少卷积层和下一层之间的连接数。典型的CNN是由卷积层、汇聚层、池化层交叉堆叠而成。卷积层通常为三位结构的神经层,MND,D代表D个M*N大小的特征映射,一个特征映射代表一类抽取的图像特征,在每一层用多个不同的特征映射可以更好的表示图像特征。池化层又叫汇聚层、子采样层,作用是进行特征选择,降低特征数量,并减少参数数量。

典型的卷积神经网络结构。LeNet-5的手写数字识别系统在90年代被美国很多银行用来识别支票伤的手写数字。AlexNet是第一个现代深度卷积网络模型,采用了GPU并行训练、ReLU激活函数,Dropout,数据增强等手段,赢得来2012年ImageNet的图像分类竞赛冠军。Inception网络将多个inception模块和少量汇聚层堆叠而成的,特点是用1*1卷积减少特征映射的深度。残差神经网络将目标函数拆分成恒等函数和残差函数,残差函数更容易被学习到。

转置卷积可以将低维特征映射到高维特征,微步卷积可以实现上采样工作,大幅度特高特征维数,也就是在特征之间插入0使得步长变小。空洞卷积是一种增加输出单元感受野的方法,主要是给卷积核插入空洞来变相的增加其大小。

循环神经网络

循环神经网络是处理网络输入和当前输入与过去输出相关的网络,是具有短期记忆能力的神经网络。深层循环神经网络主要是增加同一时刻网络输入到输出之间的路径。

网络优化与正则化

主要总结优化和正则化问题。
参数初始化解决的是对称权重现象。
数据预处理是对样本进行预处理,将各个维度的特征归一化到同一个取值区间,并消除不同特征之间的相关性。其中白化是用来降低输入数据特征之间的冗余性,输入数据经白化处理后,特征相关性降低,且所有特征具有相同的方差。
逐层归一化,是解决Internal Covariate Shift,也就是由于输入分布发生来改变,其参数需要重新学习。批量归一化是对一个中间层的单个神经元进行归一化操作;层归一化是对一个中间层所有神经元进行归一化操作。
超参数优化。

注意力机制与外部记忆

注意力机制是通过自上而下的信息选择机制来过滤大量无关信息。注意力机制的计算先是在输入信息上计算注意力分布,然后根据注意力分布来计算输入信息的加权平均。注意力分布过程是,为了从N个输入向量中选择出和某个特定任务相关的信息,引入一个和任务相关的表示,称为查询向量,并通过一个打分函数计算每个输入向量和查询向量之间的相关性。注意力机制是一个软性的指针来指出相关信息的位置,指针网络是一种序列到序列模型。自注意力模型是可以动态生成不同长度的连接权重。

你可能感兴趣的:(神经网络与深度学习)