神经网络的定义:"神经网络是由具有适应性的简单单元(最基本的成分,即神经元模型)组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应";
"M-P 神经元模型":神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过"激活函数" (响应函数) 处理以产生神经元的输出。至今在用的模型;在实际中常用Sigmoid函数作为激活函数。
感知机:由两层神经元组成(输入层接收外界输入信号后传递给输出层, 输出层是M-P 神经元,亦称"阔值逻辑单元")能容易地实现逻辑与、或、非运算,但不能解决非线性可分问题(如异或问题); 感知机只有输出层神经元进行激活函数处理,即只拥有层功能神经元 ,其学习能力非常有限。
隐层(隐含层):输出层与输入居之间的一层神经元;
只需包含隐层,即可称为多层网络
神经网络的学习过程:根据训练数据来调整神经元之间的"连接权" 以及每个功能神经元的阈值;换言之,神经网络"学"到的东西,蕴涵在连接权与阈值中。
误差逆传播算法(BP):BP 算法的目标是要最小化训练集 D 上的累积误差
由于其强大的表示能力, BP 神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升;
有两种策略常用来缓解BP网络的过拟合:
1."早停": 将数据分成训练集和验证集,训练、集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值.
2."正则化":基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分;
全局最小与局部极小
用E表示神经网络在训练集上的误差,则它显然是关于连接权 w 和阈值的函数;此时,神经网络的训练过程可看作一个参数寻优过程,即在参数空间中,寻找一组最优参数使得 E 最小.
局部极小解:参数空间中的某个点,其邻域点的误差函数值均不小于该点的函数值;
全局最小解:参数空间中所有点的误差函数值均不小于该点的误差函数值.
两者对应的 E(ω*;θ*) 分别称为误差函数的局部极小值和全局最小值
参数寻优过程中是希望找到全局最小;
使用最为广泛的参数寻优方法:基于梯度的搜索;
其他常见神经网络
竞争型学习(competitive learning) 是神经网络中一种常用的无监督学习策略,在使用该策略时,网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被撤活,其他神经元的状态被抑制;这种机制亦称"胜者通吃" (winner-take-all) 原则。
RBF网络(径向基函数网络) :是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合.
ART网络 (自适应谐振理论网络):该网络由比较层、识别层、识别阔值和重置模块构成;竞争型学习的重要代表。
识别阈值对ART 网络的性能影响:
识别阈值较高时,输入样本将会被分成比较多、比较精细的模式类;
识别阈值较低时,输入样本将会被会产生比较少、比较粗略的模式类;
ART 比较好地缓解了竞争型学习中的"可塑性-稳定性窘境";
可塑性是指神经网络要有学习新知识的能力,而稳定性则是指神经网络在学习新知识时要保持对旧知识的记忆;
这就使得ART 网络具有一个很重要的优点:可进行 增量学习 或 在线学习。
SOM网络(自组织映射)网络):是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维) ,同时保持输入数据在高维空间的拓扑结构。
SOM的训练目标:为每个输出层神经元找到合适的权向量,以达到保持拓扑结构的目的.
结构自适应网络
一般的神经网络模型通常假定网络结构是事先固定的,训练的目的是利用训练样本来确定合适的连接权、阈值等参数;与此不同,结构自适应网络则将网络结构也当作学习的目标之一,并希望能在训练过程中找到最利合数据特点的网络结构。
级联相关网络 :结构白适应网络的重要代表;有两个主要成分"级联"和"相关":
级联是指建立层次连接的层级结构.
相关是指通过最大化新神经元的输出与网络误差之间的相关性来训练相关的参数.
''递归神经网络" 允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为输入信号。
Elman网络:最常用的递归神经网络之一
Boltzmann机 : 一种"基于能量的模型",其神经元分为两层: 显层与隐层.
显层用于表示数据的输入与输出,
隐层则被理解为数据的内在表达.
深度学习
典型的深度学习模型就是很深层的神经网络。
通过多层处理,逐渐将初始的" 低层"特征表示转化为" 高层" 特征表示后, 用"简单模型" 即可完成复杂的分类等学习任务;由此可将深度学习理解为进行 "特征学习" 或" 表示学习";
无监督逐层训练:多隐层网络训练的有效手段;其基本思想是每次训练一层隐结点,训练时将上一层隐结点的输出作为输入,向本层隐结点的输出作为下一层隐结点的输入,这称为"预训练"; 在顶训练全部完成后,再对整个网络进行"微调" 训练;
"权共享":一种节省训练开销的策略;