sdlypyzq

[置顶] 人工神经网络

1 人工神经网络简介

生物学动机

人工神经网络ANN的研究一定程度上受到了生物学的启发，生物的学习系统由相互连接的神经元（neuron）组成的异常复杂的网格。而人工神经网络由一系列简单的单元相互密集连接构成的，其中每一个单元有一定数量的实值输入，并产生单一的实数值输出。
据估计人类的大脑是由大约 1011 次方个神经元相互连接组成的密集网络，平均每个神经元与其他 104 个神经元相连。神经元的活性通常被通向其他神经元的连接激活或抑制。

2 神经网络表示

1993年的ALVINN系统是ANN学习的一个典型实例，这个系统使用一个学习到的ANN以正常的速度在高速公路上驾驶汽车。ANN的输入是一个30*32像素的网格，像素的亮度来自一个安装在车辆上的前向摄像机。ANN的输出是车辆行驶的方向。

3 适合神经网络学习的问题

实例是用很多属性-值表示的
目标函数的输出可能是离散值、实数值或者由若干实数属性或者离散属性组成的向量
训练数据可能包含错误
可容忍长时间的训练
可能需要快速求出目标函数值
人类能否理解学到的目标函数不是重要的。

4 感知器

感知器以一个实数值向量作为输入，计算这些输入的线性组合，然后如果结果大于某个阈值，就输出1，否则输出-1。

o (x 1, x 2, . . ., x n) = {1 i f (w 0 + w 1 x 1 + . . . + w n x n) - 1 o t h e r w i s e

假设输入空间（特征空间）是

X⊆Rn ，输出空间是

Y={−1,+1} 。输入

x⊆X 是实例的特征向量，对应于输入空间的点；输出

y⊆Y 表示实例的类别。由输入空间到输出空间的如下函数称为感知机：

f (x) = s i g n (w \cdot x + b)

其中w b称为感知机的模型参数，w叫做权值（weight）或者权值向量（weight vector），b叫做偏置（bias）。

w⋅x 表示w和x的内积。sign是符号函数：

s i g n (x) = {+ 1, x > = 0 - 1, x < = 0

感知机是一种线性分类模型，它的假设空间是定义在特征空间中的所有线性分类模型。
感知机有如下几何解释：线性方程

w \cdot x + b = 0

对应于特征空间的一个超平面S。这个超平面把特征空间划分成两部分，位于两部分的点分别被分为正负两类。

5 多层网络和反向传播算法

5.1 可微阈值单元

多个线性单元的连接仍然是产生的是线性函数，而我们更选择选择能够表征非线性函数的网络。
感知器单元的不连续阈值使它不可微，所以不适合梯度下降算法。

我们需要的是这样一种单元，它的输出是输入的非线性函数，并且输出是输入的可微函数。sigmoid单元是一种非常类似感知器的单元，并且它基于一个平滑的可微阈值函数。

o = σ (w * x)

σ (y) = 1 1 + e - y

σ 经常被称为Sigmoid函数或者logistic函数。它的输出范围是0到1，随输入单调递增。因为这个函数把非常大的输入值映射到一个小范围的输出，它经常被称为Sigmoid单元的挤压函数。
sigmoid函数的导数很容易用它的输出表示。
$d σ ( y ) d y = σ (y) * (1 - σ (y))$

5.2 反向传播算法

对于一系列确定的单元互联形成的多层网络，反向传播算法可用来学习这个网络的权值。它采用梯度下降方法试图最小化网络输出值与目标值之间的误差平方。

E (w) = 1 2 \sum d \in D \sum k \in o u t p u t s (t k d - o k d) 2

其中outputs是网络输出单元的集合，

tkd 和

okd 是与训练样例

d 和第

k 个输出单元相关的输出值。
反向传播算法面临的学习问题是搜索一个巨大的假设空间，这个空间由网络中所有单元的所有可能的权值定义。
在多层网络中，误差曲面可能有多个局部极小值。梯度下降仅能保证收敛到局部极小值，而未必得到全局最小的误差。
包含两层sigmoid单元的前馈网络的反向传播算法：

创建具有 nin 个输入， nhidden 个隐藏单元， nout 个输出单元的网络。
初始化所有的网络权值为小的随机值（-0.05-0.05）
在遇到终止条件前：
对于训练样例train_sample中的每一个(x, t)（x网络输入值的向量，t网络输出值的向量）
1. 把实例 x 输入网络，并计算网络中每个单元 u 的输出 o
2. 对于网络的每一个输出单元 k ，计算它的误差项 δk $δ k = o k (1 - o k) (t k - o k)$
3. 对于网络的每个隐藏单元 h ，计算它的误差 δh $δ h = o h (1 - o h) \sum k \in o u t p u t s w k h δ k$
4. 更新每个网络权值 wji $w j i = w j i + Δ w j i$
  其中 δji=ηδjxji

梯度下降更新法则依照以下三者来更新每一个权：学习速率 η ，该权值涉及到输入 xji ，这个单元输出的误差。
为了直观的理解它，先考虑网络的每一个输出单元k的 δk 是怎样计算的。 δk 与delta法则中的 (tk−ok) 相似，但乘上了挤压函数的导数 ok(1−ok) 。
每个隐藏单元h的 δh 具有相似的形式。因为训练样例仅对网络的输出提供了目标值，所有缺少直接的目标值来计算隐藏单元的误差值。因此采取下边间接办法计算隐藏单元的误差项：对受隐藏单元h影响的每一个单元的误差 δh 进行加权求和，每个误差 δk 权值为 wkh ， wkh 就是从隐藏单元h到输出单元k的权值。这个权值刻画了隐藏单元h对于输出单元k的误差应“负责”的程度。

5.3 反向传播算法的推导

随机的梯度下降算法迭代处理训练样例，每次处理一个。对于每个训练样例 d ，利用这个样例的误差 Ed 的梯度修改权值。换句话说，对于每一个训练样例 d ，每个权 wji 增加 Δwji 。

Δ w j i = - η \partial E d \partial w j i

E d (w) = 1 2 \sum k \in o u t p u t s (t k - o k) 2

xji = 单元 j 的第 i 个输入
wji = 与单元 j 的第 i 个输入相关联的权值
netj=∑wjixji
oj = 单元 j 计算出的输出
tj = 单元 j 的目标输出
σ = sigmoid函数
outputs= 网络最后一层的单元的集合
Downstream(j) 单元的直接输入中包含单元 j 的输出的单元的集合

权值 wji 仅能通过 netj 影响网络的其他部分。所以我们用链式规则得到：

\partial E d \partial w j i = \partial E d \partial n e t j \partial n e t j \partial w j i = \partial E d \partial n e t j x j i

剩下的任务就是为 ∂Ed∂netj 导出一个方便的表达式。

输出单元的权值训练法则
$\partial E d \partial n e t j = \partial E d \partial o j \partial o j \partial n e t j$

（1）考虑公式中的第一项（ ∂Ed∂oj ）

\partial E d \partial o j = \partial o j 1 2 \sum k \in o u t p u t s (t k - o k) 2

除了当

k=j 时，所有输出单元k的导数

∂∂oj(tk−ok)2 为0。
所以我们不必对多个输出单元求和，只需设

k=j

\partial E d \partial o j = \partial \partial o j 1 2 (t j - o j) 2 = (t j - o j) \partial ( t j - o j ) \partial o j = - (t j - o j)

（2）考虑公式中的第二项（ ∂oj∂netj ）
既然 oj=σ(netj) ，导数 ∂oj∂netj 就是sigmoid函数的导数。

\partial o j \partial n e t j = \partial σ ( n e t j ) \partial n e t j = o j (1 - o j)

由上可得：

\partial E d \partial n e t j = - (t j - o j) o j (1 - o j)

输出单元的随机梯度下降法则：

Δ w j i = η \partial E d \partial w j i = η (t j - o j) o j (1 - o j) x j i

2. 隐藏单元的权值训练法则
对于网络中的内部单元或者隐藏单元的情况，推导

wji 必须考虑

wji 间接地影响网络输出，从而影响

Ed 。

netj 只能通过

Downstream(j) 中的单元影响网络输出，再影响