VDL-第一节理论概要

第一章:深度学习理论(一)

目录

Ⅰ概述

一、定义

二、发展现状

三、人工神经网络基础

Ⅱ 单层神经网络(单层感知器)

一、网络描述

二、模型训练

三、存在问题

Ⅲ 多层神经网络(多层感知器)

一、网络描述

二、模型训练

三、误差反向传播算法


Ⅰ概述

一、定义

人脑神经网络 VS 人工神经网络(大脑皮层的一个神经元拿来研究分析,但还是差得远)

二、发展现状

图像分类、目标检测和识别、图像分割、图像描述

三、人工神经网络基础

1、人工神经元的基本结构和功能

① 加权:对一个单元有很多的输入,重要性不一样,各给权重

② 求和:加起来

③ 激励:激励函数来确定给出怎样的输出

加偏置和加阈值是一个意思

2、激励函数

① 可能的无限域变换指定到有限范围输出

VDL-第一节理论概要_第1张图片

问题:为何需要非线性的激励函数?

答:两层线性网络等效于单层的,只是为两个加权矩阵的乘积。要用到多层效果就要用非线性

② 常用的激励函数 ReLU

VDL-第一节理论概要_第2张图片

 本质是分段线性,前向计算简单,偏导简单,不容易发生梯度消失和发散问题,关闭左边网络变得稀疏。

3、拓扑结构

分类①

单层:输入输出,偏置为一的话为增广

多层:理论上单隐层可以实现复杂的非线性函数,但是需要的节点数目指数,所以要去研究多层

分类②

前馈网络:

反馈网络:输出作为一部分重新输入,直到稳定

VDL-第一节理论概要_第3张图片

http://colah.github.io/(把网络的图画的很清晰)

Ⅱ 单层神经网络(单层感知器)

一、网络描述

① 网络结构

②数学描述 (加权求和在做激励的过程)

VDL-第一节理论概要_第4张图片

③学习任务 

线性单元

二、模型训练

①学习任务 

② 线性单元:激励函数线性函数,处处可微。最小二乘法可解出权重w即可学习。

VDL-第一节理论概要_第5张图片

 

③ 线性单元训练:规则(梯度下降法)

a 损失函数:训练出来的结果和真实值的偏差的平方和(加个二分之一是为了求导时可以约掉)

 b 梯度:求导就变成梯度了              

 c 权重修正量:沿着负梯度方向移动,加上步长(每次移动的长度)

                     VDL-第一节理论概要_第6张图片

     δ定义为t-z  叫作敏感度或者误差

注:修正量两个负号抵消了

     损失函数→梯度→权重的修正,到稳定的时候就选好了

     梯度下降法:不断更新权重,后一次的权重是前一次权重沿着梯度移动η这么多的距离,直到相邻两次的权重小于某个阈值

④ 非线性单元定义:激励函数为非线性函数,且处处可微

⑤ 非线性单元训练:规则(梯度下降法)l

     非线性训练不同在于要用一个激励函数来表示,所以用到链式法则

                    VDL-第一节理论概要_第7张图片

⑥ 线性与非线性对比,其实是一样 只不过线性的导数为1.

正向时加权和wx

反向反过来算加权和即权重修正量

VDL-第一节理论概要_第8张图片

⑦非线性激励函数的求导sigmod

⑧ 随机梯度下降(单样本)更新算法

  每次只用一个样本

梯度下降(批量)更新算法

   走一个但不更新,累计,这一批走完后再更新

三、存在问题

①单层感知器无法解决线性不可分的分类问题

Ⅲ 多层神经网络(多层感知器)

一、网络描述

① 网络结构

② 数学描述

VDL-第一节理论概要_第9张图片

前两层也可看成是单层感知器,输出又作为后一层的输入

 ③ 学习任务

VDL-第一节理论概要_第10张图片

 和单层一样,希望

二、模型训练

三、误差反向传播算法

① 基本原理

用输出后的误差来估计前一层的误差,再估计更前一层的误差,一层一层反传,从而获得所以,所以信号是正向传,误差是反向传。

算法核心是梯度下降法

先回顾以下法则:
                                为输入×误差

开始推导,记住参数符号。

VDL-第一节理论概要_第11张图片

隐含层--输出层

VDL-第一节理论概要_第12张图片

输入层--隐含层

VDL-第一节理论概要_第13张图片

 算好后更新权重 (随机和批量) 

VDL-第一节理论概要_第14张图片

 将数据分成不同批(batch-size),在批内按批量更新算法更新网络权重,在批与批之间则按随机更新算法来更新网络权重

② 网络设置

a 网络层数:有经验性的,可以调参试试

b 各层节点数:输入层:取决于维度

                     隐含层:

                     输出层:取决于输出的类型

 c 输入数据预处理:数据增广(裁剪旋转加噪声)

d 训练停止准则(防止过拟合)

e 参数:初始权重:随机选或用特定的方法MSRA等

               学习率:大小收敛慢

                权重衰减:防止网络出现过拟合

                VDL-第一节理论概要_第15张图片

③存在问题

a 无法训练:网络麻痹:加权和在sigmoid饱和区---梯度小---权重调整慢

                    梯度消失与梯度爆炸:层数深,反传越来越小或者越来越深

                    局部最优解

b 训练时间过长:初始值不合适(一开始就陷入局部极小在坑里)

                            学习率不合适(持续震荡或者步长太小导致损失几乎不变)

 

你可能感兴趣的:(深度学习,神经网络,人工智能)