sun1398

cs231n-Lecture5

CS231N–神经网络训练

一、作业讲解

Assignment2：CNN训练作业，预训练与细调，CNN先在ImageNet进行大量数据训练，在在小批量数据中进行训练。

1. CNN的迁移学习

可以先使用CNN在比如ImageNet这样的大数据集上先进行预训练，熟练好权重和超参数，去掉最上方的分类层，看成是一个固定特征提取器
自己的数据量较少的时候可以仅仅替换最后的分类层；如果有中等规模的数据，可以再细调几层的反向传播层。
已经有人在ImageNet各种数据上进行与训练模型，caffe model zoo，设置好大量超参数
电脑的计算资源是有限的，要权衡时间与效果

2. CNN发展的历史：

(1)1957年弗兰克-罗森布拉特制作了感知机：硬件实现的、电路电子元件实现的字母识别；激活函数使用的是二阶阶梯函数，没有微分；更新函数通过设置权值来得到比较满意的结果；没有损失函数，也没有反向传播。

(2)1960年多层次感知机：依旧硬件实现；依旧没有反向传播，但是通过学习规则改变来观察是否得到更好结果；程序设计的观念升级，巨大的改变。

(3)1980年鲁姆哈特第一次提出了损失函数、反向传播、梯度下降的概念，当时反向传播训练效果并不好

(4)2006年辛顿Reinvigorated research in Deep Learning：10层无监督学习网络，一层层训练，然后集合在一起，整合起来进行反向传播。

不使用预训练的方法是可以行的，但是一定要注意初始化函数的选用
这里使用的Sigmoid激活函数，但并不是合适的，后续会将激活函数的特点
2006年也有其他很多研究，深度学习这个词也是这一年流传，神经网络的变种。

(5)2010年-2012年语音识别的领域，神经网络比传统特征提取更加有效果；2012年在机器视觉比赛方面，AlexNex远远强于其他算法

- 原因在于找到了对激活函数进行初始化的方法；GPU的出现导致的算力提升；互联网时代数据量的提升。

二、激活函数

- 激活函数是用来使得各层神经网络之间不是线性，不然多层神经网络将不起作用

1. sigmoid函数

σ (x) = 1 / (1 + e - x) σ' (x) = (1 - σ (x)) σ (x)

由于模拟了神经元饱和的情况，取值在[0,1]，是历史上最常用的激活函数。
缺点1：饱和神经元，在函数的两边梯度为0，出现梯度消失。只有在sigmoid的激活区，训练才能正常进行下去。
缺点2：sigmoid函数不是中心对称，数据预处理过程总会希望是中心对称的；sigmoid的取值落在0,1之间，经过第一层后，每层 xi 值都是正值，将会导致每梯度值总会是一个方向的正值，这样计算得到的每一层的梯度值都是一个方向，优化只会朝着一个方向逼近，优化走阶梯方向，收敛速度慢。

$f (\sum i w i x i + b)$
缺点3：exp()计算成本高、时间长

2. tanh函数

tanh (x) = 2 1 + e - 2 x - 1 tanh' (x) = 1 - tanh (x) 2

tanh相当于一个对称的sigmoid函数，是中心对称的，因此收敛效果比sigmoid好
缺点1：依旧是饱和神经元，在两边梯度为0时，依旧会出现梯度消失的现象。
缺点2：exp的计算依然耗费大量时间。

3. ReLU

max (x, 0) = {0 f o r x < 0 x f o r x \geq 0 max' (x) = {0 f o r x < 0 1 f o r x \geq 0

ReLU是线性非饱和函数，对SGD的加速效果非常明显，Alex Krizhevsky 指出有 6 倍之多。
ReLU只需要一个阈值就能够得到激活值，计算成本低。
正值的梯度值为1，只要学习率合适，那么对于优化的加速效果就会比较明显，上面的函数在两端时，梯度值下降严重，可能这就是快的原因。
缺点1：在小于0的值，梯度也为0，将没有激活作用。
缺点2：ReLU的神经元比较脆弱，训练过程中容易死掉：在初始化时神经元没有被激活；梯度值较大经过ReLU神经元，学习率太高导致训练中落入死去，导致数据多样化丢失，更新参数后，后续梯度为0.
训练方法：在进行一轮训练后，对梯度值进行检测，如果发现10%到20%的梯度死亡，那么就是学习率设置的太高

4. LeakyReLU & PReLU

f (x) = {0 .01 x f o r x < 0 x f o r x \geq 0 f' (x) = {0.01 f o r x < 0 1 f o r x \geq 0

在负值时，给予-0.01的梯度，用来解决ReLU神经元死亡问题，但有时也并不一定会起作用
当然不一定是0.01，可以是一个参数 αx 形成一个超参数。

5. Exponential Linear Units(ELU)

f (x) = {α (e (x) - 1) f o r x < 0 x f o r x \geq 0 f' (x) = {α e (x) f o r x < 0 1 f o r x \geq 0

ELU是一个0均值的函数，效果会好一些，但实际上ReLU已经够用。纯属锦上添花，可能是用来发论文的，实际上属于学术上走偏的感觉。

6. Maxout

max (w T 1 x + b 1, w T 2 x + b 1)

与众不同的函数，改变了计算的变量和计算方式，使用两组参数进行计算，形成两个超平面，求其中的最大值进行计算，求导是最大值那组参数进行梯度更新，不断缩最后的损失函数。
非线性激活函数，仍然具有分段性和高效性
ReLU和Leaky ReLU的一般形式，没有ReLU的缺点，神经元不会失活死掉。
有两组参数值，两倍参数可能觉得方法并不理想，ReLU依然是使用最广泛的。

三、数据预处理

1. Step1:数据预处理

PCA算法（主成分分析算法）：通过协方差矩阵可以求得特征向量U，然后把每个数据点，投影到这两个新的特征向量所在空间平面，把协方差矩阵变成对角矩阵；用于数据的降维。
Whiteniing算法：白化算法将协方差矩阵变成单位矩阵，用于使得数据在每一个维度都变得均匀。
过去的图像处理、机器学习中很常用，但是在深度学习中必要性降低。
PCA需要求取一个非常大的协方差矩阵，通常进行局部白化，在图像中加入一个白化过滤器，现在也不是很常用。

2. 均值中心化

对一幅图像求取均值，图像的每个像素点减去均值图像
在每个颜色通道上分别计算每个通道的颜色均值，然后通过减去每个通道的均值来进行去中心化
在深度学习中，使用这样的方法就足够，不需要过多的数据预处理，比如PCA和白化。

四、权重初始化–很重要

1. 初始化的重要性

(1) 假设权值为0，初始化10层网络，这样网络对称，那么每一层都是相同的，梯度值也相同，这样网络就无法得到训练。

(2) 方法1：小数字随机初始化，均值为0，标准差为1e-2的高斯分布。

W = 0.01 * n p . r a n d o m . r a n d n (D, H)

对于层数较少时是适用的，但是当层数较多时，那么高斯分布的参数，假如有10层，每层的值进行权重乘法以后，后续数值将乘以0.01，这样经过多层以后权重的分布就再也无法保持均值为0，标准差为1e-2的高斯分布。后续分布均值为0,标准差成指数下降，这样在后期只会分布在0上，多层以后输入为0，反向传播过程中求取的梯度值将会非常小，这样在反向传播中，每一层后最后梯度趋于0，这就是梯度消失现象。

(3) 方法1，使用1来代替0.01进行随机初始化
- 对于tanh函数就会出现结果分布在两端-1和1，处于饱和区，后续计算所有神经元都饱和，梯度为0，损失函数将不会变，无法进行反向传播，没有权值得到更新。

(4) Reaseonable初始化：使得神经元输出的方差为1。

W = n p . r a n d o m . r a n d n (f a n_i n, f a n_o u t) / n p . s q r t (f a n_i n)

对于处于神经网络前面层的让权重输出在合适的范围，后续每层的权重都略有增大，可以有一个在预期中的范围，不饱和也不趋于0，这个方法能够在tanh中得到使用

但是对于ReLU的情况，加权计算将失败，ReLU是半边函数,将方差的权重缩小了一半，因此要给他补上一个2。

W = n p . r a n d o m . r a n d n (f a n_i n, f a n_o u t) / n p . s q r t (f a n_i n / 2)

2. 这些都是策略性的内容，可以使得深度学习走的更远的原因

五、Batch Normalization（批归一）

x^(k) = x ( k ) - E [ x ( k ) ] V a r [ x ( k ) ] - - - - - - - - \sqrt

1. BN的意义

随机梯度下降法（SGD）对于训练深度网络简单高效，但人为的去选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等。这些参数的选择对训练结果至关重要，以至于我们很多时间都浪费在这些的调参上。那么使用BN（详见论文《Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift》）之后，你可以不需要那么刻意的慢慢调整参数。
在训练的过程中，每一层的激活函数后的输出将会作为后一层的输入，这样当神经网络进行训练后，前级输出极大地影响后续的结果，而进行BN后，归一化的结果将降低前级对后级的影响

2. BN的原理

对于N个图像的D维特征，每一层进行均值和方差计算，这样保证每一个特征都满足高斯标准化。
BN插入在激活函数前，这样讲权重乘法后的输入归一到均值为0，方差为1，这样经过激活函数后的输出的数据分布依然保持均匀性。

3. BN的参数调节

y (k) = γ (k) x^(k) + β^(k) γ (k) = V a r [x (k)] - - - - - - - - \sqrt β^= E [x (k)]

神经网络学习到的数据本身就是在分布在激活函数两侧，那么归一将会打断前后层的之间的关系，因此引入变换重构，可学习参数γ、β。
同时当 γ(k)=Var[x(k)]−−−−−−−−√ 、 β^=E[x(k)] 时，相当于取消BN算法。因此当发现BN能够使得网络优化效果增强，可以采用BN算法调节，反之则通过参数取消BN算法。
实际上不是对于每一个特征都拥有一个γ、β，而是对于每一层的特征图，使用参数共享的方式，只有

4. BN的优点

优化流向网络中的梯度，支持更高的学习率，能够快速训练模型。
由于使用了归一化的方法，使得每层结果趋向于均值0，方差1，解决梯度消失问题；降低对于合理初始化的依赖性，可以更加随机的使用初始化值
改善正则化策略：作为正则化的一种形式，减少对于dropout的依赖。
可以将训练数据打乱，经过归一化后将会增强统一性，能够提高1%的精度。
在测试时，均值和方差不基于小批量进行计算，可以使用训练过程中的计算得到值的均值。

六、跟踪训练过程

1. 预处理数据

2. 选择合适的网络结构

3. 迭代输出损失函数和准确率

检查损失函数：将正则化参数调大1e3，与无正则化相比，观察损失函数是否增大，增大即是合理的
小批量数据进行训练：关闭正则化，观察损失函数将下降，准确率应该逼近100%
小正则化参数、调节合适学习率：训练时发现损失函数下降很慢，准确率有增大，但是结果较差，属于学习率太低；损失函数出现NaN，表示学习率太高。

七、超参数优化

1. 交叉验证策略

将训练集划分为多个交叉验证集mini-batch，选择不同的参数作为集合，进行小批量参数验证。
使用较少的迭代次数来进行验证哪些参数是合适，损失函数下降快，准确率增大快。
精细化参数设置，长时间进行验证，选择到合适的参数。
探测到损失函数爆炸现象：损失函数增大为原来值的3倍，需要中断函数，减少时间浪费。
使用log空间阈值进行参数搜索
精细化搜索，调节空间域范围
随机搜素使得参数在空间份上更加均匀
监测并可视化准确率，分析哪些参数变动导致准确率变化，推测原因，修正超参数：网络层数；每层神经元数目；学习率、衰减率、更新模型；正则化。

你可能感兴趣的:(cs231n-Lecture5)

cs231n-Lecture5 sun1398
CS231N–神经网络训练一、作业讲解Assignment2：CNN训练作业，预训练与细调，CNN先在ImageNet进行大量数据训练，在在小批量数据中进行训练。1.CNN的迁移学习可以先使用CNN在比如ImageNet这样的大数据集上先进行预训练，熟练好权重和超参数，去掉最上方的分类层，看成是一个固定特征提取器自己的数据量较少的时候可以仅仅替换最后的分类层；如果有中等规模的数据，可以再细调几层的
CS231n-Lecture5:卷积神经网络（CNN / ConvNets）二叉树不是树_ZJY CS231n 卷积神经网络深度学习神经网络计算机视觉
卷积神经网络（CNN）为什么要使用卷积？CNN的层输入层（INPUT）卷积层（CONV）过滤器（卷积核）——特征提取器权值共享激活层（ReLU）池化层（POOL）——降采样全连接层（FC）reference为什么要使用卷积？卷积的主要目的是为了从输入图像中提取特征。卷积可以通过从输入的一小块数据中学习到图像的特征，并且可以保留像素的空间关系。CNN的层CNN将原始图像从原始像素值逐层转换为最终的类
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite