gdtop818

(2) [NeurIPS12] ImageNet Classification with Deep Convolutional Neural Networks

计划完成深度学习入门的126篇论文第二篇，摘自多伦多大学Alex Krizhevskyh和Geoffrey Hinton合著发表在NeurIPS2012的论文，同时也算是2012年ImageNet的冠军得主论文。

摘要Abstract

论文作者训练了一个大型深度卷积神经网络来对120万的高分别率图片做1000分类，并且优于之前的精度记录。使用了6000万个参数以及65万个神经单元。在前五层神经网络使用了最大池化层，以及三层的全连接层，在最后一层使用了1000-softmax。为了使计算更快捷使用了GPU来做计算，并且使用dropout来避免过拟合。

The
neural network, which has 60 million parameters and 650,000 neurons, consists
of five convolutional layers, some of which are followed by max-pooling layers,
and three fully-connected layers with a final 1000-way softmax. To make training faster, we used non-saturating neurons and a very efficient GPU implementation of the convolution operation. To reduce overfitting in the fully-connected
layers we employed a recently-developed regularization method called “dropout”
that proved to be very effective.

一、介绍

1. 传统的方式是使用大量的机器学习方法。为了提高效果，收集了大量数据集，使用了计算力更大的模型，使用更好的防止过拟合的技巧。直到近期已经在MNIST上达到了和人类效果更好的误差率，但是在实际的展示图片中，我们还需要更大的训练集。

2. 为了学习到数百万张图片，我们需要一个更大的学习能力模型。在深度学习中，不同的深度和宽度决定了他们的能力。和标准的前向网络相比，CNN使用的参数更少，所以更容易训练。

3. 尽管CNN这么有吸引力，我们还是需要昂贵的计算资源来训练这些大量的高分辨率的图片。目前的GPUs就很适合做这件事情。

4. 在比赛中，我们写了一个高优化的GPU框架来处理2D卷积，所以我们大大减少了训练时间同时也提高了结果表现。最终我们发现了一个最优的框架结构，使用5层的卷积网络和3层的全连接层，不管是减少哪一层都会带点至少1%的误差率。

5. 最后一共花了五六天时间训练才得到结果，也提出未来如果有更大的数据集和更快的GPU，效果还会更好。（博主补充：已经有啦，而且更新了好几代，ImageNet这个比赛现在的结果也刷新了2012年的好几次记录，特别是何凯明的RestNet后）

二、数据集

ImageNet数据集包含了超过1500万个高精度带标签的图像，从属于22000个类别。这些图片从网络上被收集，并被人工标签，使用的是亚马逊的框图云技术，类似于把图片中的物体使用框划分出来，并且归类。一共大约120万张图片，50000张是验证集，150000是测试集。

根据2012年的比赛提供的测试集，在ILSVRC-2012我们也测试了这个版本的数据集的结果，对于这个版本的数据集，测试集标签是不可用的。在ImageNet上，通常报告两个错误率:top-1和top-5，其中top-5错误率是测试图像中，正确的标签不在模型认为最可能出现的五个标签中的比例

在实验数据中，我们下采样down-sampled固定的图像分辨率为256×256。给定一个矩形图像,我们首先重构图片大小，短边长度是256，然后裁剪出中央256×256固定大小的图像。我们没有以任何其他方式对图像进行预处理，只是从每个像素中减去训练集上的平均像素。因此，我们将在(居中)像素的原始RGB值上进行网络训练。

三、架构

1. 网络架构：five convolutional and three fully-connected

2. 非线性激活函数ReLU

① f(x) = tanh(x) or f(x) = (1 + e-x)-1

② 在实验中发现，ReLU显然别tanh更快。

③ 并且ReLU的误差也比tanh小得多，如下图中，实线是ReLU取得了25%的误差率。

3. 在GPU上训练（ GTX 580 GPU has only 3GB）

并且提出实际上，在最终的卷积层中，1- gpu网络与2- gpu网络拥有相同数量的内核。这是因为大多数的网络的参数都在第一个全连通层中，该层以最后一个卷积层作为输入。因此，为了使这两个网络具有大致相同数量的参数，我们没有将最终卷积层的大小减半(也没有将随后的完全连接层减半)。因此，我们偏向于使用1-GPU网络，因为它比2-GPU网络的一半还要“大”。

4. 局部正则

ReLUs具有一个理想的特性，即它们不需要输入标准化来防止饱和。如果至少有一些训练的例子产生一个积极的输入到一个ReLU，学习将发生在那个神经元。然而，我们仍然发现以下的局部归一化方案有助于推广。为ai x;y，在位置(x;然后应用ReLU非线性，响应归一化活动bi x;y由表达式给出

其中sum运行在相同空间位置的n个“相邻”内核映射上，n是层中内核的总数。内核映射的顺序当然是任意的，在训练开始之前就确定了。这种反应正常化实现了一种形式的横向抑制，其灵感来自于在真实神经元中发现的类型，在使用不同内核计算的神经元输出之间产生了对大型活动的竞争。

四、减少过拟合程度

我们的神经网络架构有6000万个参数。尽管ILSVRC的1000个类使每个训练示例对从图像到标签的映射施加10位约束，但如果不进行大量的过拟合，这对于学习这么多参数来说是不够的。下面，我们将介绍两种主要的方法来对抗过拟合。

1. 数据增强：Data Augmentation

减少图像数据过拟合最简单、最常用的方法是使用标签保留转换人为地放大数据集。

我们采用了两种不同的数据扩充形式，这两种形式都允许从原始图像中生成转换后的图像，而只需很少的计算，因此转换后的图像不需要存储在磁盘上。在我们的实现中，转换后的图像是在CPU上的Python代码中生成的，GPU正在对前一批图像进行训练。因此，这些数据扩充方案实际上是不需要计算的。

第一种方式是生成翻转平移图像。我们从256x256幅图像中随机抽取224x224的块(以及它们的水平反射)，并在这些提取的块上训练我们的网络。
第二种是用RGBchannels来训练图像。并且使用PCA来对图像训练集降维。

2. dropout：结合许多不同模型的预测是减少测试误差的一个非常成功的方法

然而，有一个非常有效的模型组合版本，在训练期间只需要花费大约2倍的成本。最近引入的dropout技术是将每个隐藏神经元的输出设置为0，概率为0.5。
以这种方式脱落的神经元不参与正向传递，也不参与反向传播。所以每次输入出现时，神经网络都会对不同的架构进行采样，但是所有这些架构都共享权重。
这种技术减少了神经元复杂的共适应，因为神经元不能依赖于特定的其他神经元的存在。因此，它被迫学习与其他神经元的许多不同随机子集一起使用的更健壮的特征。
在测试时，我们使用所有的神经元，但是将它们的输出乘以0.5，这是一个合理的近似，近似于取指数众多drop - in网络产生的预测分布的几何平均值。

五、学习中的细节

1. 权重更新的规则

2. 初始化

我们初始化每一层的权值，从标准差为0.01的零均值高斯分布开始。我们用常数1初始化了第二层、第四层、第五层卷积层以及完全连通的隐层中的神经元偏差。这个初始化通过为ReLUs提供积极的输入来加速学习的早期阶段。我们用常数0初始化剩余层的神经元偏差bias。

3. 学习率

我们对所有层使用相同的学习率。
我们采用的训练方法是，当验证错误率不再随着当前学习率的提高而提高时，将学习率除以10。
初始化学习率为0.01，终止前降低6倍。

我们通过120万张图像的训练集对网络进行了大约90个周期的训练，这组图像在两台NVIDIA GTX 580 3GB gpu上运行了5到6天

六、实验结果

ILSVRC-2010的结果在Table1中，在ILSVRC-期间获得的最佳性能2010年的竞争是47.1%和28.2%，采用的方法是将针对不同特征的6个稀疏编码模型的预测结果平均。

在这个ILSVRC-2012数据集上，我们遵循文献中使用一半图像用于训练，一半用于测试的惯例。由于没有建立测试集，我们的分割必然不同于以前的作者所使用的分割，但是这不会显著地影响结果。
我们在这个数据集上的前1和前5的错误率是67.4%和40.9%，这是通过上面描述的网络实现的，但是在最后一个池层的基础上增加了第6个卷积层。在这个数据集上发表的最佳结果是78.1%和60.9%。如Table2。

在图4的左侧面板中，我们通过计算8张测试图像的前5个预测，定性地评估了网络已经了解到的内容。请注意，即使是偏离中心的物体，如左上角的螨虫，也能被网络识别出来。大多数排名前五的标签看起来都是合理的。例如，只有其他类型的猫被认为是豹子的合理标签。在某些情况下(格栅、樱桃)，照片的预定焦点确实模糊不清。
如果两幅图像产生欧氏距离的特征激活向量，我们可以说神经网络的高层认为它们是相似的。图4显示了来自测试集的5张图像和来自训练集的6张图像，根据这个度量，这6张图像与每个图像最相似。注意，在像素级别上，在L2中检索到的训练图像通常不接近第一列中的查询图像。例如，检索到的狗和大象以各种姿势出现。我们在补充材料中提供了更多测试图像的结果。利用两个4096维实值向量之间的欧几里得距离计算相似度效率不高，但通过训练一个自动编码器将这些向量压缩成短二进制码可以提高计算效率。这将产生一种比对原始像素应用自动编码器更好的图像检索方法，原始像素不使用图像标签，因此具有检索具有相似边缘模式的图像的趋势，无论它们在语义上是否相似。

你可能感兴趣的:(深度学习论文系列博客,深度学习paper)

jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息