B站李沐讲论文笔记AlexNet

研一学生笔记,若有看官,笔下留情。

AlexNet
作者:Alex,IIya,Geoffrey

题目:用深度卷积神经网络进行ImageNet分类
摘要 :我们训练了一个很大的深度卷积神经网络来实现ImageNet分类,结果优于之前所有工作。怎么做的呢,他有庞大的模型结构和变量,自然需要解决速度和过拟合的问题。1.用了非饱和神经元和GPU使训练加速(2012年GPU不算最新,08年推出的CUDA2.0,但不可否认是当时的亮点)2.用最新开发的正则化方法叫 “dropout”来减少过拟合。
介绍 :目前物体识别的方法主要是机器学习,收集更大的数据,学习更强的模型,使用更好的技术,正则,减少过拟合(神经网络之前的大数据时代就是这么处理的,李沐老师说如今正则也没那么重要,如何更好的设计一个网络才更重要。) 直到现在有标注的数据集相对于数以万计的图像,而现实却需要很大的数据集,现在已经可以有这样的数据集了,例如LabelMe和ImageNet 。(他有提到数据label特别少,而百度得到,数据标注行业从2010年左右开始,如果回到过去,,,我就,,,我才不会办数据标注的公司赶时代红利,我要把顶会下载来一篇篇发,啊哈哈哈哈,做梦。) 即使像ImageNet这样大的数据集也无法解决物体检测这样大的复杂任务,所以我们用了一些经验之谈以弥补缺失的数据,cnn就是这样的模型,可以根据高宽控制他的容量,他也对图片的本质做了强有力的,基本正确的假设。因此与有相似大小层数的前馈神经网络相比,cnn有更少的连接参数更容易训练,并且比他理论情况的最小值稍低一点点。(李沐老师说引言一般讲故事,我在做什么,那个方向,研究现状怎么样,我们怎么做,为什么重要,别人怎么做。当时主流模型并不是cnn,我们写的时候最好提一下,别人的比较一下。)尽管cnn足够优秀但是应用于大规模超分辨率依然成本高昂,但是GPU+高度优化的2D卷积的实现足以应对,标签重组的ImageNet也能减少过拟合。我们特殊贡献如下:ImageNet子集上训练了迄今为止最大的卷积神经网络之一,并在比赛中取得了最好成绩,我们编写了搞笑的GPU来实现2d卷积,并且在训练cnn时候其他内在操作,我们将公开。我们的网络包含了一些新的非同寻常的特征提高了他的表现和减少了训练时间。即使有120万个有标注的训练样本,我们的网络太大了使过拟合是个问题,所以我们采取了很多有效的办法来避免。我们最后的网络包括5个卷积层和3个全连接层,丢在任何一层都是性能更差(这个结论存疑)最后,网络的大小取决于我们目前GPU的可用内存大小和我们能忍受的训练时间。我们的网络在两块GTX 580 3GB GPUs上训练了五六天。我们所有的实验表明,只要有更快的GPU和更大的数据集出现,我们结果更好(现在看来是废话是因为我们认同了这个真理,更说明在当时情况Geoffrey团队的先见之明。)
数据集:除了裁剪之外没做其他预处理,在原始RGB上训练的网络。(李沐老师讲端到端算一个优势,但是当时ALex等人并没有把他当作卖点,可能没意识到。其余是介绍了一下ImageNet略)
网络架构:8个学习层,包括5个卷积层和3个全链接,根据重要顺序先后介绍。
ReLU非线性函数:一般用tanh或者sigmoid。就梯度下降的时间而言,饱和的非线性函数比非饱和的非线性函数例如f(x) = max(0, x)慢很多,我们把有这非线性特性的神经元成为Rectified Linear Units (ReLUs)。ReLU要好于tanh,图中展示了在CIFAR10数据集上,对于特定的四层卷积网络,将错误率下降到25%所需要的迭代次数,图中表明,如果继续用传统的饱和神经元,我们根本无法完成如此大的模型的训练。(图中显示ReLU快7倍)也有很多研究要替代传统非线性函数,但是他们对新数据集的适应能力没有ReLU好。(现在来看ReLU并没有快多少,用他是因为简单,简单就是胜利。aaaa,why haven’t I finished translating! fidget!surely it doesn’t mean that I am too worried…another day passed away,set up a flag:finish the work today!)
在多个GPU上训练:一块GTX 580 GPU算力不够,结果表明,120万个训练样本足够训练一个此GPU无法容量的大网络,因此我们对此网络划分了两个GPU,目前的GPU有两好的跨块通信能力,而不需要通过主机内存。我们讲网络切一半分给每个GPU,还有一个技巧:仅仅某些层有GPU通信。(看原来的网络结构也能知道,有的层在分GPU训练,有的层还要通信,可乱了,目的是什么,为什么称之为技巧,还没理解。李沐老师说这都是当时工程上的事情,在之后GPU发展起来,这些技术不太重要,但是,风水轮流转,现在nlp兴起,需要训练的数据更大更大了,分GPU又成了可行之道。)
本地响应正则化:ReLU有个很好的特性,不需要输入归一化来防止饱和,只要有输入,神经元就开始学习,但是我们仍然发现一下局部归一化有助于泛化(然后是一个数学公式,看见就烦,跳过,李沐老师说他重要我又看不懂,so,我的数学问题怎么解决,糟糕。找个数学好的男朋友,good idea 希望work一下。yeah。)
最大池化重叠:cnns中的池化层在同一内核映射相邻神经元的输出,一般来说由临近的池化神经元汇总成的邻域是不重叠的,更准确的说,每个池化层可以被理解成由间隔s像素的池化神经元网格组成,以池化神经元的位置为中心组成z*z的邻域,如果我们设置s = z,就得到传统的通常在cnn中使用的原始池化层,如果设s < z,就得到重叠池。我们s = 2 z = 3。
总体架构:网络包含8个带权重的层,前5层是卷积剩下的3层是全连接,最后一个全连接的输出使用了softmax,输出1000个分类标签.我们的网络最大化了多项逻辑回归目的,这相当于最大化了预测分布下正确标签的对数概率跨训练案例的平均值。(这句话没读懂,之后描述了具体模型架构,主要最后全连接的输出都是ReLU,每个层用的卷积核和输出,并且是直接在256的原始图像上操作)。
减少过拟合:
讨论:我们的结论是,一个很大的深度卷积神经网络具备在有挑战性的数据集上用纯监督式学习实现破纪录式结果的能力(他想说两点,deepcnn很强,纯监督式导向)。我们没有用无标签图像预热网络(他还是倡导有监督帮派嘛,确实这是一个监督分水岭,之前无监督之后有监督,李沐老师说,如今nlp中无监督又回到主流),只要网络够大训练时间够久结果就越好(他这句话在如今看就是废话,但是当时不是。至少他得到了一个非常肯定的结论,网络越大越好,这可以推出,硬件越牛越好,也可以近似等于,以后哪家机构越有钱,结果越好,,,科研实力+金钱实力。15年的ResNet证明,事实并非如此,但是有“残差”的办法使得越来越深越来越大效果还不错,,,,当我没考上比较好的机构的时候,人工智能瓶颈就到了。每日一emo,emo结束,继续搬砖)。网络虽然在图像识别做的不错但是和人的能力差很远(现在已经远超人了)。我们希望在视频序列中用很深的网络训练,因为时序包含了一些信息是静态图片没有的(他提出图像识别之后的工作-视频,但是video计算量远大于图像所以直到今天还没有解决,这里可以探索更强的算力,或者更好的算法。加之video版权更复杂,所以直到今天也没有很好的发展。但是!在那个时候就已经想到了video领域,牛啊牛啊)

你可能感兴趣的:(论文,人工智能,论文阅读,深度学习,cnn)