AlexNet学习笔记(2)

里面 有些东西 对于现在来说都是错误的

而且由大量的细节对于现在来说没有必要

而且是过度的enginnering

一篇论文的第一段通常是讲一则故事

我们在做什么研究 哪个方向 有什么东西然后为什么很重要

正则化 regularization好像没有那么重要,并不是最关键的

最关键的是 你神经网络的设计

设计得好 哪怕没有正则化 都可以出结果的

AlexNet第一段介绍了 大数据集的好处,从当初的cifar10  到2012那个时候的ImageNet

第二段作者表示想做大cnn ,CNN做大很容易但是 也会引发两个问题

1.过拟合

2.很难训练

在写作程度上,第二段有个问题 在当时CNN并不普及 半句话没有提别人的算法 

是一个很窄的角度

写的时候要提及别的方向 做一个稍微公平的introduction

第四段讲了 这篇paper的贡献contribution

1.train 了一个当时最大的网络 得到了一个很好的结果 

2.写了一个实现GPU上性能很好的 2d的卷积

3.新的,不常见的 特性来提升网络的性能和降低训练训练的时间

4.一些防止过拟合的方法

5.深度很重要,少了一层效果会差一些(现在看来不全对,深度和宽度一样重要 还有就是需要调好参数)

在数据集的最后一段有一个小细节

imagenet的图像分辨率不同大小并不是统一的

Alex就把每张图片变成256256

短边先减到256 长边按高宽比下降

长边不出意外会有多余 以中心为界能把两个边会给你裁掉

 不抽特征(sift) 原始上做的

之后的卖点也会是end to end

简单有效的东西是能够持久的

第三章 是整个网络的架构

relu 非线性的东西Hinton

AlexNet学习笔记(2)_第1张图片

 

tan h 和SIGMOD

饱和的非线性激活函数会比那些非饱和的要慢

用了relu训练的特别快

而且 Relu比较简单 

AlexNet学习笔记(2)_第2张图片

 

框表示每一层的输入输出这个数据的大小

有两个GPU

我就把 整个网络切开

不过 在第三层的时候 两格各自的输出都需要前面一层的输出结果

AlexNet学习笔记(2)_第3张图片

 这个时候2块GPU会通讯一次

很瘪的很宽的图片然后把它高宽慢慢的变小,但是深度的慢慢的增加
 

随着深度的增加 我把空间信息压缩

在过程中我们发现我们的通道数在慢慢的增加

注意哦 这理由选一个细节

这个channel是干嘛的 

这里的每个通道你可以当做是看待一种特定的模式

好像不说人话

一个channel 对应一个 feature

AlexNet学习笔记(2)_第4张图片

拿这个举例 这个model能够学到了图片中间的192种不同的模式

模式当做是一种知识吧 比如在识别猫的时候 猫的腿 猫的嘴巴 等等

而这个空间信息换来的是我们的语义信息越来越丰富

图像的底层特征、高层特征是什么,语义信息是什么意思_:)�东东要拼命的博客-CSDN博客_图像的低级特征往往是泛化的,如纹理,颜色等于什么

 我们在继续往后 就进入了全连接层

AlexNet学习笔记(2)_第5张图片

 每一个 搞一个2048的全连接

最后的结果拼回成一个4096的

224224*3的image 最后进入的分类层的时候就是一个 4096的一个向量

然后用一个 线性分类器去做链接

那也就是 可以理解为 你最后看到的没有任何图片信息了哈哈 

只能看到一堆数字 而这一对数字能够很好地学到图片的语义信息

你的工作要有一定的通用性 这句话对于当时来说是正确的

而当现在更大的模型出来之后 model parallel 又是一个很亮的点了

而第四节讲的是 如何降低过拟合

1.data augmentation

2.RGB的channel做一些改变(PCA主成分分析)

3.dropout(其实不是在做模型的融合,更多的是的L2正则项)没有dropout过拟合会非常严重,但是加了之后训练速度会慢上两倍

现在来看 dropout在attention和全连接上还是非常有用的

AlexNet 比较可学的点是 使用了sgd 随机梯度下降 

因为sgd的里面的噪音对我们的模型泛华能力是有帮助的

weightdecay 相当于L2regularization

偏移本质上如果你的数据平衡一些的话,初始化为0

现在会用cos来平滑的降低我们的学习率(红线)

AlexNet学习笔记(2)_第6张图片

 蓝色线为Alexnet中的学习率随训练轮数的变化

不过在这里 我想和大家分享一下第一学期跑分类网络遇到的两个准确率

一个是验证集的准确率 一个是测试集的准确率

验证集是可以拿来调参的 表示训练中的拟合程度

而测试集则代表着真正的detect的效果 

这里吴恩达大佬有做很好的解释 用了偏差和方差来描述欠拟合和过拟合

这里也告诉大家 不用太高的准确率或者精度 八九十就差不多了

在底层的神经元或者说前面的神经层学到的是一些局部的信息低级信息

比如说纹理和方向我在笔记的前面有引用过自己写的文章这里再贴出来

图像的底层特征、高层特征是什么,语义信息是什么意思_:)�东东要拼命的博客-CSDN博客_图像的低级特征往往是泛化的,如纹理,颜色等于什么而偏上一点的学到的是全局一点 头 脸动物 高级一点的

而至于这个NN的可解释性一直比较好的研究方向 

室友的师兄发了顶刊 羡慕 

你可能感兴趣的:(学习,计算机视觉,网络,深度学习)