李沐论文讲解笔记 之 Alexnet

Alexnet(图片分类)

用神经网络做的(图片分类,InageNet数据集,数据量大种类多)

Alexnet之前更多的深度学习是无监督学习Unsupervised:给数据,无需标号,它可以从中理解。

因为有监督的打不赢别人:和SVM效果差不多。

Alexnet证明有标号额数据项只要够大一样可以赢。

就是说深度神经网络的一个图片训练出来最后那个向量,在语义空间里表现特别好:相似图片会放在一起,非常好的特征。深度学习的强项。

 通过正则使他不要过拟合overfitting:大的数据集(InageNet),大的模型(网络),避免过拟合。

使用CNN训练

第二章:数据集

每张都变为256*256

End to End:原始图片、文本进入,不做任何特征提取。

SIFT:

BERT:更大的模型

GBDT:更大的模型,出来了发现训练不动,于是回到了切成几份的模型。模型切开是的能训练100亿的1000亿其至10000亿的模型

  • 架构

ReLU非线性:简单,跟0比最大值,不需要记住sanh,sigmoid是什么

李沐论文讲解笔记 之 Alexnet_第1张图片

 

正则化Normalization:防止过拟合

归一化:

Pooling池化:

切开,拆成在两个GPU上训练。模型并行(model parallel)

李沐论文讲解笔记 之 Alexnet_第2张图片

通过做特征提取后,最后使用全连接,压缩为4096的向量,是很好的语义信息,机器能识别,那么他就能做很多事情。(深度网络的精髓)

第四章:如何降低过拟合

过拟合:背题但是没有理解,还是考不好。背题连错的都背,没见过的统统不会。

欠拟合:题都背不住

方法:

1、数据增强data augmentation:(数据不够,放大,截取,甚至扭曲图片得到新的训练集)

直接抠图、RGB通道上做改变(这里使用PCA主城份分析的方法)

  1. Dropout:他说他随机的把一些隐藏层的输出变成用50%的概率设成零,也就是每次都把一些东西设置为0 ,那么每次一些东西都变了,每次都得到一个新的模型,最后变成了很多模型的融合。但是后来大家发现Dropout不是融合,在现行的模型上是等价一个L2 regularzation(L2正则项)。

把很多个模型把你放是很有用的叫做Model ensemble,(比如多个模型然后融合,但是深度学习来说太贵,所以使用dropout)Dropout在RNN,attention上都用的比较多。

第五章:

SGD(随机梯度下降):深度学习训练最常用的算法,但是SGD调参比较难。但是后来大家发现sgd它里面的噪音对模型泛化性其实是有好处的。

Weight decay当时在机器学习界叫做:L2 regularzation(L2正则项)

Momentum是:当优化的表面非常不平滑的时候,冲量使得不要被当下的剃度太多的误导,保持一个冲量,沿着平缓的方向往前走。这样不容易陷入到由于优化的表面不平滑掉到坑里。

随机初始值的方差0.01来初始化权重,当时觉得不大也不小,小的比较适合。现在大的如BERT都用的0.02。

Epoch:如120是epoch轮,每次epoch下降0.1,或者先60轮后面再下降。或者下降平缓一些,使用余弦退火等。

李沐论文讲解笔记 之 Alexnet_第3张图片

 

第六章:实验

不那么重要,关心效果。一般不用关注,除非需要重复他的实验

测试集:测几次

训练集:

验证集:可以一直测,用来调参

神经网络到底是在学什么?可解释性?

偏向于纹理

不是很懂的时候可以看看他引用的文章文献,再回来看他怎么用。有些不一定要看院士文章,网上笔记也能讲的很明白

你可能感兴趣的:(深度学习,深度学习,神经网络)