Alexnet论文精读

大模型通过正则来避免过拟合 后来发现正则不那么重要 神经网络模型更重要
当时主流不是cnn,是别的。但是那时候cnn训练不动。
虽然效果不好,但是创新好
简单有效的才是持久的
relu现在看来没那么快,在现在看来,其他的技术发展。但它简单啊
alexnet那篇文章就像一个技术报告
gpu0和gpu1一起做
人能看懂的像素,经过特征提取之后,变成了长为4096的向量.可以把中间的语义信息都能表示起来,前面是人能看懂的,后面4096变成机器可以看懂的
alex是一个比较复杂的技术细节,现在看来没有必要。3个gpu 4个gpu等等怎样去切他,那不是更复杂吗
现在做多gpu卡的训练,也不会那么切模型了
刚开始alex的作者觉得每一次dropout就得到了一个新的模型,相当于做了模型融合。后来发现dropout其实就是一个正则项。
三个全连接,前面两个是个很大的瓶颈,导致模型特别大。
现在模型设计很关键。
sgd调参难调,对模型噪音是有好处的
momentum会让你不至于由于优化的表面不那么平滑而掉进坑里
权重用均值为0,方差为0.01的高斯随机变量来初始化
网络越深需要更多的优化
现在学习率衰减是用更加平滑的曲线
现在在图像领域计算时间减少了,但是在文本领域还是面临这个问题
不用太关心实验细节
完整的imagenet数据集有890w,但是一般做实验用120w,有1w类。完整的ImageNet上的预训练效果确实要好的多,
完整的其实更好,李沐大神也不理解。
每个通道识别了一个图像的一种模式,一个gpu上识别到的是与颜色无关的,一个是与颜色有关的(大家后来也忽略了)

只有讨论,没有结论
深度和宽度都很重要
hinton lecun都觉得走了歪的方向,bert gan兴起。给我数据 不要告诉我标号,也能从中间理解。
有钱 有机器可以去训练video,不过到目前也很难。
训练出来的最后一个向量在语义空间表现的特别好,余弦相似度(距离)

你可能感兴趣的:(深度学习,神经网络)