Resnet论文精读

resnet也赢下了imagenet的竞赛
在cifar-10 上训练了100到1000层的数据
cnn的主干网络 用resnet替换 在coco目标检测上也夺冠了
计算机图形学可能把图放在标题上面
在训练深的网络上,不只是过拟合,训练误差也会很高,不止是过拟合
深度太深会出现梯度爆炸或者梯度弥散
解决:初始化的时候权重不要太大也不要太小,中间加一些batch normalization,使得校验每个层的输出和他的梯度的均值和方差,
使得可以训练,避免过大和过小,使得可以收敛。能够收敛,但是性能会变差,并不是因为过拟合,训练误差和测试误差都很高,
虽然存在那个最优解,但是sgd找不出来,那个最优解。

15年用caffe多一点
cifar上可以训练到1000层,核心是residual connection
residual在线性模型和统计学里面用到的比较多,线性模型最早的解法就是用residual来迭代。
经典的文章技术都不一定是原创,把之前的东西巧妙地放在一起能解决一个现在的大家关注的一个比较难的问题。
最近的东西没引用就不太好,很多idea都被用过了
扫了多少遍数据更稳定一点,也就是epoch。不要用batch size和iteration
resnet一些变种的取值 是作者一个一个调出来的。具体怎么样,可以通过网络架构的自动选取
一开始训练精度是比测试精度高的,因为一开始用了很多的数据增强
有了残差连接他的收敛会快很多
现在我们主流的resnet都是当输入输出改变了,都会用1x1做一次投影
bottlenet的设计,通道数翻了四倍,但是计算复杂度差不多
现在更有能力去搜索他的结构
没有结论 只说了在目标检测下很好 map越高越好 检测框阈值的一个评价指标-李沐大神说这个不是那么必要-这一块贡献不那么大
网络架构很简单 比Alexnet更简单
沐哥教会了梯度反传的时候 为什么会比较快,解决了梯度爆炸和弥散!!!!!!!!
sgd所谓的收敛是没意义的,学习率要降低
sgd的精髓在于你一定得跑得动
gradient boosting的residual是在标号上,而resnet是在feature上做
要么理论起飞 要么实验起飞

你可能感兴趣的:(计算机视觉,人工智能,深度学习,神经网络)