目录
一、训练集train / 验证集dev(val) / 测试集test
二、偏差 / 方差
三、正则化(解决高方差)(L2正则化)
四、正则化如何预防过拟合
五、Dropout正则化(最常用:inverted dropout)
六、其他正则化方法
七、归一化/标准化:代价函数优化更快捷
八、梯度消失 / 梯度爆炸
九、权重初始化
十、梯度检验(检验反向传播的bug)
作业
初始化参数
正则化
Dropout
梯度校验
内容涉及:超参数调优、如何构建数据、如何确保算法快速运行
数据量越大,验证集和测试集的比重越小(30%(100-1000-10000) ----- >1%(1000000) )
相当于 : 权重指标×一个小于1的系数
对于这个弹幕:我理解的意思是,上一节ppt里面不是给出公式了嘛之前说到,如果损失(代价)函数下降了后又回升,可能是学习率设置的太大了,导致会使得w变成负的那边去,比如这个时候,加入了正则化这项,你看看公式,会发现w的更新更加缓和,会减小这一项的影响
关于这个ppt:其实我感觉这里老师的讲法有点不妥,应该把a3的值给固定比较好,d3的赋值的0-1矩阵其实是和a3的元素相对应的,但是用random那么就不是相对应的
现在多用标准化!
导数或坡度有时 非常非常大 或 非常非常小
我突然想到:残差网络是不是可以解决这个问题
梯度逼近:双边误差公式的结果更加准确
实施梯度检验的一些技巧:
+ 一条:
按照第8题的意思,当 保留60%的效果没有保留50%的效果好,我查阅了一下资料:
编程:
效果特别好!!!