神经网络训练技巧

神经网络训练技巧

  • 写作初衷
  • 朋友遇到的问题
  • 学习过程总结
  • 尝试解决朋友的问题
    • 不容易收敛的问题
    • 调参环节花费时间长的问题
  • 互动

写作初衷

最近帮朋友解决神经网络训练遇到的一些问题,结合在吴恩达老师课程中学到的技巧,梳理一下神经网络学习的一些技巧和陷阱。

朋友遇到的问题

编号 问题 描述
1 运行好多次才能得到最优解 利用R语言的机器学习包;没有收敛就结束;输出结果精度很低;预测的很多都错的
2 调参的环节,比其他分类器要用的时间多些 R语言机器学习包

学习过程总结

神经网络学习有其一般的过程。
1 参数的随机初始化
2 实现前向传播计算每个样本对应的输出节点激活函数值
3 实现代码计算损失函数
4 实现反向传播计算偏导数
5 数值计算梯度来进行梯度检查,以判断偏导数计算的正确性。如果正确就取消掉梯度检查。
6 使用梯度下降或者先进的优化方法结合反向传播来最小化 J(theta),其中 J(theta)是关于theta的函数
// 反向传播计算的向量化伪代码
for i = 1:m // 遍历每个样本 
	code-使用当前样本进行前向传播和反向传播计算,得到网络每一层的激活函数值a(l)delta(l)值
	△(l) =(l) + delta(l)(a(l))'
endfor
code-计算偏导数

尝试解决朋友的问题

通过不断询问问题的细节,总结为一下两个问题:

不容易收敛的问题

  • 参数随机初始化很容易导致梯度下降进入局部最优,因为神经网络的损失函数不是凸函数,局部最优有可能收敛在一个很差的地步。下图是随机初始化导致的局部最优的实例:
    神经网络训练技巧_第1张图片

调参环节花费时间长的问题

  • 不考虑正则化,神经网络可调的参数包括隐含层的层数以及每层的神经元个数,每次修改参数就是要重新对网络进行一次训练。层数越多训练越慢,神经元越多训练越慢。
  • 随机参数初始化,每次梯度下降的路径不一样,计算花费的时间差异也可能很大

互动

解答不一定对,欢迎大佬们批评指正。

你可能感兴趣的:(统计机器学习)