hyper parameter的选择

hyper parameter的选择

  • grid search vs 随机抽样
  • β的选择

grid search vs 随机抽样

grid search:所有超参数取有限多种可能的值,遍历每种可能的取值组合,挑选出最优组合。
明显的缺点:不同重要性的超参数被一视同仁。
例如:α明显比epsilon重要。如果α有5种可能的取值,epsilon有5种可能的取值,遍历25种可能的组合,实际上只有5种有效组合。因为α相同,epsilon不同的5种组合效果基本上是相同的。
随机抽样:所有超参数在某一连续范围内取值,因此可能的取值有无限多种。
例如:α在 [ 0 , 0.001 ] [0,0.001] [0,0.001]之间取值,epsilon在 [ 0.001 , 0.002 ] [0.001,0.002] [0.001,0.002]之间取值。这样取25组,可能每次α的值都不相同。

β的选择

β是指数平均算法中的 v d W L − 1 v_{dW_{L-1}} vdWL1前面的系数。
重要的原则:β不能均匀抽样,而是应该对β的指数均匀抽样。
e.g.

r=-4*np.random.randn()
β=np.power(10,r)

效果:生成β ∈ [ 0.0001 , 1 ] ∈[0.0001,1] [0.0001,1]
为什么要对指数均匀抽样?
β越接近1,cost function对β的变化越敏感。
e.g. β=0.9->β=0.9005:前10个指数平均值->前1/0.0995≈10个指数平均值
β=0.999->β=0.9995:前1000个指数平均值->前2000个指数平均值

你可能感兴趣的:(深度学习)