超参数调优

超参数调优

超参数调优我们以learning rate和 正则强度为例介绍

搜索策略

一般的超参数调优采用分阶段搜索的方式,1.最开始定义一个广泛的搜索区间,以learning rate为例,可以选取[1e-3,1e-6],正则强度可以选取[1e-5,1e5],随机抽取若干个组合,进行少次迭代,如1 epoch,从而缩小区间范围。2.如果缩小后的区间为[1e-3,1e-4]和[1e-4,1e0],这时,进行多一些的迭代,例如5个epoch,得到一个相对较好的区间,如果此时,loss相对较小的的点learning rate都位于1e-3,这可能意味着最初我们选择的[1e-3,1e-6]不太合适,这时,我们应该要重新调整区间,例如调整为[1e-2,1e-3]。不断重复这个过程,缩小搜索区间,而搜索的仔细程度,也就是epoch的次数,也应该增加。最终选择出相对合适的超参数。

learning rate 和正则强度数值选择

在这里,我们一般在对数域随机搜索,这主要是因为,在反向传播的过程中,这两个超参数都是以乘法运算的形式存在的

网格搜索和随机搜索哪个好

网格搜索就是对搜索空间等分,然后逐个空间搜索。随机搜索是在整个搜索空间内随机抽取数值。Bergstra和Bengio在文章Random Search for Hyper-Parameter Optimization中已经说明,随机搜索的方法更好,在这里只做简单解释。
1.每个超参数的重要程度不同,如果以learning rate和 正则强度为例,一个参数为x轴,一个为y轴,倘若learning rate更重要,那么我们在网格搜索时,y方向的搜索就会没那么有效,搜索时会出现无用功。如果换种思路,从某种意义上网格搜索如同穷举法,而随机搜索相当于二分查找,可以指数级的降低搜索的复杂程度。

你可能感兴趣的:(深度学习相关(cs231n))