python代码设置超参数_Python 机器学习:超参数调优

1.什么是超参数

超参数(hyper parameters)就是机器学习或深度学习算法中需要预先设置的参数,这些参数不是通过训练数据学习到的参数;原始算法一般只给出超参数的取值范围和含义,根据不同的应用场景,同一个算法的同一超参数设置也不同。

那超参数应该如何设置呢?似乎没有捷径,去尝试不同的取值,比较不同的结果取最好的结果。

本文整理了不同的尝试方法,如下:

RandomSearch

GridSearch

贝叶斯优化(Bayesian optimization)

2. GridSearchCV

暴力穷举是寻找最优超参数一种简单有效的方法,但是对于算法庞大的超参数空间来说,穷举会损耗大量的时间,特别是多个超参数情况下。GridSearchCV的做法是缩减了超参数值的空间,只搜索人为重要的超参数和有限的固定值。同时结合了交叉验证的方式来搜索最优的超参数。

拿lightgbm为例子:

importpandas

aspd

importnumpy

asnp

importmath

importwarnings

importlightgbm

aslgb

fromsklearn.model_selection

importGridSearchCV

fromsklearn.model_selection

importRandomizedSearchCV

lg=lgb.LGBMClassifier(silent=

False)

param_dist={

"max_depth":[

2,

3,

4,

5,

7,

10],

"n_estimators":[

50,

100,

150,

200],

"min_child_samples":[

2,

3,

4,

5,

6]

}

grid_search=GridSearchCV(estimator=lg,n_jobs=

10,param_grid=param_dist,cv=

5,scoring=

"f1",verbose=

5)

grid_search.fit(X_train,y)

grid_search.best_estimator_,grid_search.best_score_

#Fitting5foldsforeachof120candidates,totalling600fits

#[Parallel(n_jobs=10)]:UsingbackendLokyBackendwith10concurrentworkers.

#[Parallel(n_jobs=10)]:Done52tasks|elapsed:2.5s

#[Parallel(n_jobs=10)]:Done142tasks|elapsed:6.6s

#[Parallel(n_jobs=10)]:Done268tasks|elapsed:14.0s

#[Parallel(n_jobs=10)]:Done430tasks|elapsed:25.5s

#[Parallel(n_jobs=10)]:Done600outof600|elapsed:40.6sfinished

#(LGBMClassifier(max_depth=10,min_child_samples=6,n_estimators=200,

#silent=False),0.6359524127649383)

从上面可知,GridSearchCV

搜索过程

模型estimator:lgb.LGBMClassifier

param_grid:模型的超参数,上面例子给出了3个参数,值得数量分别是6,4,5,组合起来的搜索空间是120个

cv:交叉验证的折数(上面例子5折交叉), 算法训练的次数总共为120*5=600

scoring:模型好坏的评价指标分数,如F1值

搜索返回: 最好的模型 best_estimator_和最好的分数https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV

3. RandomSearchCV

和GridSearchCV

一样,RandomSearchCV

也是在有限的超参数空间(人为重要的超参数)中搜索最优超参数。不一样的地方在于搜索超参数的值不是固定,是在一定范围内随

你可能感兴趣的:(python代码设置超参数)