xgboost参数:
leanring_rate : 默认是0.3,更新过程中用到的收缩步长,在每次提升计算之后,算法会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守;[0,1]
gamma:默认是0,别名是 min_split_loss,在节点分裂时,只有在分裂后损失函数的值下降了(达到gamma指定的阈值),才会分裂这个节点。gamma值越大,算法越保守(越不容易过拟合);[0,∞]
max_depth:默认是6,树的最大深度,值越大,越容易过拟合;[0,∞]
min_child_weight:默认是1,决定最小叶子节点样本权重和,加权和低于这个值时,就不再分裂产生新的叶子节点。当它的值较大时,可以避免模型学习到局部的特殊样本。但如果这个值过高,会导致欠拟合。[0,∞]
max_delta_step:默认是0,这参数限制每颗树权重改变的最大步长。如果是 0 意味着没有约束。如果是正值那么这个算法会更保守,通常不需要设置。[0,∞]
subsample:默认是1,这个参数控制对于每棵树,随机采样的比例。减小这个参数的值算法会更加保守,避免过拟合。但是这个值设置的过小,它可能会导致欠拟合。 (0,1]
colsample_bytree:默认是1,用来控制每颗树随机采样的列数的占比; (0,1]
colsample_bylevel:默认是1,用来控制的每一级的每一次分裂,对列数的采样的占比; (0,1]
lambda:默认是1,别名是reg_lambda,L2 正则化项的权重系数,越大模型越保守;
alpha:默认是0,别名是reg_alpha,L1 正则化项的权重系数,越大模型越保守;
seed:随机数种子,相同的种子可以复现随机结果,用于调参!
n_estimators:弱学习器的数量

调参demo:
from sklearn.model_selection import GridSearchCV

def search_param():
data = get_data()
x = data[float_cols + int_cols + object_cols]
x = pd.get_dummies(x)
y = np.where(data.target_flag_1 == 'Y',0,1)
train_x,test_x,train_y,test_y = train_test_split(x,y,random_state=0,test_size=0.2)
cv_params = {'learning_rate': [0.01, 0.05, 0.07, 0.1, 0.2]}
other_params = {'learning_rate': 0.1, 'n_estimators': 800, 'max_depth': 10, 'min_child_weight': 1, 'seed': 121,
'subsample': 0.8, 'colsample_bytree': 0.7, 'gamma': 0.1, 'reg_alpha': 3, 'reg_lambda': 2}
model = XGBClassifier(**other_params)
optimized_GBM = GridSearchCV(estimator=model, param_grid=cv_params, scoring='r2', cv=5, verbose=1, n_jobs=4)
optimized_GBM.fit(train_x, train_y)
evalute_result = optimized_GBM.cvresults['mean_test_score']
print('每轮迭代运行结果:{0}'.format(evalute_result))
print('参数的最佳取值:{0}'.format(optimized_GBM.bestparams))
print('最佳模型得分:{0}'.format(optimized_GBM.bestscore))