本文是KFold应用的一个实例,基于鸢尾花数据做5折交叉验证,测试最优树深的一个例子。
导入相应包:
import pandas as pd
import numpy as np
from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from lightgbm import LGBMClassifier
加载鸢尾花数据:
iris = load_iris()
x, y = iris.data, iris.target
通过交叉验证测试最优树深,从1-10查找,最后选择得分最高的树深。
kf =KFold(n_splits=5, shuffle=True)
max_depths=range(1,11)
result=[]
dit = {}
for max_depth in max_depths:
for k,(train,test) in enumerate(kf.split(x,y)):
test_score=[]
x_train, x_test, y_train, y_test = x[train], x[test], y[train], y[test]
print("train_split_rate:",len(x_train)/len(x))
clg = LGBMClassifier(
objective="multiclass",
boosting="gbdt",
learning_rate=0.1,
max_depth=max_depth,
n_estimators=100,
num_leaves=31,
lambda_l1=0.1,
lambda_l2=0.1,
seed=0
)
clg.fit(x_train,y_train,eval_set=[(x_test, y_test)],verbose=-1)
print("第%s轮验证:"%(k+1))
print("本轮训练集得分:%.2f%%"%(clg.score(x_train,y_train)*100))
print("本轮测试集得分:%.2f%%"%(clg.score(x_test,y_test)*100))
test_score.append(clg.score(x_test,y_test))
result.append(np.mean(test_score))
dit[np.mean(test_score)] = max_depth
print("max_depth:",max_depth,"mean_score:",np.mean(test_score))
print("*"*50)
print('bets mean recall score:',max(result),"depth:",dit[max(result)])
运行结果如下:
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:98.33%
本轮测试集得分:93.33%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:97.50%
本轮测试集得分:96.67%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:97.50%
本轮测试集得分:96.67%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:97.50%
本轮测试集得分:100.00%
max_depth: 1 mean_score: 1.0
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:97.50%
本轮测试集得分:100.00%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:100.00%
本轮测试集得分:86.67%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:99.17%
本轮测试集得分:90.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:98.33%
本轮测试集得分:96.67%
max_depth: 2 mean_score: 0.9666666666666667
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:100.00%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:97.50%
本轮测试集得分:96.67%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
max_depth: 3 mean_score: 0.9333333333333333
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:90.00%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:99.17%
本轮测试集得分:96.67%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
max_depth: 4 mean_score: 0.9333333333333333
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:100.00%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
max_depth: 5 mean_score: 0.9333333333333333
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:100.00%
本轮测试集得分:96.67%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
max_depth: 6 mean_score: 0.9333333333333333
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:99.17%
本轮测试集得分:96.67%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:99.17%
本轮测试集得分:100.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
max_depth: 7 mean_score: 1.0
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:99.17%
本轮测试集得分:93.33%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
max_depth: 8 mean_score: 0.9
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:99.17%
本轮测试集得分:86.67%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:100.00%
本轮测试集得分:93.33%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:97.50%
本轮测试集得分:100.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:98.33%
本轮测试集得分:90.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:98.33%
本轮测试集得分:93.33%
max_depth: 9 mean_score: 0.9333333333333333
**************************************************
train_split_rate: 0.8
第1轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第2轮验证:
本轮训练集得分:100.00%
本轮测试集得分:96.67%
train_split_rate: 0.8
第3轮验证:
本轮训练集得分:98.33%
本轮测试集得分:100.00%
train_split_rate: 0.8
第4轮验证:
本轮训练集得分:100.00%
本轮测试集得分:90.00%
train_split_rate: 0.8
第5轮验证:
本轮训练集得分:100.00%
本轮测试集得分:96.67%
max_depth: 10 mean_score: 0.9666666666666667
**************************************************
bets mean recall score: 1.0 depth: 7