XGBoost Stopping to Avoid Overfitting(early_stopping_rounds )




  1. # monitor training performance  
  2. from numpy import loadtxt  
  3. from xgboost import XGBClassifier  
  4. from sklearn.cross_validation import train_test_split  
  5. from sklearn.metrics import accuracy_score  
  6. # load data  
  7. dataset = loadtxt('pima-indians-diabetes.csv', delimiter=",")  
  8. # split data into X and y  
  9. X = dataset[:,0:8]  
  10. Y = dataset[:,8]  
  11. # split data into train and test sets  
  12. X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=7)  
  13. # fit model no training data  
  14. model = XGBClassifier()  
  15. eval_set = [(X_test, y_test)]  
  16. model.fit(X_train, y_train, eval_metric="error", eval_set=eval_set, verbose=True)  
  17. # make predictions for test data  
  18. y_pred = model.predict(X_test)  
  19. predictions = [round(value) for value in y_pred]  
  20. # evaluate predictions  
  21. accuracy = accuracy_score(y_test, predictions)  
  22. print("Accuracy: %.2f%%" % (accuracy * 100.0))  
下面,分析每次迭代时,test error的情况:




  1. # plot learning curve  
  2. from numpy import loadtxt  
  3. from xgboost import XGBClassifier  
  4. from sklearn.cross_validation import train_test_split  
  5. from sklearn.metrics import accuracy_score  
  6. from matplotlib import pyplot  
  7. # load data  
  8. dataset = loadtxt('pima-indians-diabetes.csv', delimiter=",")  
  9. # split data into X and y  
  10. X = dataset[:,0:8]  
  11. Y = dataset[:,8]  
  12. # split data into train and test sets  
  13. X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=7)  
  14. # fit model no training data  
  15. model = XGBClassifier()  
  16. eval_set = [(X_train, y_train), (X_test, y_test)]  
  17. model.fit(X_train, y_train, eval_metric=["error""logloss"], eval_set=eval_set, verbose=True)  
  18. # make predictions for test data  
  19. y_pred = model.predict(X_test)  
  20. predictions = [round(value) for value in y_pred]  
  21. # evaluate predictions  
  22. accuracy = accuracy_score(y_test, predictions)  
  23. print("Accuracy: %.2f%%" % (accuracy * 100.0))  
  24. # retrieve performance metrics  
  25. results = model.evals_result()  
  26. epochs = len(results['validation_0']['error'])  
  27. x_axis = range(0, epochs)  
  28. # plot log loss  
  29. fig, ax = pyplot.subplots()  
  30. ax.plot(x_axis, results['validation_0']['logloss'], label='Train')  
  31. ax.plot(x_axis, results['validation_1']['logloss'], label='Test')  
  32. ax.legend()  
  33. pyplot.ylabel('Log Loss')  
  34. pyplot.title('XGBoost Log Loss')  
  35. pyplot.show()  
  36. # plot classification error  
  37. fig, ax = pyplot.subplots()  
  38. ax.plot(x_axis, results['validation_0']['error'], label='Train')  
  39. ax.plot(x_axis, results['validation_1']['error'], label='Test')  
  40. ax.legend()  
  41. pyplot.ylabel('Classification Error')  
  42. pyplot.title('XGBoost Classification Error')  
  43. pyplot.show()  

  1. eval_set = [(X_train, y_train), (X_test, y_test)]  
  2. model.fit(X_train, y_train, eval_metric=["error""logloss"], eval_set=eval_set, verbose=True)  

  1. # retrieve performance metrics  
  2. results = model.evals_result()  
  3. epochs = len(results['validation_0']['error'])  
  4. x_axis = range(0, epochs)  
  5. # plot log loss  
  6. fig, ax = pyplot.subplots()  
  7. ax.plot(x_axis, results['validation_0']['logloss'], label='Train')  
  8. ax.plot(x_axis, results['validation_1']['logloss'], label='Test')  
  9. ax.legend()  
  10. pyplot.ylabel('Log Loss')  
  11. pyplot.title('XGBoost Log Loss')  
  12. pyplot.show()  



XGBoost可以通过设置参数 early_stopping_rounds 来解决因为迭代次数过多而过拟合的状态。

  1. eval_set = [(X_test, y_test)]  
  2. model.fit(X_train, y_train, early_stopping_rounds=10, eval_metric="logloss", eval_set=eval_set, verbose=True)  

  1. # early stopping  
  2. from numpy import loadtxt  
  3. from xgboost import XGBClassifier  
  4. from sklearn.cross_validation import train_test_split  
  5. from sklearn.metrics import accuracy_score  
  6. # load data  
  7. dataset = loadtxt('pima-indians-diabetes.csv', delimiter=",")  
  8. # split data into X and y  
  9. X = dataset[:,0:8]  
  10. Y = dataset[:,8]  
  11. # split data into train and test sets  
  12. seed = 7  
  13. test_size = 0.33  
  14. X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)  
  15. # fit model no training data  
  16. model = XGBClassifier()  
  17. eval_set = [(X_test, y_test)]  
  18. model.fit(X_train, y_train, early_stopping_rounds=10, eval_metric="logloss", eval_set=eval_set, verbose=True)  
  19. # make predictions for test data  
  20. y_pred = model.predict(X_test)  
  21. predictions = [round(value) for value in y_pred]  
  22. # evaluate predictions  
  23. accuracy = accuracy_score(y_test, predictions)  
  24. print("Accuracy: %.2f%%" % (accuracy * 100.0))  

说明:当nround = 42时,就stop了,说明logloss最佳的状态在nround = 32的时候。经验上,选择early_stopping_rounds = 10%*(总迭代次数)


  1. print (model.best_iteration)  
  2. limit = model.best_iteration  
  3. y_pred = model.predict(X_test,ntree_limit=limit)  
  4. predictions = [round(value) for value in y_pred]  
  5. # evaluate predictions  
  6. accuracy = accuracy_score(y_test, predictions)  
  7. print("Accuracy: %.2f%%" % (accuracy * 100.0))  

