在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本数据中,拿出大部分的数据作为训练集去训练模型,剩余的部分作为测试集对刚建立的模型进行预测。一般测试集的数据占比取25%。为了让建立出的模型更加准确可信,需要采取一些方法对模型进行优化。
N折交叉验证: 将样本数据平均分成k份(k折交叉验证,10折交叉验证最常用)子样本数据(除测试集以外),其中一份子样本数据被保留成验证集数据,剩余的k-1份样本数据作为训练集用于进行训练。每个子样本都会经过一次验证集数据进行处理,得出一个准确率(accuracy),交叉重复k次之后,得出k个准确率,然后将k个准确率进行求平均或者结合其他方式得出最终的一个单一准确率。
如下图所示,5折交叉验证,全部可用数据集分成五个集合,每次迭代都选其中的1个集合数据作为验证集,另外4个集合作为训练集,经过5组的迭代过程。
交叉验证的好处在于:
指定参数值的一种穷举搜索方法,在机器学习中,通过将估计器(estimator)的超参数(比如k-近邻算法中的n_neighbors)进行交叉验证得出最优的学习算法,进行模型选择。通常情况下,网格搜索和交叉验证一起伴随使用。下面以决策树为例进行模型的选择。
from sklearn.model_selection import GridSearchCV
rf = RandomForestClassifier()
params = {'n_estimators': [120, 200, 300, 500, 800, 1200], 'max_depth': [5, 8, 15, 25, 30]}
gs = GridSearchCV(estimator=rf, param_grid=params)
gs.fit(x_train, y_train)
print(f'预测结果:{gs.score(x_test, y_test)}')
print(f'选择的参数模型:{gs.best_params_}')
estimator:估计器对象。
param_grid:估计器的参数,也就是超参数。
fit:输入训练数据。
在我们学习人工智能的过程中,经常会使用到交叉验证和网格搜索对算法进行优化,比如KNN、线性回归、逻辑回归以及神经网络等等。