机器学习-模型选择与调优

1.什么是交叉验证

交叉验证:将拿到的训练数据,分为训练集和验证集,以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即可得到4组模型的结果,取平均值作为最终结果。又称4折交叉验证

在之前的学习中知道数据分为训练集和验证集,但是为了让从训练得到的模型结果更加准确,做以下处理

  • 训练集:训练集+验证集
  • 测试集:测试集

机器学习-模型选择与调优_第1张图片

交差验证的目的:为了让被评估的模型更加准确可信

 2.超参数搜索-网格搜索

通常情况下,有很多参数是需要手动指定的(如K-近邻算法中的K值),这种叫超参数,但是手动过程繁琐,所以需要对模型预设几种超参数组合,每组超参数都采用交叉验证来进行评估,最后选出最优参数组合建立模型。

机器学习-模型选择与调优_第2张图片

 3.模型选择与调优API

sklearn.model_selection.GridSearchCV(estimator.param_grid=None,cv=None)

  • 对估计器的指定参数进行详尽搜索
  • estimator:估计器对象
  • param_grid:估计器参数(dict){"n_neighbors":[1,3,5]}
  • cv:指定几折交叉验证
  • fit():输入训练数据
  • score():准确率
  • 结果分析
  1. 最佳参数:best_params_
  2. 最佳结果;best_score_
  3. 最佳估计器:best_estimator_
  4. 交叉验证结果:cv_results_

4.鸢尾花案例增加K值调优

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
#(1)获取数据
iris=load_iris()
#(2)数据集划分
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=6)
#(3)特征工程-标准化
transfer=StandardScaler()#实例化
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
#(4)KNN预估器流程
estimator=KNeighborsClassifier()
#加入网格搜索与交叉验证
#参数准备
param_dict={"n_neighbors":[1,3,5,7,9,11]}
estimator=GridSearchCV(estimator,param_grid=param_dict,cv=10)

estimator.fit(x_train,y_train)#进行模型训练

#(5)模型评估
#方法1:直接比对真实值和预测值
y_predict=estimator.predict((x_test))
print('y_predict:\n',y_predict)
print("直接对比真实值和预测值:\n",y_test==y_predict)

#方法2:计算准确率
score=estimator.score(x_test,y_test)
print('准确率为:\n',score)

#最佳参数
print('最佳参数:\n',estimator.best_params_)
#最佳结果  此处为训练集内的测试结果
print('最佳结果:\n',estimator.best_score_)
#最佳估计器
print('最佳估计器:\n',estimator.best_estimator_)
#交叉验证结果
print('交差验证结果:\n',estimator.cv_results_)

展示结果如图

机器学习-模型选择与调优_第3张图片 

 

你可能感兴趣的:(机器学习,深度学习,人工智能)