一、交叉检验cross-validation(CV):
以k-fold CV为例:在k个fold中,每个fold依次作为测试集、余下的作为训练集,进行k次训练,得到共计k个参数。把k个参数的均值作为模型的最终参数。
优点:最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。
缺点:相同大小的数据集,需要进行更多的运算。
二、使用cross-validation函数
参数:
sklearn.model_selection.cross_val_score(
estimator, # 自己选定的模型;
X, # array类型数据。训练集(自变量部分);
y=None, # 训练集(因变量部分);
groups=None,
scoring=None,
cv=’warn’, # 默认值3,即k-fold=3。int类型设定cross-validation的维度,
n_jobs=None,
verbose=0,
fit_params=None,
pre_dispatch=‘2*n_jobs’,
error_score=’raise-deprecating’)
使用多次KNN算法进行结果预测
from sklearn import datasets
from sklearn.model_selection import train_test_split,cross_val_score #划分数据交叉验证
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
iris = datasets.load_iris()
X = iris.data
y = iris.target
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=0.4,random_state=3) #划分数据以1/3的来划分 训练集训练结果 测试集测试结果
k_range = range(1,31)
cv_scores = [] #用来放每个模型的结果值
for n in k_range:
knn = KNeighborsClassifier(n)
scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy') #cv:选择每次测试折数 accuracy:评价指标是准确度,可以省略使用默认值
cv_scores.append(scores.mean())
plt.plot(k_range,cv_scores)
plt.xlabel('K')
plt.ylabel('Accuracy') #通过图像选择最好的参数
plt.show()
best_knn = KNeighborsClassifier(n_neighbors=3) # 选择最优的K=3传入模型
best_knn.fit(train_X,train_y)
print(best_knn.score(test_X,test_y))
>>>
0.95