数据分析之交叉验证

一、交叉检验cross-validation(CV):
以k-fold CV为例:在k个fold中,每个fold依次作为测试集、余下的作为训练集,进行k次训练,得到共计k个参数。把k个参数的均值作为模型的最终参数。
数据分析之交叉验证_第1张图片
优点:最大特点是不再浪费validation set大小的数据。在样本集不够大的情况下尤其珍贵。
缺点:相同大小的数据集,需要进行更多的运算。

二、使用cross-validation函数
参数:

sklearn.model_selection.cross_val_score(
estimator,       # 自己选定的模型;
X,               # array类型数据。训练集(自变量部分);
y=None,          # 训练集(因变量部分);
groups=None, 
scoring=None, 
cv=’warn’,      # 默认值3,即k-fold=3。int类型设定cross-validation的维度,
n_jobs=None, 
verbose=0, 
fit_params=None, 
pre_dispatch=‘2*n_jobs’, 
error_score=’raise-deprecating’)

使用多次KNN算法进行结果预测

from sklearn import datasets	
from sklearn.model_selection import train_test_split,cross_val_score	#划分数据交叉验证
from sklearn.neighbors import KNeighborsClassifier  
import matplotlib.pyplot as plt
iris = datasets.load_iris()		
X = iris.data 		
y = iris.target 		
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=0.4,random_state=3)	#划分数据以1/3的来划分 训练集训练结果 测试集测试结果
k_range = range(1,31)
cv_scores = []		#用来放每个模型的结果值
for n in k_range:
    knn = KNeighborsClassifier(n)   
    scores = cross_val_score(knn,train_X,train_y,cv=10,scoring='accuracy')  #cv:选择每次测试折数  accuracy:评价指标是准确度,可以省略使用默认值
    cv_scores.append(scores.mean())
plt.plot(k_range,cv_scores)
plt.xlabel('K')
plt.ylabel('Accuracy')		#通过图像选择最好的参数
plt.show()
best_knn = KNeighborsClassifier(n_neighbors=3)	# 选择最优的K=3传入模型
best_knn.fit(train_X,train_y)			
print(best_knn.score(test_X,test_y))	
>>>
0.95

你可能感兴趣的:(python)