机器学习算法调参神器之1:学习曲线

在Python中重要的机器学习库scikit-learn的算法模型应用中涉及各类关键参数,那么,如果选择及调整这些参数才能优化模型运行结果呢?下面介绍一下机器学习算法中常用的调参神器之一的:学习曲线。

学习曲线

参数学习曲线是一条以不同的参数取值为横坐标,不同参数取值下的模型结果为纵坐标的曲线,我们可以选择模型表现最佳点的参数取值为参数赋值。

代码实现

#导包
import numpy as np
import pandas as pd
#sklearn.datasets中的breast_cancer数据集为例
from sklearn.datasets import load_breast_cancer
# 探索数据集
data = load_breast_cancer()
#提取特征数据集
X = data.data
X.shape

运行结果

(569, 30)
#提取标签数据集
y = data.target
y.shape

运行结果

(569,)
#查看特征变量名
data.feature_names

运行结果

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype=')
#中文化特征变量名列表
name = ['平均半径','平均纹理','平均周长','平均面积',
        '平均光滑度','平均紧凑度','平均凹度',
        '平均凹点','平均对称','平均分形维数',
        '半径误差','纹理误差','周长误差','面积误差',
        '平滑度误差','紧凑度误差','凹度误差',
        '凹点误差','对称误差',
        '分形维数误差','最差半径','最差纹理',
        '最差的边界','最差的区域','最差的平滑度',
        '最差的紧凑性','最差的凹陷','最差的凹点',
        '最差的对称性','最差的分形维数']
# 划分数据集,须导入train_test_split方法
from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,y,test_size=0.2)
Xtrain.shape

运行结果

(455, 30)
#用KNN建模,先任选一个K=7,运行得出一个score
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=7)
clf = clf.fit(Xtrain,Ytrain)
score = clf.score(Xtrain,Ytrain)
'''score()方法用于度量给定测试集的预测效果的好坏。
其结果为:连续y使用R^2,分类y使用准确率accuracy,其中:
accuracy=分类算法正确的分类数/总分类数。'''
score

运行结果

0.9406593406593406
clf = clf.fit(Xtest,Ytest)
score = clf.score(Xtest,Ytest)
score

运行结果

0.9298245614035088
#学习曲线
#导入画图包
import matplotlib.pyplot as plt
#画图展示样本位置分布情况
plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示字体:黑体
# plt.rcParams['font.family']='Arial Unicode MS' # mac中文显示
plt.rcParams['axes.unicode_minus'] = False #设置正常显示负号
plt.style.use('ggplot')# 使用自带的样式进行美化 
plt.figure(figsize=(10,6),dpi=720) #设置画布尺寸及像素

#设定k值范围
krange = range(1,21)
#设置score初始值
score=[]

for i in krange:
    #K近邻分类器
    clf = KNeighborsClassifier(n_neighbors=i)
    #拟合训练集
    clf = clf.fit(Xtrain,Ytrain)
    #做score折线
    score.append(clf.score(Xtest,Ytest))
#画图    
plt.plot(krange,score)
plt.show()

运行结果
机器学习算法调参神器之1:学习曲线_第1张图片

#确定最优K值点
score.index(max(score))+1

运行结果

5
#将K值重设为最优值9,再次运行KNN模型并得出score
from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=9)
clf = clf.fit(Xtrain,Ytrain)
score = clf.score(Xtrain,Ytrain)
score

运行结果

0.9494505494505494
clf = clf.fit(Xtest,Ytest)
score = clf.score(Xtest,Ytest)
score

运行结果

0.9385964912280702

这次的score结果优于上次,可见,由学习曲线选择的K值预测效果优于之前的K值,说明学习曲线作为一种机器学习参数调优的手段,是有效的。

你可能感兴趣的:(Python,机器学习,算法)