scikit简介

1.scikit-learn示例

1)数据采集和标记

from sklearn import datasets
digits=datasets.load_digits()

2)特征选择

直观方法,直接使用图片的每一个像素点。8*8=64

数据需要保存为样本个数*特征向量格式的array对象

3)数据清洗

把采集到的、不适合用做机器学习训练的数据进行预处理。

例把200*200分辨率压缩到8*8

4)模型选择

5)模型训练

(1)把数据分为训练集和测试机

from sklearn.cross_validation import train_test_split

Xtrain,Xtest,Ytrain,Ytest=train_test_split(digits.data,digits.target,test_size=0.20,random_state=2)

(2)训练模型

from sklearn import svm

clf=svm.SVC(gamma=0.0001,C=100.)

clf.fit(Xtrain,Ytrain)

6)模型测试

clf.score(Xtest,Ytest)

7)模型保存与加载

from sklearn.externals import joblib

joblib.dump(clf,'c:/users/tianhun/Desktop/digits_svm.pkl')

clf2=joblib.load('c:/users/tianhun/Desktop/digits_svm.pkl')

2.scikit-learn一般性原理和通用规则

1)评估模型对象

学习机器学习算法的原理,其中一项非常重要的任务是了解不同机器学习算法有哪些可调参数,这些参数的意义,以及其对算法的影响。

工程应用,调整算法参数,实现效率和准确度的平衡

2)模型接口

fit()训练模型接口  有监督,fit(X,y)进行训练  无监督,fit(X)

predict()预测接口  分类还可用predict_proba()输出属于各种类型的可能性,predict只输出最高可能性的类型  无监督,聚类分析

score()评价模型接口 分越高越好。 有些模型不能只用score()评价要用查准率和召回率来衡量

transform 无监督  例PCA算法对数据进行降维

3)模型检验

score()

sklearn.metrics抱下面有一系列检测模型的方法

4)模型选择

scikit简介_第1张图片

参考文献

https://blog.csdn.net/qq_34562093/article/details/78973039

《scikit-learn机器学习》

你可能感兴趣的:(机器学习,python)