K近邻分类

K近邻算法和其他模型最大的区别在于该模型没有参数训练过程,它不通过学习算法分析训练数据,而只是根据测试样本在训练数据的分布直接作出分类的决策。K近邻中的K值不属于模型通过训练数据学习的参数,而是在模型初始化过程中提前确定的,不同的K值会获得不同效果的分类器。

本篇博客不讲述K近邻模型的理论知识,而是采用一个对鸢尾数据集进行分类的实例进行学习。语言是Python3.6,环境是Anaconda3。

1、读取鸢尾数据集

#导入iris数据加载器
from sklearn.datasets import load_iris
iris=load_iris()
iris.data.shape
print(iris.DESCR)

2、分割训练集和测试集

from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.25,random_state=33)
3、使用K近邻分类器对鸢尾花数据进行类别预测

from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
#对训练和测试的特征数据进行标准化
ss=StandardScaler()
X_train=ss.fit_transform(X_train)
X_test=ss.transform(X_test)

knc=KNeighborsClassifier()
knc.fit(X_train,y_train)
y_predict=knc.predict(X_test)
4、 导入classification_report用于详细的分类性能报告

print('The accuracy of K-Nearest Neighbor Classifier is ',knc.score(X_test,y_test))
from sklearn.metrics import classification_report
print(classification_report(y_test,y_predict,target_names=iris.target_names))


5、结果分析

The accuracy of K-Nearest Neighbor Classifier is  0.894736842105
             precision    recall  f1-score   support


     setosa       1.00      1.00      1.00         8
 versicolor       0.73      1.00      0.85        11
  virginica       1.00      0.79      0.88        19


avg / total       0.92      0.89      0.90        38

从评估结果中可以看出K近邻分类器在鸢尾花分类中达到的准确率有89.474%,表现出不错的分类性能。K近邻属于无参数模型中非常简单的一种,然而正是这样的决策算法导致了其非常高的计算复杂度和内存消耗。因为该模型每处理一个测试样本都需要对所有预先加载在内存中的训练样本进行遍历、逐一计算相似度、排序并且选取K个最近邻训练样本的标记,进而作出分类决策。这是平方级别的算法复杂度,一旦数据规模稍大,使用者便需要权衡更多计算时间的代价。

本博客内容有参考学习《Python机器学习及实践——从零开始通往Kaggle竞赛之路》

你可能感兴趣的:(python机器学习--分类,K近邻,分类,python,实战,鸢尾花数据集)