机器学习算法笔记之K近邻算法(KNeighborsClassifier)

介绍:

在sklearn库中,KNeighborsClassifier是实现K近邻算法的一个类,一般都使用欧式距离进行测量。

这个类的结构如下:

sklearn.neighbors.KNeighborsClassifier

class  sklearn.neighbors. KNeighborsClassifier ( n_neighbors=5weights=’uniform’algorithm=’auto’leaf_size=30, p=2metric=’minkowski’metric_params=Nonen_jobs=1**kwargs )

在官方文档中,每个参数的含义:

机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第1张图片

机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第2张图片

n_neighbors:就是选取最近的点的个数:k

leaf_size:这个是构造树的大小,值一般选取默认值即可,太大会影响速度。

n_jobs :默认值1,选取-1占据CPU比重会减小,但运行速度也会变慢,所有的core都会运行。

这个类中的方法,在文档中的说明:

机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第3张图片

小试牛刀:

导库:
import numpy
from sklearn.neighbors import KNeighborsClassifier as kNN
构造训练集和对应的标签:
trainmat = numpy.array([[1,2,3],[2,3,5],[55,33,66],[55,33,66]])
label = numpy.array([0,0,1,1])

实例化分类器,并训练数据:
neigh = kNN(n_neighbors=3, algorithm='auto', weights='distance', n_jobs=1)
neigh.fit(trainmat,label)
训练完后会看到分类器的参数:
机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第4张图片
然后写一个测试数组:
testmat = numpy.array([2,3,4],[55,33,66])
我们使用三个最长用的方法,来看一下分类的结果:
机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第5张图片
结果很乐观,测试数组testmat中的两组值分别属于标签0和1的概率是0.99275805和1。

实战:

我们使用K近邻算法来区分数字。
机器学习算法笔记之K近邻算法(KNeighborsClassifier)_第6张图片
这些数字是由0和1组成的txt文本文件,一个有10个数字,训练集和测试集在项目文件中提供。
github中的链接: 点击打开链接
https://github.com/smallsmallcase/KNeighborsClassifier

你可能感兴趣的:(python,sklearn)