在sklearn库中,KNeighborsClassifier是实现K近邻算法的一个类,一般都使用欧式距离进行测量。
这个类的结构如下:
sklearn.neighbors
.KNeighborsClassifiersklearn.neighbors.
KNeighborsClassifier
(
n_neighbors=5,
weights=’uniform’,
algorithm=’auto’,
leaf_size=30,
p=2,
metric=’minkowski’,
metric_params=None,
n_jobs=1,
**kwargs
)
在官方文档中,每个参数的含义:
n_neighbors:就是选取最近的点的个数:k
leaf_size:这个是构造树的大小,值一般选取默认值即可,太大会影响速度。
n_jobs :默认值1,选取-1占据CPU比重会减小,但运行速度也会变慢,所有的core都会运行。
这个类中的方法,在文档中的说明:
import numpy
from sklearn.neighbors import KNeighborsClassifier as kNN
trainmat = numpy.array([[1,2,3],[2,3,5],[55,33,66],[55,33,66]])
label = numpy.array([0,0,1,1])
neigh = kNN(n_neighbors=3, algorithm='auto', weights='distance', n_jobs=1)
neigh.fit(trainmat,label)
训练完后会看到分类器的参数:
testmat = numpy.array([2,3,4],[55,33,66])
我们使用三个最长用的方法,来看一下分类的结果: