原理简述:KNN 可以说是最简单的监督学习分类器了,其基本原理就是找到测试数据在特征空间中的最邻近样本,然后以该样本类别作为测试数据的类别。如果在 KNN 中考虑了 k 个最近样本,则谁在这 k 个邻居中占据多数,那测试数据属于谁那一类。
下面是一个简单的对二维坐标点进行分类的例子。
首先,随机生成一系列二维坐标点作为训练样本,以x+y=8这条直线为分界线,将样本分为两类。如下图:
将以上坐标数据和类别标签作为训练数据传入 kNN 分类器。最后,就可以用这个分类器来预测一个随机点所属的类别。
pyton实现代码:
import cv2
import numpy as np
import matplotlib.pyplot as plt
train_labels=[]
num=50
b=8
train=np.random.randint(0,10,(num,2)).astype(np.float32)
for i in range(num):
if train[i,0]+train[i,1]>b:
plt.plot(train[i,0],train[i,1],'r*')
train_labels.append([1])
else:
plt.plot(train[i,0],train[i,1],'g*')
train_labels.append([0])
knn = cv2.ml.KNearest_create()
train_labels=np.array(train_labels)
knn.train(train, cv2.ml.ROW_SAMPLE, train_labels)
test=np.random.randint(0,10,(1,2)).astype(np.float32)
ret,result,neighbours,dist = knn.findNearest(test,k=5)
if ret==1.0:
plt.plot(test[0,0],test[0,1],'ro')
else:
plt.plot(test[0,0],test[0,1],'go')
plt.plot([0,b],[b,0])
plt.show()