KNN算法以及R语言的实现

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法,是一种懒惰机器学习算法(lazy learning)。简而言之,它在拿到训练集数据时并不急着去建模,而是在拿到测试集数据后,再到训练集数据中去寻找该测试样本最近的“邻居”,即距离最近的K个训练样本,依照训练样本数据的所属类别,加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢,即K取值是多还是少好呢?如果K选得小,得到的测试数据分类结果的偏差(bais)就小,同时方差(variance)增大;而如果K选得大,结果的偏差会增大,同时方差却会减小。

K近邻算法一般而言有4步:定下K值-->变量标准化-->计算测试样本到每个训练样本的距离-->加权或不加权地进行预测。下面用打高尔夫球的例子做具体计算。数据如下,共14条数据,以第一条数据作为测试样本。其中,temperature表示当天温度,humidity表表示当天湿度,play是要预测的变量,即是否打高尔夫。选择K=3,下面计算距离。

KNN算法以及R语言的实现_第1张图片

明氏距离:

KNN算法以及R语言的实现_第2张图片

这里为了方便计算,取p=1.那么第一个观测值到第2、第3个训练样本的明氏距离为:

dis1=|85-80|+|85-90|=10,dis2=|85-83|+|85-86|=3。

其他的计算方法相同,可以用R计算出每个训练样本离测试样本的距离:

library(kknn)
golf <- read.csv("golf.csv",header=T)
golf.train <- golf[-1,c(2:3,5)]
golf.test <- golf[1,2:3]
golf.kknn <- kknn(Play~.,golf.train,golf.test,k=3,scale=F,distance=1,kernel= "rectangular")
golf.kknn$CL #邻居的类别
golf.kknn$D #邻居与它的距离
golf.kknn$C #邻居的观测值号

kknn函数的参数依次为:formula,训练集,测试集,邻居的个数K,是否标准化(一般标准化,这里先不标准化),明氏距离中的参数p的值(这里设定p=1),加权方法(这里是rectangular,表示等权重,即不加权)。查看kknn选择的3个邻居的类别、距离以及所属的观测值编号:

KNN算法以及R语言的实现_第3张图片

可见,与测试样本距离最近的三个邻居分别是(删去了第一行测试数据了以后的)第2个、第1个和第12个观测值,其与测试样本的明氏距离分别为3,10和14,所属类别分别为yes,no,yes。在不加权时,各个邻居权重相等,那么很显然测试样本的分类应该听邻居中的“大多数”的,即选择yes这一类。如果选择加权呢?

加权的方式有很多种,R中提供的有:Possible choices are "rectangular" (which is standard unweighted knn), "triangular", "epanechnikov" (or beta(2,2)), "biweight" (or beta(3,3)), "triweight" (or beta(4,4)), "cos", "inv", "gaussian", "rank" and "optimal".

这里先用triangular法演示计算过程,三角加权函数的公式为:


其中,为使u处于-1到1之间,需要对u进行调整,R中使用的调整方式为:第i个邻居到测试样本的距离/排在第k+1远的邻居到它的距离,即:


在这里,最近的邻居的u1=3/15=0.2,其中15是计算出的第4远的邻居距测试样本的距离,则K(u1)=1-0.2=0.8,第二远的邻居u2=10/15=0.667,K(u1)=1-0.667=0.333,第三远的邻居u3=14/15=0.933,K(u3)=1-0.933=0.067,因此三者的权重分别为:0.8/(0.8+0.333+0.067)=0.67,0.333/(0.8+0.333+0.067)=0.28,0.067/(0.8+0.333+0.067)=0.05.所以测试样本被归为yes类的概率是0.67+0.05=0.72,而被归为no类的概率为0.28.可以看到,此结果与R的预测结果几乎相同。

golf.kknn <- kknn(Play~.,golf.train,golf.test,k=3,scale=F,distance=1,kernel= "triangular")
golf.kknn$CL #邻居的类别
golf.kknn$W #邻居的权重
golf.kknn$prob #分类结果
运行结果如下:

KNN算法以及R语言的实现_第4张图片

此外,R的kknn包中还有可以自动选择最优参数的函数:train.kknn和cv.kknn,前者采用留一交叉验证做参数选择,后者采用交叉验证做参数选择(可以自己选择折数),可以用下面的代码进行:

#取distance=2
golf.tkknn <- train.kknn(Play~.,golf[,c(2:3,5)],kernel = c("rectangular", "triangular", "epanechnikov", "optimal"),distance=2,scale=T)
plot(golf.tkknn)
golf.tkknn$MISCLASS #显示错误率
golf.tkknn #输出最优参数情况
golf.tkknn <- train.kknn(Play~.,golf[,c(2:3,5)],kernel = c("rectangular", "triangular", "epanechnikov", "optimal"),distance=1,scale=T)
plot(golf.tkknn)
golf.tkknn$MISCLASS
golf.tkknn

两者选择结果相同,最小错误率均为0.36,最好的加权方法都选择了不加权。

Minimal misclassification: 0.3571429
Best kernel: rectangular
Best k: 9
KNN算法以及R语言的实现_第5张图片


由图像也可以看到,无论k取多少,错误率最小的都是rectangular法(不加权),在k=9就明显最小




你可能感兴趣的:(机器学习,R)