一、KNN算法
KNN(K-NearestNeighbor)算法既可以用于分类,也可用于回归。这里介绍他的分类用法。
训练集:一堆拥有标签的m维数据,可以表示为:
其中, 是标签,即所属类别。
目标:一个测试数据x,预测其所属类别。
算法:
虽然KNN算法用短短的三步就能概括,但是大有文章可做
1、“距离”是啥距离?
话不多说,先摆个公式压压惊
上式表示的是:m维数据与的距离就是这么求的。
当p=2时,这个距离就称为欧式距离,是不是很熟悉?
当p=1时,称为曼哈顿距离
根据数据特性的不同,我们可以选择不同的距离来度量。
2、K值如何选择
我们一直在谈KNN,那这个K我们该如何选择呢?
K值太小,预测结果会对近邻的训练数据十分敏感,模型过于复杂,易发生过拟合
K值太大,会导致分类结果模糊,模型过于简单。
对于k值的选择有这么几种方法:交叉验证、贝叶斯方法、bootstrap。
一般是取个较小值,采用交叉验证法来选取最优的K值。
3、决策规则是啥?
一般是选用多数表决规则,即在K个数据中,哪种类别出现的次数最多,这个类别就是x的预测类别。
二、kd树
以上说完,我们就要进入实现环节了。那么问题来了,我们上面说的是计算测试点和训练集中的每一个数据的距离,然后进行排序。数据量少的时候完全问题,可是当数据量大的时候,臣妾做不到啊!!!
这时候,我们聪明的前辈就提出了kd树(k-dimensional tree)。这是一颗什么样的树呢?
kd树可以帮助我们在很快地找到与测试点最邻近的K个训练点。不再需要计算测试点和训练集中的每一个数据的距离。
kd树是二叉树的一种,是对k维空间的一种分割,不断地用垂直于坐标轴的超平面将k维空间切分,形成k维超矩形区域,kd树的每一个结点对应于一个k维超矩形区域。
注意:这里的k维的k表示的是数据的维度,上文中我们称为m维数据。(不要理解为K个训练点的K,你看我甚至把训练点的K大写,维度的k小写)
kd树的构造
首先我们需要构造kd数,构造方法如下:
是不是现在还是懵懵懂懂的,甚至上面的构造方法只是一眼扫过。
不慌,有句话叫无图言X,接下来就是关门放图的时候。
我们用图像来走算法!
我们有二维数据集
将他们在坐标系中表示如下:
开始:选择为坐标轴,中位数为6,即(6,5)为切分点,切分整个区域
再次划分区域
以为坐标轴,选择中位数,可知左边区域为-3,右边区域为-12。所以左边区域切分点为(1,-3),右边区域切分点坐标为(17,-12)
再次对区域进行切分,同上步,我们可以得到切分点,切分结果如下:
最后分割的小区域内只剩下一个点或者没有点。我们得到最终的kd树如下图
kd树完成K近邻的搜索
当我们完成了kd树的构造之后,我们就要想怎么利用kd树完成K近邻的搜索呢???
接下来,又是抛出算法的时候了
为了方便说明,我们采用二维数据的栗子。假设现在要寻找p点的K个近邻点(p点坐标为(a,b)),也就是离p点最近的K个点。设S是存放这K个点的一个容器。
新鲜的算法来了:
(a)回退到当前结点的父结点,此时的结点为当前结点(回退之后的结点)。将当前结点标记为已访问,执行(b)和(c);如果当前结点已经被访过,再次执行(a)。
(b)如果此时S中不足k个点,则将当前结点加入到S中;如果S中已有k个点,且当前结点与p点的距离小于S中最长距离,则用当前结点替换S中距离最远的点。
(c)计算p点和当前结点切分线的距离。如果该距离大于等于S中距离p最远的距离并且S中已有k个点,执行3;如果该距离小于S中最远的距离或S中没有k个点,从当前结点的另一子节点开始执行1;如果当前结点没有另一子结点,执行3。
以上的1,2,3我们会称为算法中的1,算法中的2,算法中的3
老规矩,上图!
为了方便描述,我对结点进行了命名,如下图。
蓝色斜线表示该结点标记为已访问,红色下划线表示在此步确定的下一要访问的结点
我们现在就计算p(-1,-5)的3个邻近点。
我们拿着(-1,-5)寻找kd树的叶子结点。
执行算法中的1。
进行算法中的2,标记结点H已访问,将结点H加入到S中。
此时
执行算法中的3,当前结点H不是根结点
当前结点C不是根结点
从结点D开始算法中的1
开始算法中的2
执行算法中的3,当前结点J不为根结点
从结点I开始算法中的1,结点I已经是叶子结点
直接进行到算法中的2
执行算法中的3.
当前结点I不是根结点
执行算法中的3,发现当前结点A是根结点,结束算法。
得到p点的3个邻近点,为(-6,-5)、(1,-3)、(-2,-1)
kd树就这么的完成了他的任务。
总的来说,就是以下几步
1、找到叶子结点,看能不能加入到S中
2、回退到父结点,看父结点能不能加入到S中
3、看目标点和回退到的父结点切分线的距离,判断另一子结点能不能加入到S中
有错误之处还请大家帮忙指正!
参考:
https://cloud.tencent.com/developer/news/212042
https://zhuanlan.zhihu.com/p/23966698