K近邻(K-nearest neighbor,k-NN)可以是分类和回归方法,是一种有监督方法。
通俗的说,k近邻回归的思想是,假如想预测你的收入,那么通过某种距离计算(如考虑行业、学历、年龄等),找k个和你相似的人,他们的收入求均值即作为你的收入预测。
根据k个邻居的类别,采用多数表决等方法确定新实例的类别,或根据邻居的值预测新实例的值。
k近邻的三个要素:①距离度量,②k(邻居数)的选择,③分类决策规则
k近邻的实现方法是kd树,是一种高效搜索邻居的算法。距离度量可以是一般的L_p 距离(或Minkowski、闵可夫斯基、闵氏距离)。
k值选择过小,偏差小方差大,容易过拟合(最极端的情况,只有一个邻居,这个人的收入就决定了自己收入预测值)
k值选择过大,偏差大方差小,模型过于简单(最简单的是k选择全体样本的数量,所有人都是你的邻居)。
可用交叉验证确定参数k。
分类决策规则一般用多数表决规则。多数表决规则等价于经验风险最小化。经验风险最小化就是让模型在样本中的表现最好,它与结构风险最小化概念的区别是,后者是经验风险最小化+正则化。
例如有三维数据,按照第一维的中位数、第二维的中位数、第三维的中位数、第一维的中位数……进行划分。
例如根据一组数[(2, 3), (5, 4), (9, 6), (4, 7), (8, 1), (7, 2)],这是6个二维的数据,首先根据第一维的中位数将区域划分。第一维中位数是6,不妨选择7。即x=7将区域划分为两部分。
然后看第二维,左半部分(x<7的三个数)第二维中位数是4,右半部分不妨设为6。直到所有数据点都在切分线上。
最终结果是
1. 根据目标点,从kd数的根节点往下,根据该节点划分时候对应维度和目标点对应维度的大小,将该节点划到左子节点或右子节点,最终找到叶子结点。
例如目标点为(3, 4.5),最初与根节点(7, 2)比,该层划分时候是以x轴中位数标准划分的,所以要将目标点的x轴数字3与7比较,3<7所以划到左边。然后将其与(5, 4)比,4.5 > 4,所以划到右边,得到(4, 7)
2. 然后初始化最近点为叶子结点,并画出以目标点为圆心,目标点和叶子结点距离为半径的圆。最近邻居一定在圆内。
例如上例中,初始化最近点是(4, 7),画出以(4, 7)为圆心,目标点与该点距离为半径的圆。那么可以说最近的邻居一定在圆内,否则(4, 7)就是最近的邻居。
3. 然后往上回溯,找父节点,父节点另一侧的矩形是否与圆相交。若不相交则向上回溯(此时计算时可以省略很多节点),若相交,则找到与圆相交的点,检查是否更新最近邻居、更新圆。
例如此时向上回溯到(5, 4),该点到目标点距离更近,那么将该点置为当前最近点。仿照上述过程重新画一个圆。
是否要去(5, 4)另一半子节点查找是否有更近的呢?这要看y=4是否与圆相交,这里是相交的,所以要去另一半叶子结点找,那么(2, 3)与目标点距离更新,所以当前最近点置为(2, 3)。同样画一个圆。
此时再向上回溯到(7, 2)另一个矩形与该圆不相交(或者说x=7与圆不相交),因此右半部分无论如何都不可能比现有的点更近了,此时结束。因此最近邻居就是(2, 3)
参考资料:
1. 李航《统计机器学习》
2. 《KNN算法与Kd树》https://www.cnblogs.com/21207-iHome/p/6084670.html