K近邻算法(k-Nearest Neighbour, KNN)

《机器学习》 周志华 k近邻学习
《统计学习方法》李航 k近邻法

KNN

算法思想

k-最近邻(k-Nearest Neighbour, kNN)算法是一种基本分类与回归方法,属于监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k 个训练样本,然后基于这 k 个“邻居”的信息来进行预测。在分类任务中可使用"投票法",即选择这 k 个样本中出现最多的类别标记作为预测结果;在回归任务中时使用"平均法" ,即将这 k 个样本的实值输出标记的平均值作为预测结果。还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。
KNN是"懒惰学习" (lazy learning)的著名代表,此类学习技术在训练阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;相应的,那些在训练阶段就对样本进行学习处理的方法,称为"急切学习" (eager learning)。

三个基本要素

K值的选择

k较小→使用较小邻域中的训练实例预测→近似误差会减小、估计误差会增大→模型复杂,容易过拟合
k较大→使用较大邻域中的训练实例预测→近似误差会增大、估计误差会减小→模型简单

距离度量

欧氏距离、曼哈顿距离、闵可夫斯基距离、切比雪夫距离

决策规则

分类:多数表决,即经验风险最小化

实现

1. 线性扫描

计算输入实例与每个训练实例的距离,耗时

2. kd树方法

kd树

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
kd树是二叉树,表示对k维空间的一个划分
kd树中的k指的是k维空间,KNN中的k指的是k个样本

构造kd树

构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超矩形区域,kd树的每个结点对应于一个k维超矩形区域。

  1. 方法
    构造根结点,使根结点对应于k维空间中包含所有实例点的超矩形区域;通过下面的递归方法,不断地对k维空间进行切分,生成子结点。在超矩形区域(结点)上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域切分为左右两个子区域(子结点);这时,实例被分到两个子区域。这个过程直到子区域内没有实例时终止(终止时的结点为叶结点)。在此过程中,将实例保存在相应的结点上。
    通常,依次选择坐标轴对空间切分,选择训练实例点在选定坐标轴上的中位数(median)为切分点,这样得到的kd树是平衡的。注意,平衡的kd树搜索时的效率未必是最优的。

  2. 算法
    K近邻算法(k-Nearest Neighbour, KNN)_第1张图片
    如果中位数上没有数据点,选择与之最近的数据点

  3. 例子
    K近邻算法(k-Nearest Neighbour, KNN)_第2张图片
    K近邻算法(k-Nearest Neighbour, KNN)_第3张图片
    K近邻算法(k-Nearest Neighbour, KNN)_第4张图片

搜索kd树

  1. 思想
    给定一个目标点,搜索其最近邻。首先找到包含目标点的叶结点;然后从该叶结点出发,依次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上,效率大为提高。
    包含目标点的叶结点对应包含目标点的最小超矩形区域。以此叶结点的实例点作为当前最近点。目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体的内部(参阅图3.5)。然后返回当前结点的父结点,如果父结点的另一子结点的超矩形区域与超球体相交,那么在相交的区域内寻找与目标点更近的实例点。如果存在这样的点,将此点作为新的当前最近点。算法转到更上一级的父结点,继续上述过程。如果父结点的另一子结点的超矩形区域与超球体不相交,或不存在比当前最近点更近的点,则停止搜索。
  2. 算法K近邻算法(k-Nearest Neighbour, KNN)_第5张图片
  3. 例子
    K近邻算法(k-Nearest Neighbour, KNN)_第6张图片
    K近邻算法(k-Nearest Neighbour, KNN)_第7张图片

特点

• KNN算法是最简单有效的分类算法,且容易实现。但当训练数据集很大时,需要大量的存储空间,而且需要计算待测样本和训练数据集中所有样本的距离,所以非常耗时。
• KNN对于随机分布的数据集分类效果较差,对于类内间距小,类间间距大的数据集分类效果好,而且对于边界不规则的数据效果较好。
• KNN对于样本不均衡的数据效果不好,需要进行改进。改进的方法为对k个近邻数据赋予权重,比如距离测试样本越近,权重越大。
• K值的选取非常重要。

代码

最近邻
KNN分类
KNN回归

你可能感兴趣的:(数据挖掘,机器学习,python,数据挖掘,python,机器学习,近邻)