统计学习方法 学习笔记(3)K近邻法

K近邻法

    • 3.1.K近邻算法
    • 3.2.K近邻模型
    • 3.3.K近邻法的实现:kd树

3.1.K近邻算法

算法步骤:给定一个训练数据集,对于一个新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于哪一个类,就把该输入实例分为这个类。

最邻近算法:最邻近算法是K=1时的特殊情形。

K近邻算法特点:K近邻算法没有显式的学习过程。

3.2.K近邻模型

K近邻模型的三个基本要素:距离度量、K值的选择、分类决策规则。

K近邻模型的本质:对特征空间的划分。

距离度量的概念:在K近邻算法中两个实例点之间的距离是两个实例点相似程度的反映,使用的距离一般是欧式距离,但是也可以是其他距离(闵可夫斯基距离)。例如当维度为1时的距离称为曼哈顿距离。

K值的选择

  • 如果选择较小的K值,整体模型就会变得复杂,容易发生过拟合;
  • 如果选择较大的K值,整体模型就会变得简单,容易发生欠拟合;
  • 实际应用中一般选择一个较小的K值,通常通过交叉验证法进行选择。

分类决策规则:K近邻算法中的分类决策规则往往是多数表决,也就是由K个邻近的训练实例中的多数类决定输入实例的类。等价于经验风险最小化。

3.3.K近邻法的实现:kd树

kd树的作用概述:为了提高K近邻搜索的效率所使用的特殊结构,用于存储训练数据以减少距离计算的次数。

kd树的概念:对K维空间中的实例点进行存储以便对其进行快速检索的树形结构。

  • kd树的本质:用于表示对K维空间的一个划分的二叉树。
  • 构造过程:不断地用垂直于坐标轴的超平面将K维空间划分,构成一系列的K维超矩形区域,kd树的每一个节点对应于一个K维超矩形区域。

具体构造过程:每次选取一个维度,找到训练集中各个点在这个维度上的坐标中位数作为切分点,将原始区域划分为两个子区域;之后对两个子区域换用下一个维度递归执行这个过程,直到两个子区域没有实例点为止。

搜索kd树的过程:首先找到包含目标点的叶节点,然后从该叶结点出发依次回退到父节点,不断查找与目标点最邻近的节点,当确定不可能存在更近的节点时终止。这样搜索旧被限制在空间的局部区域上,效率大大提高。

你可能感兴趣的:(机器学习,学习,算法)