一、模型

1.1概念

k-近邻算法是一种基本分类与回归方法，我们这里只讨论分类问题中的 k-近邻算法。k-近邻算法的输入为实例的特征向量，对应于特征空间的点；输出为实例的类别，可以取多类。给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k的实例，这k个实例的多数属于某个类，就把该输入实例归为此类。k=1时，为最邻近算法。

由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

1.2算法描述

训练集T={(x1,y1),(x2,y2),⋯,(xN,yN)}T={(x1,y1),(x2,y2),⋯,(xN,yN)}，其类别yi∈{c1,c2⋯,cK}，训练集中样本点数为N，类别数为K。输入待预测数据x，则预测类别y

其中，涵盖x的k邻域记作Nk(x)，当yi=cj时指示函数I=1，否则I=0。

1.3k近邻法优缺点

优点：精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度好，适用数据范围：数值型和标称型

1.4KNN算法思想

1 计算已知类别中数据集的点与当前点的距离。[即计算所有样本点跟待分类样本之间的距离]

2 按照距离递增次序排序。[计算完样本距离进行排序]

选取与当前点距离最小的k个点。[选取距离样本最近的k个点]

4 确定前k个点所在类别的出现频率。[针对这k个点，统计下各个类别分别有多少个]

5 返回前k个点出现频率最高的类别作为当前点的预测分类。[k个点中某个类别最多，就将样本划归改点

二、三要素

K近邻法中，当训练集、距离度量、K值和分类决策规则确定后，对于任何一个新的输入实例，它所属的类唯一确定。

2.1距离度量

特征空间中两个实例点的距离是两个实例点相似程度的反映，K近邻模型的特征空间一般是n维实数向量空间，使用的距离为欧氏距离(P=2)。也可使用其他距离。

2.2K值的选择

K值较小，近似误差会减小，但估计误差会增大，容易过拟合。K值较大则相反，但模型会变得简单，起不到预测作用。

在应用中，K应该是一个比较小的值，通常采用交叉验证来选最优K值。

2.3分类决策规则

多数表决规则

三、算法

3.1线性扫描

计算耗时，方法不可行。

3.2kd树

kd树是二叉树，表示对k维空间的划分。构造kd树相当于不断用垂直于坐标轴的超平面将k维空间切分，构建一系列的k维超矩形区域，kd树的每个节点对应于一个超矩形区域。

3.2.1构建kd树

1、开始：构造根节点，对应于包含T的K维空间的超矩形区域。

2、选择为坐标轴，T中轴向坐标的中位数为切分点，将切分点对应的超平面将超矩形区域分为两个子区域。每个子区域为一个子节点。

3、重复

我们有二维数据集T={(6,5),(1,-3),(-6,-5),(),(),(),(),(),(),(),(),()}

将他们在坐标系中表示如下：

开始：选择x为坐标轴，中位数为6（这个6是先根据x坐标排序，一共13个点，取长度的中数，），即得到（6，5）为切分点，切分整个区域

再次划分区域

以为y坐标轴，选择中位数，可知左边区域为-3，右边区域为-12。所以左边区域切分点为（1，-3），右边区域切分点坐标为（17，-12）

再次对区域进行切分，同上步，我们可以得到切分点，切分结果如下：

最后分割的小区域内只剩下一个点或者没有点。我们得到最终的kd树如下图

3.2.2搜索kd树(最近邻搜索)

（p为将要查找分类的点，S为所查找的邻近点集合，）

1.根据p的x坐标和kd树的结点向下进行搜索（如果树的结点是以x=c 来切分的，那么如果p的坐标小于c，则走左子结点，否则走右子结点）。

2.到达叶子结点时，将其标记为已访问。如果S中不足k个点，则将该结点加入到S中；如果S不空且当前结点与p点的距离小于S中最长的距离，则用当前结点替换S中离p最远的点。

3.如果当前结点不是根节点，执行（a）；否则，结束算法。

（a）回退到当前结点的父结点，此时的结点为当前结点（回退之后的结点）。将当前结点标记为已访问，执行（b）和（c）；如果当前结点已经被访过，再次执行（a）。

（b）如果此时S中不足k个点，则将当前结点加入到S中；如果S中已有k个点，且当前结点与p点的距离小于S中最长距离，则用当前结点替换S中距离最远的点。

（c）计算p点和当前结点切分线的距离。如果该距离大于等于S中距离p最远的距离并且S中已有k个点，执行3；如果该距离小于S中最远的距离或S中没有k个点，从当前结点的另一子节点开始执行1；如果当前结点没有另一子结点，执行3。

我们来举个例子：假设在上述建立好的kd树中查找p(-1,-5)的3个邻近点。

图中红点为p（-1，-5）

执行算法中的1。

·p点的-1与结点A的x轴坐标6比较，-1<6，向左走。

·p点的-5与结点B的y轴坐标-3比较，较小，往左走。

·因为结点C只有一个子结点，所以不需要进行比较，直接走到结点H。

进行算法中的2，标记结点H已访问，将结点H加入到S中。

此时S=｛H｝

绿点为H（-4，-10）

执行算法中的3，当前结点H不是根结点

·执行（a），回退到父结点C，我们将结点C标记为已访问

·执行（b），S中不足3个点，将结点C加入到S中

·执行（c）计算p点和结点C切分线的距离，可是结点C没有另一个分支，我们开始执行算法中的3。

S=｛H，C｝

当前结点C不是根结点

·执行（a），回退到父结点B，我们将结点B标记为已访问

·执行（b），S中不足3个点，将结点B加入到S中

·执行（c）计算p点和结点B切分线的距离，两者距离为 |（-3）-（-5）|=2，小于S中的最大距离。（S中的三个点与p的距离分别为

）。所以我们需要从结点B的另一子节点D开始算法中的1。此时S=｛H，C，B｝

从结点D开始算法中的1

·p点的-1与结点D的x轴坐标-2比较，-1 > -2，向右走。

·找到了叶子结点J，标记为已访问。

开始算法中的2

·S不空，计算当前结点J与p点的距离，为18.2，大于S中的最长距离

·所以我们不将结点J放入S中

此时集合S中仍为｛H，C，B｝

从结点I开始算法中的1，结点I已经是叶子结点

直接进行到算法中的2

标记结点I为已访问

计算当前结点I和p点的距离为17.464，大于S中最长距离，不进行替换。

S=｛D，C，B｝

执行算法中的3.

当前结点I不是根结点

·执行（a），回退到父结点D，但当前结点D已经被访问过。

·再次执行（a），回退到结点D的父结点B，也标记为访问过

·再次执行（a）,回退到结点B的父结点A，结点A未被访问过，标记为已访问。

·执行（b），结点A和p点的距离为12.207，大于S中的最长距离，不进行替换

·执行（c），p点和结点A切分线的距离为7，大于S中的最长距离，不进行替换