sklearn.neighbors提供基于邻居的有监督和无监督的学习方法。无监督最近邻方法是很多学习方法的基础，特别是流形学习和谱聚类。有监督的最近邻方法包括：离散数据的分类、连续数据的回归。
最近邻方法的原理是，找到指定数量的最近样本点，然后根据这些点去预测新的点。样本点的数量可以由用户定义（k-最近邻）或者基于点的局部密度。距离度量标准可以有很多种，欧式距离是最常用的选择。基于邻居的方法被称为non-generalizing machine learning，因为它只是“记住”训练数据（可能转化为一个快速的索引结构，如BallTree或KDTree）。
尽管很简单，但是最近邻方法能解决大量分类和回归问题，包括手写数字或卫星图像识别，作为一种非参数方法，在分类边界不规则的情况下通常是有效的。

无监督的最近邻

NearestNeighbors 执行无监督的最近邻方法，有三种不同的最近邻算法：BallTree、KDTree、a brute-force algorithm based on routines in sklearn.metrics.pairwise，邻居的搜索算法通过关键词 ‘algorithm’ 控制，选项包括['auto', 'ball_tree', 'kd_tree', 'brute']，当设置为‘auto’时，算法将通过训练数据决定最好的方法。
Warning：在最近邻算法中，当有两个点和预测点的距离相同但标签不同时，结果将依赖点在训练数据中的顺序。

KDTree和BallTree

可以使用KDTree或BallTree直接发现最近邻。
KDTree和BallTree的详细解释：
http://blog.csdn.net/skyline0623/article/details/8154911

最近邻算法

Brute Force

快速计算最近邻是机器学习中一个活跃的研究领域。最简单的方法是计算数据集中每两个点之间的距离，在小型数据集上，brute-force很有竞争力，然而随着样本数的增长，brute-force变得不可行。

KDTree

为了解决brute-force方法计算效率低下，发明了各种基于树的数据结构。一般情况下，这些结构通过有效编码汇总样本距离信息，来减少所需的距离计算量。基本思想是，如果A离B比较远，B 离C比较近，所以A 离C比较远，而不用明确计算。

构建k-d树（createKDTree）

输入：数据点集Data-set和其所在的空间Range
输出：Kd，类型为k-d tree
1.If Data-set为空，则返回空的k-d tree
2.调用节点生成程序：
（1）确定split域：对于所有描述子数据（特征矢量），统计它们在每个维上的数据方差。
以SURF特征为例，描述子为64维，可计算64个方差。挑选出最大值，对应的维就是split域的值。
数据方差大表明沿该坐标轴方向上的数据分散得比较开，在这个方向上进行数据分割有较好的分辨率；
（2）确定Node-data域：数据点集Data-set按其第split域的值排序。
位于正中间的那个数据点被选为Node-data。此时新的Data-set' = Data-set\Node-data（除去其中Node-data这一点）。
3.dataleft = {d属于Data-set' && d[split] ≤ Node-data[split]}
Left_Range = {Range && dataleft} dataright = {d属于Data-set' && d[split] > Node-data[split]}
Right_Range = {Range && dataright}
4.left = 由（dataleft，Left_Range）建立的k-d tree，即递归调用createKDTree（dataleft，Left_
Range）。并设置left的parent域为Kd；
right = 由（dataright，Right_Range）建立的k-d tree，即调用createKDTree（dataright，Right_
Range）。并设置right的parent域为Kd。

查找算法

从root节点开始，DFS搜索直到叶子节点，同时在stack中顺序存储已经访问的节点。
如果搜索到叶子节点，当前的叶子节点被设为最近邻节点。
然后通过stack回溯:
如果当前点的距离比最近邻点距离近，更新最近邻节点.
然后检查以最近距离为半径的圆是否和父节点的超平面相交.
如果相交，则必须到父节点的另外一侧，用同样的DFS搜索法，开始检查最近邻节点。
如果不相交，则继续往上回溯，而父节点的另一侧子节点都被淘汰，不再考虑的范围中.
当搜索回到root节点时，搜索完成，得到最近邻节点。

选择方差最大的维度作为当前节点的划分维度，方差越大，说明这个维度上的数据波动越大，也就说明了他们就越不可能属于同一空间，需要在这个维度上对数据点进行划分。KDTree在维度小于20的情况下搜索是非常快的。

BallTree

为了解决高维问题，发明了BallTree。KDTree沿着笛卡尔轴划分数据，BallTree使用超球面。虽然建立树的成本大于KDTree，但是在高维数据上非常有效。
BallTree 递归地将数据划分成一个质心C和半径R定义的节点，使得每个点位于由R和C定义的超球体内。通过使用三角不等式减少搜索次数。
有了这个设置，测试点和质心之间的距离计算，已经足够确定测试点和这个节点内所有点的距离的上界和下界。由于BallTree 节点的球形几何形状，它可以执行高维的KD树，但实际的性能是高度依赖于训练数据的结构。

叶子大小

Brute force 在小样本上比树结构更高效，这解释了BallTree和KDTree 在叶子节点内部转换到Brute force 搜索。这种转换可以通过参数 leaf_size 设置，这个参数有很多影响：
创建时间：比较大的leaf_size ，创建比较快，因为需要创建的节点变少；
查询时间：默认 leaf_size=30
内存：随着leaf_size 增加，存储一棵树所需要的内存是下降的，在BallTree中这非常重要。BallTree 需要的内存空间近似是训练数据规模的1/leaf_size。

Nearest Centroid Classifier

Approximate Nearest Neighbors

来源：http://scikit-learn.org/stable/modules/neighbors.html

scikit-learn--Nearest Neighbors(最近邻)

无监督的最近邻

KDTree和BallTree

最近邻分类

最近邻回归