02 KNN算法 - KD Tree

KD Tree是KNN算法中用于计算最近邻的快速简便的构建方式。

当样本量少的时候，用brute直接搜索最近邻的方式是可行的。即计算到所有样本的距离。但当样本量庞大时，直接计算所有样本距离的工作量很大，这种情况使用KD Tree可以节约大量时间成本。

KD Tree构建方式

KD树采用从m个样本的n维特征中，分别计算n个特征取值的方差，用方差最大的第k维特征n_k 作为根节点。对于这个特征，选择取值中的中位数 n_kv 作为样本的划分点，对于小于该值的样本划分到左子树，对于大于等于该值的样本划分到右子树，对左右子树采用同样的方式找方差最大的特征作为根节点，递归产生KD Tree。

为什么要选择方差最大的进行划分？
构建树的目的是加快我的搜索过程。
既然我想加快我的搜索过程，要就意味着我最终的数据落在某个叶子节点上。我希望只需搜索整个二叉树的某一些列即可，那么最好的划分方式，就是让我的每个分支上数据的差异性最大化。

那么衡量数据差异性的最基础的数学指标是什么？
是方差。方差越大，意味着数据的离散程度就越大，我将离散程度由大到小的数据一分为二，方差小意味着数据更集中到了一起。

KD Tree

示例 KD_Tree的构建：

现在有一个二维样本: {(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)}

1、计算x1和x2每一列对应的方差

a、通过pandas计算出的是样本方差:
/ (n-1)

import numpy as np
import pandas as pd

data = np.array([
        [2,3],
        [5,4],
        [9,6],
        [4,7],
        [8,1],
        [7,2]
    ])

df = pd.DataFrame(data)
df.var()

0| 6.966667
1| 5.366667
dtype: float64

b、通过numpy计算出的是总体方差:
/ n

import numpy as np
import pandas as pd
data = np.array([
        [2,3],
        [5,4],
        [9,6],
        [4,7],
        [8,1],
        [7,2]
    ])
print(data)
mean =np.mean(data,axis = 0)
var = np.var(data,axis = 0)
a_var = np.sum(pow(data-mean,2),axis = 0)/6
print(var)
print(a_var)

[[2 3]
[5 4]
[9 6]
[4 7]
[8 1]
[7 2]]
[ 5.80555556 4.47222222]
[ 5.80555556 4.47222222]