K近邻 (k-nearest neighbor k-NN)(面试要点)

k近邻法不具有显式的学习过程,也就是说没有模型

k近邻三个要素:

  1. k值的选择(一般使用交叉验证)
    k值增大可以减少学习的估计误差,但也会使学习近似误差变大,使模型变得简单。

  2. 距离度量(一般会使用欧式距离 or 更一般的 Lp L p 距离 or 曼哈顿距离)

  3. 分类决策规则
    往往是使用多数表决,即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。
    多数表决规则等价于经验风险最小化

kd树的实现
__ KD树建树采用的是从m个样本的n维特征中,分别计算n个特征的取值的方差,用方差最大的第k维特征 nk n k 来作为根节点。对于这个特征,我们选择特征 nk n k 的取值的中位数 nkv n k v 对应的样本作为划分点,对于所有第k维特征的取值小于 nkv n k v 的样本,我们划入左子树,对于第k维特征的取值大于等于 nkv n k v 的样本,我们划入右子树,对于左子树和右子树,我们采用和刚才同样的办法来找方差最大的特征来做更节点,递归的生成KD树。

你可能感兴趣的:(机器学习)