k-NN 简单总结

k-NN(k-nearest neighbor)(k近邻法):
1、适用场景:可用于分类(可用于多分类)和回归。
以下讨论分类问题。
2、综述:
不具有显式的学习过程。
利用训练数据集对特征向量空间进行划分,并作为其分类的模型。
判别模型
3、**K近邻法的三个基本要素:**k值的选择,距离度量,分类决策规则。
4、基本思想:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
5、具体过程:
输入:训练集;实例x
输出:类别y
找邻域
根据分类决策规则决定类别。
6、距离度量:距离是相似程度的反映。k近邻模型一般使用的是欧氏距离,其他距离:
L_p距离:欧氏距离,曼哈顿距离。
由不同的距离度量所确定的最近邻点是不一样的。
7、k值的选择:
较小的k值:近似误差小,估计误差大,模型复杂,容易发生过拟合。
较大的k值:近似误差增大,估计误差变小,模型变得简单。
k=N是不可取的,忽略了训练实例中的大量有用信息。
应用中,一般会选择较小的k,通常采用交叉验证法来选取最优k值。
8、近似误差:可理解为训练误差,即与训练集的拟合程度。
估计误差:是对误差大小的估计。与函数集的大小成反比,即函数集大时,包含正解的概率越大,估计误差越小,反之。
9、分类决策规则:往往用多数表决。多数表决规则等价于经验风险最小化。
10、k近邻法的实现: kd树。
kd树:一种对k维空间中的实例点进行存储以便对其进行快速检索的树形存储结构,kd树是二叉树。
kd树的构造
kd树的搜索:平均时间复杂度O(log N),N是训练实例数。kd树更适用于实例数远大于空间维数时的k近邻搜索,当空间维数接近实例数时,效率会迅速下降,几乎接近线性扫描。

参考:李航《统计学习方法》

你可能感兴趣的:(统计学习)