KNN(K-Nearest Neighbor)k个最近邻分类算法思想及原理

KNN算法思想:一个样本决定分类时,依靠其最近的K样本的分类结果,来确定该样本的分类结果。
这就引出了KNN算法的三要素:K值选择、距离度量标准、分类决策规则。
距离度量标准:
KNN算法的距离度量标准常用的二维空间度量,即欧式距离:在这里插入图片描述
距离度量在p维空间的距离公式为:
在这里插入图片描述
当p= 1时,成为曼哈顿距离:
在这里插入图片描述
当p = 2时,为欧式距离。
当p = 无穷大时:
在这里插入图片描述
KNN算法一般都用欧式距离,但其他度量距离也可使用。
K值选择:
K值的选择对整体的算法结果会产生重大影响,K值的选择可以使用“手肘法”,即选用不同的K值,计算其loss,loss下降梯度最快的点,就是KNN算法可以考虑选用的点。
K值过大或过小都会对模型产生很大的影响。
当K值过小的时候,如K为1,则只有与输入样本距离极近的点才会对结果产生影响,而当极近的点刚好又是噪音时,则预测结果可能并不理想。K值过小会使模型产生过拟合,且模型不具备泛化。
当K值过大时,模型会简单,输入样本会偏向于输出训练实例中多的类。
分类决策规则:
多数表决法:即当输入样本K近邻的训练实例中,n个属于1,k-n属于2,n>k-n,则预测结果为1。

你可能感兴趣的:(统计学,算法,机器学习)