机器学习之k-NN(学习笔记一)

原理思想:如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。

算法过程:

1)计算已知类别数据集里面的点与当前点之间的距离;

2)按照距离递增的次序进行排序;

3)选择与当前点(待分类点)距离最小的k个点作为评判标准;

4)确定前k个点中,各个点的数量,或是概率有多少;

5)概率多大的,或数出现率最高的类别作为当前点的预测分类;


K值选择问题,因为它对K近邻算法的结果会产生重大影响。


1、如果选择较小的K值,就相当于用较小的领域中的训练实例进行预测,“学习”近似误差会减小,只有与输入实例较近或相似的训练实例才会对预       测结果起作用,与此同时带来的问题是“学习”的估计误差会增大,换句话说,K值的减小就意味着整体模型变得复杂,容易发生过拟合;

2、如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。这                时候,与输入实例较远(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单。

3、K=N,则完全不足取,因为此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的累,模型过于简单,忽略了训练实例中大                量有用信息。
   

在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值。


你可能感兴趣的:(机器学习)