机器学习学习日志--KNN

渣渣的学习日志(一)---KNN算法

根据斯坦福大学CS231n的课程,在学习CNN之前,要先对一些机器学习的算法进行系统的学习,最先接触到的就是KNN算法
    KNN(k-nearest neighbor)算法用我个人的理解就是,通过对测试集和数据集进行特征值上的距离计算,来确定距离测试集最近的K个数据,(K值不是定死的,andrej的意思是要通过一种交叉算法来确定最好的K),这K个数据的标签进行投票(也就是取相同标签数最大的那个),投票结果就是该测试集的标签。   

那么整个过程我们需要做的步骤有哪些呢?

首先得先计算距离,这个距离我理解的是对特征值求一种差,andrej给了一种就绝对值和的方法还有欧拉距离公式(可以自行百度),把这个过程放在对图片上,应该就是对每一个像素点求欧拉距离。
其次就是对距离排序,这个应该比较好理解。
之后是要求一个最好的K值出来,较为简单的就是,把数据集均分,拿一份来作为测试集,找出最好的K;还可以费事一点,把每一份都当作一次测试集,循环进行,找出较好的K。

之前看了一篇文章讲的蛮清楚: 点击打开链接
里面的代码也很清楚,希望有兴趣的同学可以一起讨论。

小泰留 6.5

你可能感兴趣的:(机器学习学习日志--KNN)