机器学习-K最近邻(KNN)算法

注:部分图片来源于贪心学院训练营 ,部分来源于网络。

就像学习任何编程语言一样,都要从认识‘hello world’开始。在机器学习算法里面,
KNN算法也相当与这个角色。
定量说一下:理解代码核心不超过5分钟,从零写KNN代码不超过5行。

机器学习-K最近邻(KNN)算法_第1张图片

看到这里估计大家知道我想说明什么了。没错,KNN算法就是一种分类算法。

机器学习-K最近邻(KNN)算法_第2张图片

看到这个绿色的圆形,我们猜测一下,应该给他分到哪一个类别里面呢。
属于蓝色方块还是红色三角呢?
我想到这里应该呼之欲出了,大脑里面有个初步的印象,那就是随离我近我就应该属于谁。
但是这样仅仅是对了一小半。
其实,真相是:关键在于KNN中的K上面,K=3时候,表示我周围这些类别(这里说成点吧)的点,
计算出离我最近的3个点,看一下这3个点属于哪个类别的机会最大。
我们看到上面这个图,第一个圈里面表示K=4,他在计算离绿色圆点距离最小的4个点,
我们发现这4个点中最多的属于红色三角类别。那我们暂时判定绿色的这个点属于红色三角类别。
下面看一个实例,他是一个二维的数据。横坐标代表工作年限,纵坐标代表
对应的薪资。这里有一个注意的问题就是,如果这个薪资单位是元,这个时
候就会说13000,12000的这样的数据。但是此时横坐标代表工作年限是用年
为单位,会出现量纲不匹配的现象。比如说,(0.8,11.2)就会变成
(0.8,11200),这样的话在训练模型的时候,工作年限的影响就

你可能感兴趣的:(机器学习入门)