数据仓库与数据挖掘——k-Neareat Neighbors

 一、基本介绍

        k-近邻算法又称kNN,全称是k-Nearest Neighbors算法,它是数据挖掘和机器学习中常用的学习算法,也是机器学习中最简单的分类算法之一。kNN算法用一句通俗的古语来说就是:“物以类聚,人以群分,要判断一个实例的类别,就可以看它附近是什么类别。kNN的使用范围很广泛,在样本量足够大的前提条件之下它的准确度非常高。

二、核心思想

        计算每个训练数据到待分类元组的距离,取和待分类元组最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

三、原理演示

        首先计算每个训练数据到待分类元组的距离:

数据仓库与数据挖掘——k-Neareat Neighbors_第1张图片

        取k=5,选择k个和待分类元组最近的k个训练数据: 

数据仓库与数据挖掘——k-Neareat Neighbors_第2张图片

        k个数据中红色样本占多数,则待分类元组分类为红色。 

数据仓库与数据挖掘——k-Neareat Neighbors_第3张图片

四、算法流程图

数据仓库与数据挖掘——k-Neareat Neighbors_第4张图片

五、关键源码展示

1、导入数据

数据仓库与数据挖掘——k-Neareat Neighbors_第5张图片

2、计算距离,进行分类

数据仓库与数据挖掘——k-Neareat Neighbors_第6张图片

3、输出分类结果

数据仓库与数据挖掘——k-Neareat Neighbors_第7张图片

数据仓库与数据挖掘——k-Neareat Neighbors_第8张图片

六、拓展实验

        人工添加二维点阵数据集,测试在二维数据下的分类效果

数据仓库与数据挖掘——k-Neareat Neighbors_第9张图片数据仓库与数据挖掘——k-Neareat Neighbors_第10张图片

你可能感兴趣的:(算法,算法,数据挖掘)