机器学习----knn算法

1.题目分析

使用原生python实现knn分类算法,并使用鸢尾花数据集。


knn算法介绍

KNN(k-Nearest Neighbor)算法,即k最近邻算法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

其优点:

1.简单,易于理解,易于实现,无需估计参数,无需训练;

2. 适合对稀有事件进行分类;

3.特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。

缺点:

(1)最大的不足之处:当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。

(2)计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

(3)可理解性差,无法给出像决策树那样的规则。


2.算法设计

2.1  KNN模型算法流程图如下图所示:

机器学习----knn算法_第1张图片

2.2(1)首先定义一个KNN()类;

     (2)定义__init__()方法进行初始化,设k值为3;

     (3)定义fit()方法,传入训练集x_tra

你可能感兴趣的:(机器学习----knn算法)