机器学习之sklearn(knn)
提示:以下是本篇文章正文内容,下面案例可供参考
KNN(K-Nearest Neighbor)是最简单的机器学习算法之一,可以用于分类和回归,是一种监督学习算法。它的思路是这样,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。也就是说,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
代码如下(示例):
import re
import numpy as np
import jieba
from sklearn.neighbors import NearestNeighbors
from sklearn.neighbors import KDTree
from sklearn.neighbors import BallTree
def nar():
# 定义一个数组
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
#n_neighbors = 2, 默认值为2,表示查询k个最近邻的数目
#指定用于计算最近邻的算法,auto表示试图采用最适合的算法计算最近邻,fit(X)表示用X来训练算法['auto', 'ball_tree', 'kd_tree', 'brute']
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
# 返回距离每一个点k个最近的点和距离指数,indices能够理解为表示点的下标,distances为距离
distances, indices = nbrs.kneighbors(X)
print(indices)
print(distances)
# 输出的是求解n个最近邻点后的矩阵图,1表示是最近点,0表示不是最近点
list=nbrs.kneighbors_graph(X).toarray()
print(list)
#metric:用于树的距离度量。默认'minkowski与P = 2(即欧氏度量)。
#须要存储树的规模约n_samples / leaf_size内存量。
#为指定的leaf_size,叶节点是保证知足leaf_size <= n_points < = 2 * leaf_size,
#测试 KDTree
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
kdt = KDTree(X, leaf_size=30, metric="euclidean")
list1=kdt.query(X, k=3, return_distance=False)
print(list1)
# 测试 BallTree
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
bt = BallTree(X, leaf_size=30, metric="euclidean")
list2=bt.query(X, k=3, return_distance=False)
print(list2)
if __name__=="__main__":
nar()
代码如下(示例):
#使用scikit - learn的KNN算法进行分类(iris(鸢尾花)数据集)
#sklearn内部集成了iris的数据集,所以不需要下载,直接使用,iris相当于编程界的hellword,测试用的
from sklearn.datasets import load_iris
from sklearn import neighbors
def nar():
# 查看iris数据集
iris = load_iris()
print(iris)
knn = neighbors.KNeighborsClassifier()
print(iris.target)
# 训练数据集
knn.fit(iris.data, iris.target)
# 预测
#predict = knn.predict([[2.1, 4.2, 3.3, 2.4]])
predict = knn.predict([[0.1, 0.2, 0.3, 0.4]])
#分类结果
print(predict)
#分类结果对应花的名字
print(iris.target_names[predict])
if __name__=="__main__":
nar()
结果输出:
[0]
['setosa']
优点:
1)算法简单,理论成熟,既可以用来做分类也可以用来做回归。
2)可用于非线性分类。
3)没有明显的训练过程,而是在程序开始运行时,把数据集加载到内存后,不需要进行训练,直接进行预测,所以训练时间复杂度为0。
4)由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属的类别,因此对于类域的交叉或重叠较多的待分类样本集来说,KNN方法较其他方法更为适合。
5)该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量比较小的类域采用这种算法比较容易产生误分类情况。
缺点:
1)需要算每个测试点与训练集的距离,当训练集较大时,计算量相当大,时间复杂度高,特别是特征数量比较大的时候。
2)需要大量的内存,空间复杂度高。
3)样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少),对稀有类别的预测准确度低。
4)是lazy learning方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢。
注意,为了克服降低样本不平衡对预测准确度的影响,我们可以对类别进行加权,例如对样本数量多的类别用较小的权重,而对样本数量少的类别,我们使用较大的权重。 另外,作为KNN算法唯一的一个超参数K,它的设定也会算法产生重要影响。因此,为了降低K值设定的影响,可以对距离加权。为每个点的距离增加一个权重,使得距离近的点可以得到更大的权重。
KNN:
1、分类算法
2、监督学习
3、数据集是带Label的数据
4、没有明显的训练过程,基于Memory-based learning
5、K值含义 - 对于一个样本X,要给它分类,首先从数据集中,在X附近找离它最近的K个数据点,将它划分为归属于类别最多的一类
K-means:
1、聚类算法
2、非监督学习
3、数据集是无Label,杂乱无章的数据
4、有明显的训练过程
5、K值含义- K是事先设定的数字,将数据集分为K个簇,需要依靠人的先验知识
1、K-means本质上是无监督学习,而KNN是监督学习;K-means是聚类算法,KNN是分类(或回归)算法。
2、K-means算法把一个数据集分割成簇,使得形成的簇是同构的,每个簇里的点相互靠近。该算法试图维持这些簇之间有足够的可分离性。由于无监督的性质,这些簇没有任何标签。KNN算法尝试基于其k(可以是任何数目)个周围邻居来对未标记的观察进行分类。它也被称为懒惰学习法,因为它涉及最小的模型训练。因此,它不用训练数据对未看见的数据集进行泛化。
相似点:算法都包含给定一个点,在数据集中查找离它最近的点的过程。
接下来对KNN算法的思想总结一下:就是在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:
1)计算测试数据与各个训练数据之间的距离;
2)按照距离的递增关系进行排序;
3)选取距离最小的K个点;
4)确定前K个点所在类别的出现频率;
5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
【https://www.cnblogs.com/ybjourney/p/4702562.html】
【https://zhuanlan.zhihu.com/p/53084915】