K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn

写在前面的话:哈喽,大家早安、午安、晚安喽,欢迎大家指点,也希望我的内容可以温暖、帮助同在学习路上的人们~

正文开始~~


今天主要是学习一个机器学习非常强大的开源框架-Scikit-Learn,这个框架的入门可以查看莫烦视频莫烦 Scikit learn and Python 优雅学会机器学习这个视频浅显易懂,期待新作,谢谢。然后,着重学习并且学会利用scikit-learn的官网文档scikit-learn官网文档

上一篇K近邻(k-nearest neighbor, k-NN)算法笔记-Python(一)中的K-NN算法,主要是通过线性扫描、计算输入实例与每一个训练实例的距离等,但是这样在数据量很大的时,非常耗时,因此,为了提高K-NN搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。今天主要谈谈其中的KD树(K-dimensional tree)。

再次申明:本文的理论知识来自Peter Harrington的《机器学习实战》和李航的《统计学习方法》,非常感谢这些优秀人物和优秀书籍


KD树简介:KD树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构,是二叉树。构造KD树相当于不断地用垂直于坐标轴的超平面将k维空间划分,构成一系列的k维超矩形区域。KD树的每个结点对应于一个k维超矩形区域。KD树不适合维度在20以上的数据。

K-NN搜索KD树:首先找到包含目标点的叶结点;然后从该叶结点出发,依次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。这样搜索就被限制在空间的局部区域上,效率大为提高。

接下来,我们将基于scikit-learn的KDTree模块来实现一次K-NN分类

scikit-learn里基于KDTree模型:KDTree(X, leaf_size=40, metric='minkowski',**kwargs),模型参数解释:X是样本特征值矩阵;leaf_size是指树的叶片大小,也就是叶子结点数目。leaf_size的大小不会影响查询结果,但是会影响查询的速度以及结构树的存储空间,默认为40;metric是定义测度点之间距离的方式,默认Default=’minkowski’ with p=2(也就是一般的欧几里得距离)

预热:先练习一下KDTree模型,见图1


K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn_第1张图片
图1 KDTree上手小栗子

接下来,我们依旧根据上一篇K近邻(k-nearest neighbor, k-NN)算法笔记-Python(一)中的数据集来分类。基于scikit-learn的KDTree来实现KNN算法的流程如下:

1、准备数据(获取数据并且归一化等),代码见图2

K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn_第2张图片
图2 获取数据以及归一化

2、基于KDTree模块进行KNN分类,代码见图3


K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn_第3张图片
图3 基于KDTree的KNN分类方法

3、测试该基于KDTree模块的KNN算法的有效性,代码见图4


K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn_第4张图片
图4 基于KDTree的KNN分类方法的有效性验证

以上就是基于scikit-learn的KDTree模块实现的KNN算法,从运行结果看,算法的有效性和效率都显著提升。

好哒,这部分内容先到这,请各位大牛拍砖,也希望我的内容可以帮助大家,还是那句话:如果对您有用,请不吝赐本菜鸟一杯咖啡钱哈,多谢多谢~~

你可能感兴趣的:(K近邻(k-nearest neighbor, k-NN)算法笔记(二)-scikit-learn)