简单来说:k-近邻算法(knn)采用测量不同特征值之间的距离算法进行分类
优点:精度高、对异常值不敏感、无数据输入假定
缺点:计算复杂度高、空间复杂度高
适用数据范围:数值型和标称型
工作原理:存在一个训练样本集,样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似(最近邻)的分类标签。一般来说,只选择样本数据集中前k个最相似的数据。通常k是不大于20的整数。
# -- coding: utf-8 --
import numpy as np
import operator
def createDataSet():
# 创建数据集
group = np.array([[1.0, 1.1], [1.1, 1.0], [0, 0], [0, 0.1]])
labels = ['A', 'A', 'B', 'B']
return group, labels
def classify0(inX, dataSet, labels, k):
# inX为新输入数据,array类型 1*2
# dataSet为输入的训练样本集(不含标签),array类型 4*2
# labels为标签,array类型 1*4
# k为选择近邻数目
# 以上数据大小仅为此数据集大小
dataSetSize = dataSet.shape[0]
# array.shape[0] 提取array的行数 此处dataSetSize为4
diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1)
distances = sqDistances ** 0.5
# 以上部分计算各点之间欧式距离
sortedDistIndicies = distances.argsort()
# argsort函数返回的是数组值从小到大的索引值
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
# 将按距离排列后的实例的标签提取出来
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
# 获得key为voteIlabel的value,进行加一操作
# sortedClassCount = sorted(classCount.iteritems(),
# key=operator.itemgetter(1), reverse=True)
# 原文代码如上,在python3环境下报错,改为如下代码可运行,具体含义见下文
sortedClassCount = sorted(classCount.items(),
key=operator.itemgetter(1), reverse=True) # true为降序
return sortedClassCount[0][0]
if __name__ == "__main__":
group, labels = createDataSet()
a = classify0([0, 0], group, labels, 3)
print(a)
因为有的函数不是很熟悉,所以冲浪去搜了一波用法,具体解释如下:
numpy.tile(): 把数组沿各个方向复制,例如上面的代码dataSetSize为4,可以写为
diffMat = np.tile(inX, (4, 1)) - dataSet
将inX([0,0])沿x轴复制1次,再沿y轴复制4次,得到的结果为
[[0 0]
[0 0]
[0 0]
[0 0]]
最后的diffMat结果是上面的结果和dataSet相减的结果,为
[[-1. -1.1]
[-1.1 -1. ]
[ 0. 0. ]
[ 0. -0.1]]
这就是计算欧式距离的第一步,对所有点执行(x0-x1,y0-y1)操作,之后进行平方操作
sqDiffMat = diffMat ** 2
numpy.sum(): 以代码为例
sqDistances = sqDiffMat.sum(axis=1)
含义是将sqDiffMat[0][j],sqDiffMat[1][j]的对应项相加,即[1,1.21,0,0]+[1.21,1,0,0.01]=[2.21,2.21,0,0.01]
得出的结果是开平方之前的结果,即每个点与预测点距离的平方
之后进行开方操作得到欧氏距离
distances = sqDistances ** 0.5
sorted()和operator.itemgetter(): 原文代码
sortedClassCount = sorted(classCount.items(),
key=operator.itemgetter(1), reverse=True)
对classCount的每一个items对象进行降序排序,排序的依据是对象第一域的值
classCount经过计算为[('B', 2), ('A', 1)]
,意为,距离前三近的店里面,标签为B的出现了两次,为A的出现了一次,items为('B', 2)
和 ('A', 1)
,按照第一域排序即按照2和1进行排序。
参考博客:
numpy.tile():
https://blog.csdn.net/qq_18433441/article/details/54897250
numpy sum axis详解:
https://www.cnblogs.com/zhouyang209117/p/6512892.html
numpy中argsort函数用法:
https://blog.csdn.net/maoersong/article/details/21875705
Python 字典(Dictionary) get()方法:
https://www.runoob.com/python/att-dictionary-get.html
Python中的sorted函数以及operator.itemgetter函数:
https://www.cnblogs.com/100thMountain/p/4719503.html