KNN算法(K近邻学习)

KNN算法


邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
Cover和Hart在1968年提出了最初的邻近算法。

特点: KNN是一种分类(classification)算法,它输入基于实例的学习(instance-based learning),属于懒惰学习(lazy learning)即KNN没有显式的学习过程,也就是说 没有训练阶段 ,数据集事先已有了分类和特征值,待收到新样本后直接进行处理。


 
#    KNN算法流程

#    1)计算测试数据与各个训练数据之间的距离;
#  2)按照距离的递增关系进行排序;
#  3)选取距离最小的 K 个点;
#  4)确定前 K 个点所在类别的出现频率;
#  5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类
import numpy as np
import operator


def createDataset():
    # 6 组二维特征
    group = np.array([[5, 115], [7, 106], [56, 11], [66, 9], [51, 51], [16, 79]])
    # 6 组类标记
    labels = ('S Class', 'B Class', 'C Class', 'D Class', 'E Class', 'F Class')
    return group, labels


def KNN(intX, dataSet, labels, k):

    # KNN算法

	#####    1)计算测试数据与各个训练数据之间的距离;

    # numpy中shape[0]返回数组dataSet的行数,shape[1]返回dataSet的列数
    dataSetSize = dataSet.shape[0]

    # 将intX在横向重复dataSetSize次,纵向重复1次
    # 例如intX=([1,2])--->([[1,2],[1,2],[1,2],[1,2]])便于后面计算
    diffMat = np.tile(intX, (dataSetSize, 1)) - dataSet
    # 二维特征相减后乘方
    sqdifMax = diffMat ** 2
    # 计算距离 axis=1 把列看作一个整体   axis=0 把行看作一个整体
    seqDistances = sqdifMax.sum(axis=1)
    distances = seqDistances ** 0.5
    print("distances:", distances)

	#####  2)按照距离的递增关系进行排序;

    # 返回distance中元素从小到大排序后的 索引
    sortDistance = distances.argsort()
    print("sortDistance:", sortDistance)
    classCount = {}

	#####  3)选取距离最小的 K 个点;
	#####  4)确定前 K 个点所在类别的出现频率;
	
    for i in range(k):
        # 取出前k个元素的类别
        voteLabel = labels[sortDistance[i]]
        print("第 %d 个 voteLabel = %s" % (i, voteLabel))
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
    # dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。

	#####  5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类

    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # reverse :True = 降序排序字典 , False = 升序排序字典
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # 结果sortedClassCount = [('动作片', 2), ('爱情片', 1)]
    print("sortedClassCount:", sortedClassCount)
    return sortedClassCount[0][0]


if __name__ == '__main__':
    group, labels = createDataset()
    test = [20, 101]
    test_class = KNN(test, group, labels, 3)
    print(test_class)

你可能感兴趣的:(Data,Mining)