k近邻(KNN)的Python实现

K近邻算法:


复杂度:训练时间复杂度为0,如果训练集中文档总数为N特征维度为D则暴力做法分类时间复杂度为O(DN)。可以用K-D Tree或Ball-Tree优化成O(Dlog(N))。
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。


K近邻算法原理:

输入一个新的没有标签的数据后,将新数据的每个特征值与训练样本集中数据的对应的特征进行比较,选择训练样本数据集中前K个最相似的数据,最后,选择K个最相似数据中出现次数最多的分类,作为新数据的分类。


k值设定:

k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。(对距离加权,可以降低k值设定的影响)
k值通常是采用交叉检验来确定(以k=1为基准)
经验规则:k一般取3,上限为训练样本数的平方根。


kNN.py:


import numpy as np


# 使用KNN分类
def kNNClassify(newInput, dataSet, labels, k):
    numSamples = len(dataSet)

    # 计算欧拉距离
    diff = np.tile(newInput, (numSamples, 1)) - dataSet
    squaredDiff = diff ** 2
    squaredDist = np.sum(squaredDiff, axis=1)
    distance = squaredDist ** 0.5

    # 距离排序
    sortedDistIndices = np.argsort(distance)

    # 计算前k个出现的次数
    classCount = {}
    for i in range(k):
        voteLabel = labels[sortedDistIndices[i]]
        classCount[voteLabel] = classCount.get(voteLabel, 0) + 1

    # 找出最大的返回
    maxCount = 0
    for key, value in classCount.items():
        if value > maxCount:
            maxCount = value
            maxIndex = key

    return maxIndex


def main():
    # 创建数据集
    def createDataSet():
        group = [[1.0, 0.9], [1.0, 1.0], [0.1, 0.2], [0.0, 0.1]]
        labels = ['A', 'A', 'B', 'B']
        return group, labels

    dataSet, labels = createDataSet()

    testX = [1.2, 1.0]
    outputLabel = kNNClassify(testX, dataSet, labels, 3)
    print("测试数据:", testX, "被分类到: ", outputLabel)

    testX = [0.1, 0.3]
    outputLabel = kNNClassify(testX, dataSet, labels, 3)
    print("测试数据:", testX, "被分类到: ", outputLabel)

if __name__ == '__main__':
    exit(main())


输出结果:


测试数据: [1.2, 1.0] 被分类到:  A
测试数据: [0.1, 0.3] 被分类到:  B


你可能感兴趣的:(Python,机器学习)