KNN算法简单实战

KNN算法简单实战

  • KNN算法简介
  • KNN算法思路
  • KNN算法实战
    • 数据集
    • 具体代码
    • 运行结果
  • 总结

KNN算法简介

KNN算法又称K近邻(knn,k-NearestNeighbor)分类算法,K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN通过测量不同特征值之间的距离进行分类。

KNN算法思路

取样本在特征空间中的k个最近的邻居,判断它们的分类情况,KNN算法将样本预测为k个最近邻居中大多数的分类情况。

KNN算法实战

参考博客
https://www.cnblogs.com/xuyiqing/p/8762066.html

数据集

使用mnist特征提取后的数据集,对于每一个mnist图像,通过CNN网络提取出1024个特征,每个图像的1024个特征保存在一行,每行最后一个数字是图像的标签,即数字[0,9]。我总共准备了1000个数据集。
数据集可从此下载,提取码: ttnr
https://pan.baidu.com/s/1Xei_yIK1BOY0cuFC4Lp0MA

具体代码

import csv
import random
import math
import operator

# 训练集
trainingSet = []
# 测试集
testSet = []


def loadDataset(filename):
    with open(filename, 'r') as file:  # 打开文件,文件句柄为file
        lines = csv.reader(file)  # 将每行数据当做列表返回
        dataset = list(lines)
#        trainSetnum = ((len(dataset) - 1) * 2) / 3;
#        print(len(dataset))
        for x in range(len(dataset) - 1):  # 遍历读取的每一行列表
            for y in range(1024):
                dataset[x][y] = float(dataset[x][y])  #因为一开始读取出来是str类型的,所以要将其转化为float类型
            if random.random() < 0.7:  # 随机赋值给训练集和测试集
                trainingSet.append(dataset[x])  # x表示的是行数
            else:
                testSet.append(dataset[x])


def euclideanDistance(instance1, instance2, length):  # 扩展到多维的欧式距离,根号(x1^2+...xi^2)
    distance = 0
    for x in range(length):
        distance += pow((instance1[x] - instance2[x]), 2)
    return math.sqrt(distance)


def getNeighbors(k, testInstance):  # 计算训练集中每一项与该实例的欧氏距离,取最近的k个
    distances = []
    length = len(testInstance) - 1;  # 这个是条目的维数,之所以要减1是因为最后一位是标签
    for x in range(len(trainingSet)):  # 遍历所有的训练集
        dist = euclideanDistance(testInstance, trainingSet[x], length)  # 计算每一个条目与当前条目的欧氏距离
        distances.append((trainingSet[x], dist))  # 把那个对应的条目和欧式距离压入数组
    distances.sort(key=operator.itemgetter(
        1))  # operator模块提供的itemgetter函数用于获取对象的哪些维的数据,opearator.itemgetter是定义了一个函数,这里是以条目的第二个域来进行排序
    neighbors = []
    for x in range(k):      #取欧拉距离最近的k个训练集
        neighbors.append(distances[x][0])
    return neighbors


def getResponse(neighbors):          # 统计类别次数,然后返回次数最多的类别作为最终的结果
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]  # 取每个邻居的最后一维,即标签
#        print(response,end=" ")
        if response in classVotes:   # 如果标间存在classVotes列表中,则对应条目加1,否则新建条目
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)  # 按照classVotes的第二个域来排序,classVotes的结构是一个个键值对构成的列表,比如“5”:1,表示邻近k个元素中标签为5的元素有1个
#    print(classVotes)
    return sortedVotes[0][0]


def getAccuracy(predictions):  # 验证精确度,将测试级中预测的类别和测试集中正确的类别对比,得出精确百分比
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct / float(len(testSet))) * 100.0


def main():
    loadDataset(r'data.txt')
    print('Train set:' + repr(len(trainingSet)))
    print('Test Set:' + repr(len(testSet)))
    predictions = []
    k = 3
    for x in range(len(testSet)):
        neighbors = getNeighbors(k, testSet[x])#首先获得距测试集第x个元素距离前k的邻居
        result = getResponse(neighbors)        #返回预测的结果
        predictions.append(result)
        print('>predicted=' + repr(result) + ',actual=' + repr(testSet[x][-1]))#输出预测的结果和真实的结果
    accuracy = getAccuracy(predictions)
    print('Accuracy:' + repr(accuracy) + '%')

if __name__ == '__main__':
    main()

运行结果

KNN算法简单实战_第1张图片KNN算法简单实战_第2张图片
取了两次测试的结果,可以看到当数据集够大的时候效果还是不错的,之前只有100个数据集的时候,准确率只有百分60左右,代码原理基本都有注释,如还有不懂可以看下我参考的那篇博客,也可以私信我一起讨论。

总结

KNN算法应该是最简单的一类分类算法了,个人觉得当做分类算法的入门学习还是很不错的,如有问题,请指正。

你可能感兴趣的:(分类算法)