机器学习之KNN算法

以下内容学习自@jack cui,原文地址:

http://cuijiahua.com/blog/2017/11/ml_1_knn.html

KNN算法比较简单,其核心思想就是以测试样本与“模板库”当中的其他样本逐个比较,找到与其“距离”最近的K个元素,然后统计这K个样本中相同类别的数目,选取其中数目最多的一个分类作为测试样本的分类


image

下面我们就采用KNN实现判断新输入数据究竟属于“爱情片”还是“动作片”。
代码实现如下:

import numpy as np
import operator
def createDataSet():
    group = np.array([[1,101],[5,89],[108,5],[115,8]])
    labels = ['爱情片','爱情片','动作片','动作片']
    return group, labels
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndices = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndices[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]
if __name__ == '__main__':
    group, labels = createDataSet()
    test = [101,20]
    test_class = classify0(test, group, labels, 3)
    print(test_class)

结果如下所示:

动作片

其中,计算公式如下所示:


image

你可能感兴趣的:(机器学习之KNN算法)