机器学习实战 KNN算法

# -*- coding: utf-8 -*-
"""
Created on Wed Jan 25 13:45:32 2017

@author: Administrator
"""

#KNN,K-近邻算法
from numpy import *
import operator #运算符模块

#建样本集
def createDataSet():
    group = array([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels
    
# k-近邻算法
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0] #获取样本集行数
    #算待分类数据(如[1.2,0.8])与样本集每行的欧拉距离    
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1) #按行相加,每一行都是dx^2 + dy^2
    distances = sqDistances**0.5
    #返回距离从小到大排序的索引,如[1.5, 1.4, 0, 0.1],返回的是[2, 3, 1, 0],即最小的数原来的索引为2,最大的数原来的索引为0 
    sortedDistIndicies = distances.argsort() 
    #返回前K个里面出现频率最高的,作为当前的预测分类    
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
        '''
         #get是取字典里的元素,如果之前这个voteIlabel是有的,那么就返回字典里这个voteIlabel里的值,
          如果没有就返回0(后面写的),这行代码的意思就是算离目标点距离最近的k个点的类别,这个点是哪个类别哪个类别就加1          
        '''
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True)
    '''
     #key=operator.itemgetter(1)的意思是
    按照字典里的值排序,{A:1,B:2},要按照值(A,B是键),即‘1’‘2’排序。reverse=True是降序排序
    '''
    return sortedClassCount[0][0]
        
    
    

测试如下:


结果:

'A'

你可能感兴趣的:(数据分析)