很抱歉这一篇文章与上一篇之间隔了太长时间,这期间发生了太多事…好多事不想提,还是好好学深度学习,好好写博客
邻近算法,或者说K最近邻(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,意思是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。
它是Cover和Hart在1968年提出的,输入基于实例的学习(instance-based learning),懒惰学习(lazy learning),是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路非常简单直观:如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
它的算法步骤如下:
(1)准备数据,对数据进行预处理
(2)选择参数K
(3)计算测试样本点(也就是待分类点)到其他每个样本点的距离
(4)对每个距离进行排序,然后选择出距离最小的K个点
(5)对K个点所属的类别进行比较,根据少数服从多数的原则,将测试样本点归入在K个点中占比最高的那一类
我们需要注意以下细节:
关于距离K的衡量方法:
一般使用Euclidean distance
计算公式如下:
其他距离衡量:余弦值(cos),相关度(correlation),曼哈顿距离(Manhattan distance)
算法优点:简单,易于理解,容易实现,通过对K的选择可具备丢噪音数据的健壮性
算法缺点:
(1)需要大量空间储存所有已知实例
(2)算法复杂度高(需要比较所有已知实例与要分类的实例)
(3)当其样本分布不平衡时,比如其中一类样本过大(实例数量过多)占主导的时候,新的未知实例容易被归类为这个主导样本,因为这类样本实例的数量过大,但这个新的未知实例实际并未接近目标样本
下面来看一下代码如何实现:
首先引入需要的包
import csv
import random
import math
import operator
自定义装载数据集函数
def loadDataset(filename, split, trainingSet=[], testSet=[]):
with open(filename, 'rt') as csvfile:
lines = csv.reader(csvfile)#读出所有行
dataset = list(lines)#转化为list数据结构
for x in range(len(dataset)-1):
for y in range(4):
dataset[x][y] = float(dataset[x][y])
if random.random() < split:
#if random.randrange(len(trainingSet)) < split:
trainingSet.append(dataset[x])#加入训练集
else:
testSet.append(dataset[x])#加入测试集
自定义计算距离的函数
def euclideanDistance(instance1, instance2, length):#length为纬度
distance = 0
for x in range(length):
distance += pow((instance1[x]-instance2[x]), 2)#平方函数
return math.sqrt(distance)#开方
返回最近的中心点
def getNeighbors(trainingSet, testInstance, k):
distances = []
length = len(testInstance)-1
for x in range(len(trainingSet)):
dist = euclideanDistance(testInstance, trainingSet[x], length)
distances.append((trainingSet[x], dist))
distances.sort(key=operator.itemgetter(1))#定义函数key,获取对象的第1个域的值
neighbors = []
for x in range(k):
neighbors.append(distances[x][0])
return neighbors
投票法则,看归于哪一类
def getResponse(neighbors):
classVotes = {
}
for x in range(len(neighbors)):
response = neighbors[x][-1]
if response in classVotes:
classVotes[response] += 1
else:
classVotes[response] = 1
sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
return sortedVotes[0][0]
预测出的所有值的准确率有多少
def getAccuracy(testSet, predictions):
correct = 0
for x in range(len(testSet)):
if testSet[x][-1]==predictions[x]:
correct += 1
return (correct/float(len(testSet)))*100.0
主函数:
def main():
#prepare data
"""
:rtype: object
"""
trainingSet = []
testSet = []
split = 0.70#1/3数据为测试集
loadDataset('irisdata.txt', split, trainingSet, testSet)
print ('Train set: ' + repr(len(trainingSet)))
print ('Test set: ' + repr(len(testSet)))
#generate predictions
predictions = []
k = 3
correct = []
for x in range(len(testSet)):
neighbors = getNeighbors(trainingSet, testSet[x], k)
result = getResponse(neighbors)
predictions.append(result)
#print ('test: ' + repr(testSet))
print ('predictions: ' + repr(predictions))
print ('>predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))
if result == testSet[x][-1]:
correct.append(x)
# print "len:"
# print len(testSet)
# print "correct:"
# print len(correct)
accuracy = (len(correct)/float(len(testSet)))*100.0
print('Accuracy: ' + repr(accuracy) + '%')
if __name__ == '__main__':
main()