knn的python代码_KNN-python代码实现

KNN属于机器学习中的监督学习,其核心思想即“物以类聚,人以群分”。

监督学习算法的基本流程

1.归一化数据样本集

2.划分样本集为训练集和测试集

3、以训练集为算法参考系,测试集来测试算法

4、计算预测样品标签和真实样品标签的比值来评估算法的准确率

5、调节不同的参数找到最优算法参数

代码实现

1.调用KNN函数来实现分类 (数据采用的是经典的iris数据,是三分类问题)

# 读取相应的库

from sklearn import datasets

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

import numpy as np

# 读取数据 X, y

iris = datasets.load_iris()

X = iris.data

y = iris.target

print (X, y)

# 把数据分成训练数据和测试数据(默认25为测试数据,75%为训练数据)#random_state=2003为随机数种子,作用参https://www.jianshu.com/p/4deb2cb2502f

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

# 构建KNN模型, K值(n_neighbors)为3、 并做训练(fit)

clf = KNeighborsClassifier(n_neighbors=3)

clf.fit(X_train, y_train)

# 计算准确率

from sklearn.metrics import accuracy_score

correct = np.count_nonzero((clf.predict(X_test)==y_test)==True)

print ("Accuracy is: %.3f" %(correct/len(X_test)))

#accuracy_score(y_test, clf.predict(X_test))

2.从零开始自己写一个KNN算法

# 读取相应的库,并导入数据

from sklearn import datasets

from collections import Counter # 为了做投票

from sklearn.model_selection import train_test_split

import numpy as np

# 导入iris数据

iris = datasets.load_iris()

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2003)

#欧式距离函数 与 分类函数

def euc_dis(instance1, instance2):

"""

计算两个样本instance1和instance2之间的欧式距离

instance1: 第一个样本, array型

instance2: 第二个样本, array型

"""

# TODO

dist = np.sqrt(sum((instance1 - instance2)**2))

return dist

def knn_classify(X, y, testInstance, k):

"""

给定一个测试数据testInstance, 通过KNN算法来预测它的标签。

X: 训练数据的特征

y: 训练数据的标签

testInstance: 测试数据,这里假定一个测试数据 array型

k: 选择多少个neighbors?

"""

# TODO 返回testInstance的预测标签 = {0,1,2}

distances = [euc_dis(x, testInstance) for x in X]

kneighbors = np.argsort(distances)[:k]

count = Counter(y[kneighbors])

return count.most_common()[0][0]

#预测结果

predictions = [knn_classify(X_train, y_train, data, 3) for data in X_test]

correct = np.count_nonzero((predictions==y_test)==True)

#accuracy_score(y_test, clf.predict(X_test))

print ("Accuracy is: %.3f" %(correct/len(X_test)))

你可能感兴趣的:(knn的python代码)