本专栏计划借助Pandas与sklearn重新实现书中的实战案例。
源代码及数据见Github
对未知类别属性的数据集中的每个样本依次执行以下操作:
1、计算已知类别数据集中的点与当前点之间的距离;
2、按照距离递增次序排序;
3、选取与当前点距离最小的k个点;
4、确定前k个点所在类别的出现频率;
5、返回前k个点所出现频率最高的类别作为当前点的预测分类。
海伦女士一直使用在线约会网站寻找适合自己的约会对象,她发现自己交往过的人可以进行如下分类:
不喜欢的人、魅力一般的人、极具魅力的人
海伦收集约会数据已经有了一段时间,她把这些数据存放在文本文件datingTestSet2.txt
中,每个样本数据占据一行,总共有1000行。样本主要包含以下三个特征:
1.每年获得的飞行常客里程数
2.玩视频游戏所消耗时间百分比
3.每周消费的冰淇淋公升数
#从文本中解析数据
import pandas as pd
def file2matrix(filename):
"""
parameters:
filename
return:
dataset, labels
"""
# provided sample is tab separated and no columns name
dataset = pd.read_csv(filename, sep='\t',header=None, names=["frequentFlyerMiles", "VideoGamePlayed", "IceCreamEaten", "labels"])
#print(dataset)
features_matrix = dataset.iloc[:, :3]
labels = dataset.iloc[:,3]
return features_matrix, labels
dataset, labels = file2matrix('datingTestSet2.txt')
dataset.head()
import matplotlib.pyplot as plt
def show_data(dataset, labels):
color_label = []
for i in labels:
if i == 1:
color_label.append('green')#dislike
elif i == 2:
color_label.append('blue')#smallDoses
elif i == 3:
color_label.append('yellow')#largeDoses
fig = plt.figure(figsize=(15,5))
ax = fig.add_subplot(131)
ax.set_xlabel('玩视频游戏所占时间比')
ax.set_ylabel('每周消费的冰淇淋公斤数')
ax.scatter(dataset.iloc[:,1], dataset.iloc[:,2], c=color_label)
ax = fig.add_subplot(132)
ax.set_xlabel('每年的飞行里程数')
ax.set_ylabel('玩视频游戏所占时间比')
ax.scatter(dataset.iloc[:,0], dataset.iloc[:,1], c=color_label)
ax = fig.add_subplot(133)
ax.set_xlabel('每周消费的冰淇淋公斤数')
ax.set_ylabel('每年的飞行里程数')
ax.scatter(dataset.iloc[:,2], dataset.iloc[:,0], c=color_label)
plt.show()
show_data(dataset, labels)
通过可视化数据,我们似乎也能发现一些规律,例如从子图二中可以发现海伦似乎更喜欢那些每年有一定飞行里程数并且又有一定的玩游戏时间占比的约会对象。
在使用欧氏距离计算样本之间的距离时,差值大的属性对计算结果的影响也较大,而在上述三个特征中,每年获取的飞行常客里程数对于计算结果的影响将远远大于其他两个特征-玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。而产生这种现象的唯一原因,仅仅是因为飞行常客里程数远大于其他的特征值。
海伦认为这三种特征是同等重要的,因此作为三个等权重的特征之一,飞行常客里程数并不应该如此严重地影响到计算结果。
在处理这种不同取值范围的特征值时,我们通常采用的办法是将数值归一化,例如将取值范围变成0到1之间。
def normfeature(x):
x_min = x.min()
x_max = x.max()
x = (x-x_min) / (x_max-x_min)
return x, x_min, x_max-x_min
from sklearn import neighbors
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(dataset, labels, test_size=0.1)
clf = neighbors.KNeighborsClassifier(n_neighbors=3)
clf.fit(x_train, y_train)
#print(clf.get_params()) # 模型参数
clf.score(x_test, y_test) # 测试集得分
#模型存储与加载
#import joblib
#joblib.dump(clf, 'model.pkl')
#clf_knn = joblib.load('model.pkl')
下面是对KNeighborsClassifier
模型的一些其余实验:
print(y_test[:10])
print(x_test[:10])
clf.predict(x_test[:10]) #预测
可以发现编号为200、624的样本被预测错了, 笑哭…,接下来的实验以数据集中编号为624的样本进行。
print(dataset.iloc[624,:])
print(labels.iloc[624])
print(x_test.iloc[7].values.reshape(1,-1))
print(clf.predict(x_test.iloc[7].values.reshape(1,-1))) #预测
my_neighbors = clf.kneighbors(x_test.iloc[7].values.reshape(1,-1))
print(my_neighbors)
for i in my_neighbors[1][0]:
#print(labels[i]) 错误示范 注意是测试集中样本索引
print(y_train.iloc[i])
接下来我们使用模型来对海伦的约会对象进行分类。
import numpy as py
def classifyperson():
resultlist = ['not at all', 'in small doses', 'in large doses']
percentTats = float(input("玩视频游戏所消耗时间百分比:"))
ffMiles = float(input("每年获得的飞行常客里程数:"))
iceCream = float(input("每周消费的冰淇淋公升数:"))
# 生成NumPy数组,测试集
inArr = np.array([ffMiles, percentTats, iceCream])
# 测试集归一化
norminArr = (inArr - x_min) / ranges
print(norminArr)
result = clf.predict(norminArr.values.reshape(1, -1))
#print(result, type(result))
print("你可能%s这个人" % (resultlist[result[0] - 1]))
classifyperson()
import pandas as pd
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
import numpy as np
def img2vector(filename):
"""
convert img text file to vector
return: 1*1024 vector
"""
dataframe = pd.read_fwf(filename, widths=[1]*32, header=None)
return dataframe.values.reshape(-1)
#return np.ravel(dataframe) #亦可行
testvector = img2vector('testDigits/0_0.txt')
print(testvector)
import os
def handwriting():
# preparing training dataset
train_dir = os.listdir('trainingDigits')
m = len(train_dir)
#print(m)
train_labels = []
train_data = []
for i in range(m):
file_name = train_dir[i]
#print(file_name)
str_name = file_name.split('.')[0] # 0_0
str_class = str_name.split('_')[0] # 0
train_labels.append(int(str_class))
train_data.append(img2vector('trainingDigits/%s' % file_name))
#print(len(train_labels))
#print(len(train_data))
train_labels = pd.Series(train_labels)
#print(train_labels)
train_data = pd.DataFrame(train_data)
#print(train_data)
#print(type(train_data))
print('training dataset has been prepared')
test_dir = os.listdir('testDigits')
m_test = len(test_dir)
test_labels = []
test_data = []
for i in range(m_test):
file_name = test_dir[i]
#print(file_name)
str_name = file_name.split('.')[0] # 0_0
str_class = str_name.split('_')[0] # 0
test_labels.append(int(str_class))
test_data.append(img2vector('testDigits/%s' % file_name))
#print(len(train_labels))
#print(len(train_data))
test_labels = pd.Series(test_labels)
#print(train_labels)
test_data = pd.DataFrame(test_data)
#print(train_data)
#print(type(train_data))
print('test dataset has been prepared')
return train_data, train_labels, test_data, test_labels
train_data, train_labels, test_data, test_labels = handwriting()
clf = neighbors.KNeighborsClassifier(n_neighbors=3)
clf.fit(train_data, train_labels)
clf.score(test_data, test_labels)
test_predict = clf.predict(test_data) #预测
print(test_predict)
print(sum(test_predict!=test_labels)) #12
KNN优点:
KNN缺点:
1、Pandas input/output 官方文档
2、本书源代码 Github地址 基于Python2.6
3、sklearn.neighbors 官方文档