1. 基本原理
K最近邻(K-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法之一,其基本思路与“近朱者赤,近墨者黑”的原理类似,当对未分类样本进行分类时,首先判断其与已分类样本之间的特征相似度,然后将其划分到大多数已分类样本所属类别之中。
已知训练样本集中每个样本对应的类别,当对新样本进行分类时,首先将新样本的特征与训练样本集中的样本特征进行比较,进而提取K个与其最相似(即在特征空间中最邻近)的已知类别的样本,然后将K个已知类别样本中包含样本数最多的类别标识分配给新样本。
2. 求解步骤
(1)计算新样本与所有已分类样本之间的特征距离(距离类型可为欧氏距离、曼哈顿距离等);
(2)按照递增次序对特征距离进行排序;
(3)选择K个特征距离最相近的已分类样本(值一般选择为奇数)。
(4)确定K个已分类样本所属类别出现的次数(投票法)。
(5)将K个已分类样本所属类别出现频率最高的类别作为新样本的预测分类。
对于k值的选择,是knn算法的重中之重
如图所示,如果k=3,圆球属于红色所示类别;而当k=5时圆球则属于蓝色所示类别。
3. 易出现的问题
问题1:数据不平衡时,如何解决?
当所属不同类别样本数量偏差较大时(即样本不平衡),易导致近邻算法失败。
例如:一个类的样本数量很大,而其他类样本数量很小,则新样本的K个近邻样本更可能属于样本数量较大的类别,因而会将其错分至样本数量较大的类别。
解决方法:距离权重。
为了提高对新样本分类的可靠性,通常需要在个已分类样本上的基础上附加相应的权重(如距离的倒数),已分类样本距离新样本越近,则为新样本分配已分类样本所属类别的权重越大。
问题2:采用什么距离?
特征空间中,两个实例点的距离是两个实例点的相似程度的反映。
K近邻算法通常采用曼哈顿距离、欧氏距离、马式距离等度量方式,其中,欧氏距离是最常用的距离计算公式,主要衡量多维空间中各个点之间的绝对距离;曼哈顿距离度量方式适用于路径的选择;马式距离适用于排除量纲并考虑特征之间的依存关系时的特征相似度度量。
在具体应用时,应当根据样本特征选择相应的距离度量,由不同的距离度量所确定的邻近样本是不同的。
问题3:特征取值之间的偏差?
在计算样本之间的相似性时,取值较大的特征可能会消减取值较小的特征对分类的影响。
如包含体重与身高的两特征向量:
X1=[80, 1.6]
X2=[60, 1.7]
在计算两者之间的相似度(如采用曼哈顿距离)时,
D(X1, X2)=|80-60|+|1.6-1.7|=20+0.1=20.1(约等于20)
由于体重特征取值较大,则取值较小的身高特征对分类的影响几乎可以忽略(实际上身高特征对分类影响可能很大)。
解决办法:将所有的数据映射同一尺度。
此问题的解决方法是将所有的样本映射同一尺度,即采用数据标准化(归一化)方法消除指标之间的量纲影响(不同评价指标往往具有不同的量纲和量纲单位,会影响到数据分析的结果)。
原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
最小最大值归一化:通过对样本值进行线性变化,将结果值映射到[0,1]之间
X = (X-Xmin)/(Xmax-Xmin)
调用sklearn库中的preprocessing 进行归一化
from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()
x = min_max_scaler.fit_transform(X) # X为需要归一化的数据集合 x为已归一化的结果
4. python中 scikit-learn库的使用
5. 应用实例
构建一组训练数据(训练样本)对测试数据进行分类并绘图显示:
#训练样本(前4个为A类,后3个为B类)
x_train = np.array([[4, 5], [6, 7], [4.8, 7], [5.5, 8], [7, 8], [10, 11], [9, 14]])
y_train = [‘A’, ‘A’, ‘A’, ‘A’, ‘B’, ‘B’, ‘B’]
#测试样本(6个)
x_test = np.array([[3.5, 7], [9, 13], [8.7, 10], [5, 6], [7.5, 8], [9.5, 12]])
# 图表正确显示中文
from pylab import mpl
mpl.rcParams['font.sans-serif']=['SimHei']
mpl.rcParams['axes.unicode_minus']=False
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
#训练样本(前4个为A类,后3个为B类)
x_train = np.array([[4, 5], [6, 7], [4.8, 7], [5.5, 8], [7, 8], [10, 11], [9, 14]])
y_train = ['A', 'A', 'A', 'A', 'B', 'B', 'B']
#测试样本(6个)
x_test = np.array([[3.5, 7], [9, 13], [8.7, 10], [5, 6], [7.5, 8], [9.5, 12]])
#KNN分类预测
knn = KNeighborsClassifier(n_neighbors=3,p=2)
knn.fit(x_train, y_train)
y_predict = knn.predict(x_test) #T=0/1
#显示结果
plt.xlabel('X'); plt.ylabel('Y'); plt.title('KNN')
plt.plot(x_train[0:4,0], x_train[0:4,1], color='red', marker='o', label='One Class (A)', linestyle='') #显示”A”类
plt.plot(x_train[4:8,0], x_train[4:8,1], color='blue', marker='s', label='Two Class (B)', linestyle='') #显示”B”类
for i in range(len(x_test)): #显示预测结果
if y_predict[i] == 'A':
plt.plot(x_test[i,0], x_test[i,1], color='green', marker='o')
plt.text(x_test[i,0]-0.3, x_test[i,1]+0.3, str(i) + '->A')
else:
plt.plot(x_test[i,0], x_test[i,1], color='green', marker='s')
plt.text(x_test[i,0]-0.3, x_test[i,1]+0.3, str(i) + '->B')
plt.legend(loc='upper left')
plt.grid(True)
plt.show()