KNN算法(K-Nearest Neighbor Algorithm)是一种基本的机器学习算法,它可以用于分类和回归任务。
在KNN算法中,给定一个新的输入样本,通过计算其与已知数据集中每个样本之间的距离,找到与其最相似的K个样本,然后通过这K个样本的分类信息(对于分类问题)或者平均值(对于回归问题)来预测该输入样本的分类或者数值。
KNN算法的主要优点是简单易用、适用于多分类问题、适用于非线性分类问题等。然而,它的主要缺点是计算复杂度高,特别是当数据集很大时,计算距离需要较多的时间和计算资源。
KNN算法的应用场景包括图像识别、语音识别、文本分类、推荐系统等。例如,KNN算法可以用于图像分类问题,其中每个图像可以看作是一个输入样本,它的特征可以表示为图像的像素值。通过计算每个图像与已知的训练集中的图像之间的距离,可以找到与其最相似的K个图像,然后通过这K个图像的分类信息来预测该图像的分类。
什么是KNN(K近邻算法)?【知多少】_哔哩哔哩_bilibili
KNN和线性回归是两种不同的机器学习算法,它们在模型的构建和使用方法上有很大的差异:
模型类型:KNN是一种非参数模型,而线性回归是一种参数模型。
模型目标:KNN旨在通过寻找最近邻的样本来进行分类或回归预测,而线性回归旨在建立输入特征和目标变量之间的线性关系。
数据要求:KNN对数据的要求比较宽松,只需要样本具有可比性;而线性回归则要求样本符合线性关系。
计算方法:KNN算法需要计算新样本与每个训练样本之间的距离,然后找到最近的K个样本,对这K个样本进行加权求和或者多数表决来进行预测;而线性回归则是通过最小化目标变量与预测变量之间的误差平方和,来计算出回归系数和截距。
适用范围:KNN适用于多分类问题和非线性问题,如图像识别、文本分类等;而线性回归适用于连续数值预测问题,如房价预测、销售额预测等。
总之,KNN和线性回归是两种不同的机器学习算法,它们各有优缺点,适用于不同的场景和问题。在选择合适的算法时,需要考虑数据特征、模型要求和业务需求等多个因素。
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
# 定义训练数据
X_train = np.array([[1.2, 3.5], [1.4, 3.2], [1.3, 3.6], [1.5, 3.9], [1.7, 3.6], [1.8, 3.2]])
y_train = np.array(['Orange', 'Orange', 'Orange', 'Orange', 'Orange', 'Orange'])
# 定义测试数据
X_test = np.array([[1.6, 3.4], [1.5, 3.5], [1.3, 3.3], [1.2, 3.7], [1.7, 3.4]])
# 定义KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 拟合数据
knn.fit(X_train, y_train)
# 预测测试数据
y_pred = knn.predict(X_test)
# 打印预测结果
print(y_pred)
在这个例子中,我们首先定义了一些训练数据和测试数据。训练数据包括6个橘子的特征(重量和直径),以及它们的分类标签(橘子)。测试数据包括5个橘子的特征,我们要使用KNN算法对这些橘子进行分类。
然后,我们定义了一个KNN分类器,并使用训练数据来拟合它。接着,我们使用KNN分类器对测试数据进行预测,并打印预测结果。在这个例子中,我们假设K值为3,也就是说,我们要找到距离测试数据最近的3个训练数据,并通过它们的分类标签来预测测试数据的分类。
请注意,这只是一个简单的示例,实际上,我们需要更多的训练数据和更多的特征来训练一个更准确的KNN分类器。
当然这个数据是写死的,当然我们从外界读取文件,我们只需要导入一个pandas库,然后引入读取即可
data = pd.read_csv('路径文件名',encoding='gbk')
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
def main():
# 定义训练数据
X_train = np.array([[1.2, 3.5], [1.4, 3.2], [1.3, 3.6], [1.5, 3.9], [1.7, 3.6], [1.8, 3.2]])
y_train = np.array(['Orange', 'Orange', 'Orange', 'Orange', 'Orange', 'Orange'])
# 定义测试数据
X_test = np.array([[1.6, 3.4], [1.5, 3.5], [1.3, 3.3], [1.2, 3.7], [1.7, 3.4]])
# 定义KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 拟合数据
knn.fit(X_train, y_train)
# 预测测试数据
y_pred = knn.predict(X_test)
# 打印预测结果
print(y_pred)
if __name__ == "__main__":
main()
这样,我们就使代码更加紧凑和易读,并使用了函数将重复代码封装为一个函数,从而避免了重复输入。
# 请参照实验思路完成实训内容
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
import matplotlib.pyplot as plt
def main():
# 定义训练数据
X_train = np.array([[1.2, 3.5], [1.4, 3.2], [1.3, 3.6], [1.5, 3.9], [1.7, 3.6], [1.8, 3.2]])
y_train = np.array(['Orange', 'Orange', 'Orange', 'Orange', 'Orange', 'Orange'])
# 定义测试数据
X_test = np.array([[1.6, 3.4], [1.5, 3.5], [1.3, 3.3], [1.2, 3.7], [1.7, 3.4]])
# 定义KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)
# 拟合数据
knn.fit(X_train, y_train)
# 预测测试数据
y_pred = knn.predict(X_test)
# 打印预测结果
print(y_pred)
fig, ax = plt.subplots()
colors = {'Orange': 'red', 'Blue': 'blue'}
for i in range(len(X_test)):
ax.scatter(X_test[i][0], X_test[i][1], c=colors[y_pred[i]], label=y_pred[i])
ax.legend()
plt.show()
if __name__ == "__main__":
main()
这将创建一个新的窗口显示散点图。每个测试数据点都用一个点表示,并根据它们的预测类别用不同的颜色标记。