机器学习之k-近邻算法

K-近邻算法

K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法

1️⃣、什么是k-近邻算法

定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别

2️⃣、相似度:就是指两个点之间的距离

​ ①,欧氏距离
d i s t a n c e = ∑ i n ( a i − b i ) 2 distance = \sqrt{\sum_i^n (a_i-b_i)^2} distance=in(aibi)2

3️⃣、电影类型分析

机器学习之k-近邻算法_第1张图片
①、目标值:电影类型,特征值:打斗镜头,接吻镜头
机器学习之k-近邻算法_第2张图片
k=1,爱情片[爱情片] 选取一个样本

​ k=2,爱情片[爱情片,爱情片] 选取两个样本

​ k=3,爱情片[爱情片,爱情片,爱情片] 选取三个样本

​ k=4,爱情片[爱情片,爱情片,爱情片,动作片] 。。。。。。

​ k=6,[爱情片,爱情片,爱情片,动作片,动作片,动作片] 。。。。。。。

注:对于这个样本来说

  • k需要人指定,k是一个超参数,更多是依靠人自身的经验
  • k取很大值,受到样本均衡的影响
  • k取很小值,容易受到异常点的影响

4️⃣、 K-近邻算法API

  • sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
  • n_neighborsint,可选(默认= 5),k_neighbors查询默认使用的邻居数
  • algorithm{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

5️⃣、鸢尾花数据

  • 步骤分析
    • 获取数据集与分割数据集
    • 特征工程:标准化
    • 模型训练评估

案例:鸢尾花种类预测代码实现

# 获取数据集,加载鸢尾花数据集
from sklearn.datasets import load_iris
# 分割数据集
from sklearn.model_selection import train_test_split
# 特征工程:标准化
from sklearn.preprocessing import StandardScaler
# K-近邻算法API
from sklearn.neighbors import KNeighborsClassifier


def knn_demo():
	'''knn算法对鸢尾花数据集分类演示'''
    # 获取数据集
    iris = load_iris()
    
    
    # 分割数据集,参数(特征值,目标值,划分比例)
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=8)
    
    
    # 特征工程:标准化
    # ✨ 实例化一个转换器类
    transfer = StandardScaler()
    # 传入数据调用fit_transform进行转换
    x_train = transfer.fit_transform(x_train)
    # 因为来自于同一个数据集,所以用上一个的标注差就行,因为均值,标准差是一样的。
    x_test = transfer.transform(x_test)
    
    # 模型训练和评估
    # 实例化一个估计器
    estimator = KNeighborsClassifier()
    # 传入训练数据集,进行机器学习
    estimator.fit(x_train, y_train)
    
    
    
    # 模型评估
    # 方法1:比较真实值和预测值, y_predict预测值
    y_predict = estimator.predict(x_test)
    print('预测值为:\n', y_predict)
    print('比较真实值与预测值结果为:\n', y_predict == y_test)
    # 方法2:直接计算模型准确率
	print('模型准确率为:\n', estimator.score(x_test, y_test))
    return None

# ✋ 调用函数输出结果。
knn_demo()

KNN算法总结

  • 优点:
    • 简单,易于理解,易于实现,无需训练
  • 缺点:
    • 懒惰算法,对测试样本分类时的距离计算量大,时间复杂度高,内存开销大
    • 必须指定K值,k值选择不当则分类精度不能保证
  • 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试

你可能感兴趣的:(机器学习)