距离度量:
K值的选取:K值的选取一般可以采用交叉验证法,且一般小于训练集样本量的平方根
分类决策规则:多数表决等价于误分类数最小
1.简述K近邻算法的基本步骤
2.简述K近邻算法的三要素
答:距离度量 、K值的选取、分类决策规则
3.简述距离的定义,以及欧氏距离、曼哈顿距离以及切比雪夫距离的定义
欧氏距离
曼哈顿距离:计算所有特征下的绝对距离,再求和
切比雪夫距离:找到所有特征下的绝对距离最大值
4.K值选取遵循的一般原则是什么?K值选择过大或者过小会对K近邻法的结果产生何种影响
答:K值的选取一般可以采用交叉验证法,且一般小于训练集样本量的平方根。
较小的k值,学习的近似误差减小,但估计误差会增大,敏感性增强,而且模型复杂,容易过拟合。较大的k值,减少学习的估计误差,但近似误差增大,而且模型简单。
1.KD树的概念
KD树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树型数据结构。
本质:二叉树,表示对k维空间的一个划分
构造过程:不断地用垂直于坐标轴的超平面将k维空间切分,形成k维超矩形区域
kd树的每个节点对应于一个K维超矩形区域
注意:KD 树这里的K代表的是数据的特征维度,而k近邻中的k指的是距离新实例点最近的k个邻居。
要让数据划分成两部分之后,系统整体的信息熵降低。
参考文献
[1]孙立东,吉孟宇.基于K近邻算法的平面结构变形场实时测量方法[J/OL].应用科技:1-7[2022-12-22].
[2]李航著.统计学习方法.北京:清华大学出版社.