KNN K近邻

模型

相当于根据样本对特征空间进行了划分。

基本思路

求出某个样本与其他样本的距离,它的标签就是他最近的K个样本的标签

距离度量

欧氏距离
曼哈顿距离
l p l_p lp距离
https://blog.csdn.net/qq_21768483/article/details/83150449

K值选择

K值选的小
1.变得复杂,容易过拟合(对特征空间划分的更细)
2.对噪声敏感
K值选的大
1.模型简单,不相似的实例也会起作用

kd树

构造方法

1.任选一维特征,然后找出其取值的中位数,做垂直坐标轴的超平面
2.换一维。重复1
3.直至子区域没有样本

搜索方法

1.从根节点递归的向下找,直到子节点
2.以叶子节点为最近节点,逐层向上退
3.若果有更近的点出现就替换,并搜索该节点父节点的另一个子树,若果有更近的重复3,否则退回到父节点
4.到根节点时搜索结束

kd树的作用

Kd树的平均复杂度是 l o g N logN logN,N是训练集数量
Kd树适用于N远大于特征的维度。效率会显著提高
N接近于特征维度时,kd树效率下降,效果接近线性扫描

你可能感兴趣的:(机器学习,基础入门)