《统计学习方法》第三章总结

第三章讲的是K邻近法,一种基本分类与回归的方法。简单描述就是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类。

《统计学习方法》第三章总结_第1张图片

例如上图,图中有红色的三角形类和蓝色的方块类,绿色的是待分类的对象,如果我们取K=3,那么很显然在绿色圆周围有两个红的一个蓝的,绿色的圆应该归为红色的一类,但是如果选择K=5,绿色的圆周围有三个蓝的两个红的,绿色的应该归为蓝色的一类。由此我们也可以看出,如果K比较小,对数据就比较敏感,只在小的范围内起作用;如果K比较大,对数据就不会很敏感,较大范围内的数据都会发生作用,也会造成误差,正如上图中K取5的情况。因此在K邻近法中很关键的一点就是K的取值要适当。

《统计学习方法》第三章总结_第2张图片

K邻近法使用的模型实际上对应于特征空间的划分。模型由三个基本要素——距离度量,K的选择,分类决策规则决定。

特征空间中两个实例点的距离是两个实例点相似程度的反映。常见的欧式距离,曼哈顿距离。

《统计学习方法》第三章总结_第3张图片

《统计学习方法》第三章总结_第4张图片

分类决策规则是使误分类率即经验风险最小,所以多数表决规则等价于经验风险最小化。

KD数是K邻近法实现的一种方法。是一种对K维空间实例点进行存储以便对其进行快速检索的树形数据结构kd树是二叉树,表示对K维空间的划分。

《统计学习方法》第三章总结_第5张图片《统计学习方法》第三章总结_第6张图片《统计学习方法》第三章总结_第7张图片

举个例子:

《统计学习方法》第三章总结_第8张图片

确定:split=x。具体是:6个数据点在xy维度上的数据方差分别为3928.63,所以在x轴上方差更大,故split域值为x

确定:Node-data = 7,2)。具体是:根据x维上的值将数据排序,6个数据的中值(所谓中值,即中间大小的值)7,所以Node-data域位数据点(7,2)。这样,该节点的分割超平面就是通过(7,2)并垂直于:split=x轴的直线x=7

确定:左子空间和右子空间。具体是:分割超平面x=7将整个空间分为两部分:x<=7的部分为左子空间,包含3个节点={(2,3),(5,4),(4,7)};另一部分为右子空间,包含2个节点={(9,6)(8,1)}

    如上算法所述,kd树的构建是一个递归过程,我们对左子空间和右子空间内的数据重复根节点的过程就可以得到一级子节点(5,4)和(9,6),同时将空间和数据集进一步细分,如此往复直到空间中只包含一个数据点。最后得到如图所示的图形结构以及最终的kd树。

《统计学习方法》第三章总结_第9张图片 《统计学习方法》第三章总结_第10张图片

利用kd树,我们可以对数据进行快速的查询与搜索。

《统计学习方法》第三章总结_第11张图片

《统计学习方法》第三章总结_第12张图片

举一个例子:

《统计学习方法》第三章总结_第13张图片《统计学习方法》第三章总结_第14张图片


你可能感兴趣的:(统计学习方法)