数据挖掘——支持向量机

支持向量机

考虑以下的两类训练样本集

特征1

特征2

类标

1

1

+

2

2

+

2

0

+

0

0

-

1

0

-

0

1

-

(1) 在图中画出这6个训练样本点和支持向量机对应的最优超平面(决策边界),并写出对应的超平面方程;

(2) 假设增加一些训练样本点,这些点能被正确分类且远离最优超平面(决策边界),说明最优超平面(决策边界)不受新增训练样本点影响,而线性回归会受影响的原因;

(3) 指出哪些是支持向量,并求出两个异类支持向量到最优超平面(决策边界)的距离之和;

(4) 通过寻找拉格朗日待定乘数来构造对偶空间的解,并将其与(1)中结果作比较。

答:

(1)
数据挖掘——支持向量机_第1张图片

超平面方程:X1 + X2 - 1.5 = 0;
(2)
如果这个数据点本身在margin之外“+”的那一侧,那么判决边界不受影响。
如果这个数据点在margin之内,或者在margin之外“-”的那一侧,那么这个点一定会成为新的支持向量。但是,判决边界并不一定发生变化,因为这个数据点可能能够被目标函数中的容错项处理掉。
由于新增了训练样本点,线性回归曲线需要根据新增的点重新拟合。所以线性回归必然会受影响。
(3)

支持向量:(1,0), (0,1), (2,0), (1,1)。

距离之和:/2。

(4)


然后令

要求约束条件得到满足的情况下最小化,实际上等价于直接最小化

目标函数变成了 这里用表示这个问题的最优值

不妨把最小和最大的位置交换一下,变成:

 交换以后的新问题是原始问题的对偶问题,这个新问题的最优值用来表示。而且有,

在满足某些条件的情况下,这两者相等,这个时候就可以通过求解对偶问题来间接地求解原始问题。

化简后得到

数据挖掘——支持向量机_第2张图片

求对的极大即:数据挖掘——支持向量机_第3张图片


根据

即可求出b,w最终得出分离超平面和分类决策函数。

你可能感兴趣的:(data,mining)