支持向量机（二）

Kernel Ⅰ

对于上图的数据集，我们之前使用的是多项式模型来对数据集进行分类操作。我们可能使用的模型为θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₁x₂ + θ₄x₁² + θ₅x₂² + ...

对于该模型当θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₁x₂ + θ₄x₁² + θ₅x₂² + ... ≥ 0时，我们可以预测y = 1。因此，该模型的假设函数为：

上述模型中，我们使用高阶项来更好地拟合数据集。但我们通常不清楚这些高阶项是否满足我们的需求，而且高阶项其计算量过大。因此，我们寻求使用新的特征变量来替代这些高阶项。例如：令f₁ = x₁，f₂ = x₂，f₃ = x₁x₂，f₄ = x₁²，f₅ = x₂²，...，从而我们的模型变为θ₀ + θ₁f₁ + θ₂f₂ + θ₃f₃ + θ₄f₄ + θ₅f₅ + ...

除此之外，我们可以利用核函数（Kernel Function）来计算出新的特征。

给定一个训练实例x，我们利用x的各个特征与我们预先选定的地标（landmark）l⁽¹⁾，l⁽²⁾，l⁽³⁾距离大小来构造新的特征变量f₁，f₂，f₃。

通过使用核函数我们可以构建新的特征变量。

图中similarity(x, l)函数即为高斯核函数（Gaussian Kernel Function）。

其中

表示实例x中所有特征与地标l⁽¹⁾之间的距离的和。因此，我们以f₁为例，将其改写为：

我们根据x与地标距离的大小，可得出如下结论：

其中，关于σ²的取值，我们可以根据下图得出相关结论。

即σ²的值越大，特征变量f_i的变化曲线就越平滑，模型出现低方差高偏差问题；σ²的值越小，特征变量f_i变化曲线就越陡峭，模型出现高方差低偏差问题。

假设对于下图数据集，我们使用的模型为θ₀ + θ₁f₁ + θ₂f₂ + θ₃f₃，当其大于等于零时，我们可以预测y = 1，其中θ₀ = -0.5，θ₁ = 1，θ₂ = 1，θ₃ = 0。

图中紫红色x与地标l⁽¹⁾的距离小，因此我们可以认为f₁ ≈ 1；而x与地标l⁽²⁾和l⁽³⁾距离较大，我们可以认为f₂ ≈ 0，f₃ ≈ 0。从而我们可以计算出θ₀ + θ₁f₁ + θ₂f₂ + θ₃f₃ = 0.5 ≥ 0，因此我们可以预测在紫红色x处y = 1。同理，我们可以预测天蓝色x处y = 0，绿色x处y = 1。因此，我们可以画出红色线条表示的判定边界，其内的我们都可以预测y = 1，其外则y = 0。

Kernel Ⅱ

给定一个数据集为(x⁽¹⁾, y⁽¹⁾)，(x⁽²⁾, y⁽²⁾)，···，(x^(m), y^(m))，我们令l⁽¹⁾ = x⁽¹⁾，l⁽²⁾ = x⁽²⁾，···，l^(m) = x^(m)。通常我们利用上述方法选择相应的地标，然后我们再利用核函数构建新的特征变量f₁，f₂，···，f_m。因此，我们可将代价函数J(θ)改写为：

支持向量机（二）

Kernel Ⅰ

Kernel Ⅱ

你可能感兴趣的:(支持向量机（二）)