论文笔记:Support vector domain description(Tax,Duin1999)

目录

1. 概要

2. 数学模型

3. 引入核函数

4. Experiment and Analysis


1. 概要

        Ref: David M.J. Tax, Robert P.W. Duin, Support vector domain description, PRL1999

        SVDD直译过来就是(基于)支持向量(的)数据描述。

        相对于Schölkopf-OCSVM中的(超)平面分割的方法,Tax-Din-SVDD采用了利用特征空间中的(超)球进行分割的. Tax-Din-SVDD中,算法对训练样本进行估计得到一个超球包含所有训练样点,并最小化该超球的体积。

2. 数学模型

        考虑由N个样本数据构成的训练数据集\chi = \{x_1,x_2,...,x_N\},目标是找到一个体积最小的超球包括所有(或绝大多数)数据样点。这个超球的体积对于处于最外围的样本非常敏感,如果很少量的样本处于很远的外围,要想把所有数据都包含超球内的话可能会需要非常大的超球。为了解决这个问题,(类似于(Vapnik, 1995))我们引入松弛变量\xi_i以及惩罚参数C,允许一定的训练样本处于超球之外(即判定为异常样本),以取得模型的简单性(对应于超球的体积)与错误数(位于超球以外的样本个数)之间的折中(trade-off.这是假定原本训练集中所有的样本都属于本类。如果训练集中本身就包含一定的异类数据的话,那这个就不单纯是折中了,而是必需项。

        由于半径R和球心a所定义的超球的体积定义如下:

论文笔记:Support vector domain description(Tax,Duin1999)_第1张图片

         约束条件下最小化超球体积的问题可以表述如下:

论文笔记:Support vector domain description(Tax,Duin1999)_第2张图片

        基于(1)和(2),引入拉格朗日乘子\alpha_i \geq 0, \gamma \geq 0 ,构造拉格朗日量(Lagrangian)如下: 

        求偏微分并令其为0,可以得到: 

论文笔记:Support vector domain description(Tax,Duin1999)_第3张图片

         将(4)代入并重写(3)可以得到:

论文笔记:Support vector domain description(Tax,Duin1999)_第4张图片

        问题转变成了求\alpha_i 使得L最大化的问题。

        由以上(4)可知,球心是训练样本的线性组合。

        式(2)仅对小一部分数据样本成立,这些数据样本是位于超球的边界,其对应的拉格朗日乘子\alpha_i大于0.这些数据样本被称之为支持向量(support vector),也只有这些样本对于超球(也就是说这个训练集)的描述是必需的。

        超球半径R由中心到某支持向量的(基于小于C的权重计算而得的)距离决定。

        对于\alpha_i = C的样本触及了式(4)的上界,并且位于超球以外,这些样本被判定为异常样本。

        一个测试数据样本z与球心的距离小于等于R的样本处于超球以内,被判定为本类点,如下式所示;反之则被称为是异类(outlier)点。 

论文笔记:Support vector domain description(Tax,Duin1999)_第5张图片

3. 引入核函数

        以上基本模型中,所有处理都是在输入空间上进行。通常来说,数据样本并不会如此理想地形成一个球形分布,即便忽略掉最外围的一些异类点。因此直接在输入空间上进行处理通常不能得到很紧凑的数据描述。

        由于以上模型的核心就在于内积(x_i\cdot x_j)的计算,因此这个模型可以通过用核函数来替换内积的运算得到扩展,即用核函数K(x_i,x_j)替换内积计算(x_i\cdot x_j)=(x_i - x_j)^T(x_i - x_j),只要这个核函数满足Mercer’s theorem.这一替换等价于将输入数据映射到某个特征空间(map from input space onto feature space),如果特征空间的选择(即核函数的选择)适当的话,就可以得到一个更好、更紧凑的数据描述。这一映射并不需要显式地进行,一切都包含在核函数K(x_i,x_j)的表达中。

        基于此,用K(x_i,x_j)替换所有的内积(x_i\cdot x_j)改写(5)(6)可以得到: 

论文笔记:Support vector domain description(Tax,Duin1999)_第6张图片

        常用的核函数有多项式核函数和高斯核函数,分别表示如下。通常高斯核函数是比多项式核函数更好的选择。 

论文笔记:Support vector domain description(Tax,Duin1999)_第7张图片

        采用高斯核函数的话,以上(7)(8)表示的拉格朗日量和接受规则分别可以改写为: 

论文笔记:Support vector domain description(Tax,Duin1999)_第8张图片

        其中C_X只依赖于支持向量以及\alpha_i,而与测试数据z无关。 

4. Experiment and Analysis

        To be added.

你可能感兴趣的:(机器学习,机器学习,SVDD,异常检测,新颖检测,核函数)