2019-01-08 异常检测方法(1)

SVDD

支持向量数据描述。

理论背景:

SVDD是一种统计学习方法,主要利用样本数据构建统计模型,并用该模型进行预测和分析。对于给定的样本X

样本X

,样本标签Y

样本标签Y

和决策函数f(X),引入损失函数进行L(X,f(X))度量。常用的损失函数包括平方损失函数

平方损失函数

、0,1损失函数

0,1损失函数

,绝对损失函数

绝对损失函数

和指数损失函数

指数损失函数

模型在训练数据过程中产生的平均损失

经验风险

表示。平均损失通常被称为经验风险,在模型训练的过程中当然是要求风险越小越好,从而有结果求解公式:

最小化经验风险

通常,单纯求解上式会出现过拟合现象,这时候就要求和平均损失中加入正则项进行修正。正则项和损失项共同构成结构风险:

结构风险

结构风险也有其对应的最小化求解公式:

最小化结构风险

通过上述公式将统计问题转化为优化结构风险的问题。

核方法:

核方法的基本假设是:让低维线性不可分的样本到高维成为线性可分的样本。

核方法的假设问题是:当数据从低维到高维投影后,必须在高维进行计算,这就会产生“维度爆炸”的问题。还有一个就是需要将所有数据都进行投影,这就产生了大量计算量。

核方法的解决技巧是:使用一个核函数将高维空间需要进行内积计算的部分用核函数代替。常用的核函数有:

线性核函数
2019-01-08 异常检测方法(1)_第1张图片
高斯核函数
多项式核函数
Sigmoid核函数

SVDD:

SVDD是一种单类分类方法,只对目标样本一项进行训练,训练样本的标签均为1。训练时在特征空间构造一个超球体,在进行检验时,在超球体内的是目标样本,在超球体外的是非目标样本,位于距离球心为半径距离的是支持向量。

2019-01-08 异常检测方法(1)_第2张图片
SVDD模型
给定数据集合
给定特征集合

其中均等于1,每一个由对应的通过函数映射而来。

x与m的关系

SVDD分类转化为求解一个超球体,使得球体的半径最小,且所有样本均能位于球体内部。

结构化最小公式

其中为球心,R为超球体半径,对应的决策函数为:

决策函数

决策函数的作用在于表示训练样本是不是在超球体内部的目标样本,从而实现分类的目的。

在实际实验中,要把所有的训练数据全部包含在球体内,但是因为离群点的存在,会导致超球面的分类界面不能紧密地进行表达。所以引入松弛变量和惩罚系数对上述最小化公式进行修改。

2019-01-08 异常检测方法(1)_第3张图片
改进最小化公式

惩罚系数用于描述对错误的容忍程度

你可能感兴趣的:(2019-01-08 异常检测方法(1))