Francesco Ardizzon and Stefano Tomasin Department of Information Engineering, University of Padova, Italy
时间:2022.10.22
期刊:IEEE T NEUR NET LEAR
原文链接:
摘要:单类分类( OCC )是判断观测样本是否属于目标类的问题。我们考虑当学习阶段可用的数据集仅包含来自目标类的样本时,学习OCC模型的问题。我们的目标是在目标类的统计信息可用的情况下,获得一个表现为广义似然比检验( GLRT )的分类器,这是一个众所周知的、可证明是最优的(在特定假设下)分类器。为此,我们同时考虑多层感知器神经网络( NN )和支持向量机( SVM )模型。它们作为二类分类器使用人工数据集为备选类训练,通过生成随机样本在目标类数据集的域上均匀地获得。我们证明,在适当的假设下,模型将( 有一个很大的数据集)收敛到GLRT。此外,我们还证明了在收敛时的单类最小二乘SVM(OCLSSVM)可以作为GLRT,并具有适当的变换函数。最后,我们将所得到的解与自动编码器(AE)分类器进行了比较,后者通常不提供GLRT。
指标项- -广义似然比检验、One - class分类、One - class支持向量机、神经网络、支持向量机
单类分类器( OCC )是决定一个观测样本是否属于目标类的问题。当使用机器学习( ML )方法时,假设在学习阶段只有来自目标类的样本可用。1在统计框架中,当只有来自目标类的样本分布可用时,等价的假设检验问题被表示为复合假设检验。在这两个意义上,已经考虑了关于替代类的其他几个假设,包括只有很少的备选类样本可用(带标签),或者数据集被来自备选类(离群值)的少量错误标记样本污染的可能性,如第二节中更好的描述。
这里我们关注的是备选类中没有可用样本的情况。这种情况发生在多个环境中,一个相关的应用领域是安全,其中OCC已被应用于多个问题,包括水声网络中的认证[ 1 ],工业网络安全中的入侵检测[ 2 ],使用无线电信号的区域内位置验证[ 3 ],以及全球导航卫星系统( global navigation satellite system,GNSS )欺骗检测[ 4 ] [ 5 ]。考虑的OCC问题在不同的名称下也是已知的,例如,异常值和新奇/异常检测。
在这种情况下,在ML域内,文献(详细报告见第二部分)研究了几种用于OCC的架构,主要解决方案是单类支持向量机( OSVM )和自编码器( AE )。而在统计领域,最主要的工具是广义似然比检验( GLRT ),它提供了在备选类部分已知的情况下进行复合假设检验的解决方案,即样本可能来自多个可能的分布,而不是单个分布。GLRT已被很好地描述,并在相关假设下被证明是最优的,详见第二节。在本文中,我们将重点放在没有备选类知识的情况下,并将结果测试表示为带有未定义备选类的GLRT ( GLRT-UA )。
在本文中,我们旨在通过为实现GLRT - UA的多层感知器神经网络( NN )和支持向量机( SVM )模型引入学习策略,在ML和统计方法之间架起一座桥梁。我们提出生成一个包含目标类数据集领域内均匀分布的随机样本的人工数据集。然后,以有监督的方式在两个数据集上应用神经网络或最小二乘支持向量机( LS-SVM )。通过利用现有的结果表明NNs和LS - SVM收敛到似然比检验( LRT ),当两个有标签的数据集可用时,我们证明了所提出的模型和学习策略为大型训练数据集提供了相当于GLRT - UA的分类器。此外,我们证明了单类最小二乘支持向量机( OCLSSVM )在收敛时表现为GLRT - UA与一个大数据集和使用适当设计的转换函数。我们还证明,基于AE的分类器不提供GLRT-UA。
论文的其余部分安排如下。第二节介绍了相关的目前技术水平和我们的贡献。第三节描述了OCC问题,从统计决策理论和ML的观点对其进行了分析。第四节介绍了GLRT - UA以及提出的NN和OCLSSVM的学习策略。在第六节中,我们给出了所提技术的性能结果,并与GLRT - UA和AE进行了比较。最后,第七部分得出结论。
当属于二分类问题两类的样本的统计量已知时,LRT为给定的虚警( FA )概率提供最小误检( MD )概率,如Neyman和Pearso 2定理[ 6 ]所示。当一类或两类样本的统计量都依赖于未知参数时,一个被广泛使用的检验是GLRT [ 7 ]。当对n个独立同分布( i.i.d . )样本(从一个未知的类)联合执行时,GLRT已被证明是多个参数分布的渐近最优(当n→∞时) [ 8 ]。在部分未知统计量的情况下使用的另一种检验是Hoeffding检验[ 9 ],它是一种修正的GLRT,它从样本中估计备选类的分布:当检验在n→∞i.i.d.样本上联合执行时,该检验被证明是渐近最优的。然而,在本文中我们考虑单样本(在其上获得一个采样分布是没有意义的)上的测试和分类器,因此GLRT,以及它的特例GLRT - UA,是我们的参考统计测试,因为没有对备选类做任何假设。
当统计数据未知,但样本数据集可用时,应考虑ML解决方案。对于二分类,当在训练过程中可以使用来自两个类的已标记数据集时,可以在多个模型上应用监督分类训练,包括深度NN和SVM。在[ 3 ]中,已经证明当训练数据集足够大且模型足够复杂时,NNs和LS-SVMs [ 10 ]表现为LRT。
当样本仅来自一类时,OCC问题就会出现,典型的解决方案是基于AE [ 11 ]和OSVM [ 12 ]。已经考虑了此类方法的几种变体。在[ 13 ]中,输入数据被嵌入到相异空间中,然后用加权欧几里得图表示,用于计算相异空间中数据分布的熵并获得决策区域。在文献[ 14 ]中,观察到用于训练OSVM的均方误差( MSE )损失函数对高斯噪声具有鲁棒性,但对大的异常值效果较差,并提出了一种鲁棒的最大相关熵损失函数。关于单类分类技术的调查也见[ 11 ],[ 15 ]。
当数据集向量样本是n个i . i . d .变量的实现且一个NN用于OCC时,渐近(对于n→∞)我们得到最优Hoeffding检验的性能[ 16 ]。然而,当样本不是i . i . d .变量的大向量时,没有关于分类器最优性的结果。
在本文中,我们旨在确定实现GLRT-UA的ML解决方案。首先,我们提出为两个有标记数据集训练带有样本的NN和LS - SVM模型:一个是目标类数据集,而备选类数据集是人工生成的,样本均匀分布在目标类数据集的(估计)域中。作为第二种解决方案,我们考虑了OCLSSVM,并证明了在合适的转换函数选择下,对于一个大的数据集,其表现与GLRT - UA一样收敛。
值得注意的是,文献中已经考虑了用于训练分类模型的人工数据集,但在不同的假设和不同的生成技术下。在[ 17 ]中,一个二类分类器用于OCC,其中用于备选类的数据集随机生成可用数据集的相同分布,通过概率密度函数( PDF )估计技术获得。我们考虑一个均匀分布。在[ 18 ]中,可用数据集的少量样本被认为属于备选类,与一类模型最不匹配的样本被传递给专家进行标记,然后用于二类训练。相反,我们不假设既没有关于统计的先验知识,也不假设来自备选类的样本的可用性。在[ 19 ]中,人们建议为二分类(或具有未知参数的分类)中的两个类创建数据集,而不是计算LRT或GLRT,当备选类由一个带有未知参数的PDF描述,并且GLRT和ML技术之间的等价性仅由一个模拟活动支持时。在我们的论文中,我们假设没有关于备选类统计量(且无数据集可用性)的知识,我们证明在特定条件下,经过适当训练的模型收敛到GLRT。在[ 20 ]中,AE用于提取目标类的特征,然后在潜在空间中应用零均值高斯噪声来生成备选类的样本;然后使用数据集来训练NN。人工数据集的生成与我们的方法不同,因为我们的目标是获得GLRT - UA。最后,生成模型(见调查)还包括人工数据集的生成。通过这样的方法,训练了两个模型,判别器和生成器:判别器旨在区分属于目标类的输入和其他输入,而生成器旨在生成馈送给判别器的随机样本被接受为属于目标类。同样在这种情况下,得到的解并没有被证明等价于GLRT - UA.
总之,本文相对于现有文献的主要贡献有以下几点:
•我们使用人工数据集来训练NN和LS - SVM模型作为二分类器。人工数据集包含随机样本,均匀分布在目标类的定义域内。
•我们证明,对于足够复杂的模型和足够大的目标类训练集,基于NN和LS - SVM提出的解决方案收敛到GLRT - UA。
•我们证明,使用特定转换函数和收敛时足够大的目标类训练集的OCLSSVM表现为GLRT - UA。
考虑一个观测M个元素样本向量x = [ x1 , ... , xM]T的系统,其中T表示转置算子,元素xj∈R,j = 1,..,M为实数。样本向量属于一个域。2假设任意的样本向量可以由两个可能的PDF生成,记为{ p0 ( a ) }和{ p1 ( a ) },其中a∈X。当根据{ p0 ( a ) }生成时,x被称为属于目标类H0,我们记C ( x ) = H0。当从{ p1 ( a ) }生成时,x被称为属于备选类H1,我们记C ( x ) = H1。属于备选类H1,我们写C ( x ) = H1。注意,我们考虑的是不可分的类,因为在这两个类中可以以非零概率观察到相同的样本向量。尽管如此,我们假设PDF { p0 ( a ) }和{ p1 ( a ) }是不同的,因此每个样本向量属于每个类的概率不同。
我们解决的问题是决定一个给定的样本x是否属于类H0或H1。3为此,我们借助于一个分类器f ( x ),在经过适当的训练后,对于x的每个可能值,我们给出两个类中的一个作为输出,即
由于我们处理的是不可分的类,一般来说,分类器做出的决策并不总是正确的,因为可能会出现FA或MD错误。当x已由{ p0 ( a ) }生成,但决策为备选类H1 (即f ( x )) = H1 )时,FA发生。类似地,当决策是针对目标类H0 (即f ( x )) = H0 )时发生MD,而x实际上是从{ p1 ( a ) }生成的。我们将FA和MD概率表示为
其中,我们强调了两种概率对分类器f ( x )的依赖性。因此,在设计分类器f ( x )时,应该同时考虑两种概率,如下所述。
在本节的其余部分,我们描述了在统计和ML框架内分类器f ( x )的设计。在所有情况下,最后的分类器将从样本向量x中获得的真实值u与合适的阈值δ进行比较。因此,我们引入决策函数
当u > δ时,决定目标类H0,否则决定备选类H1。
由于在本文中,我们将分类问题(在ML框架中)与假设检验问题(在一个统计框架中)联系起来,因此我们在这里定义这两个设置
统计框架:在统计框架中,PDF { p0 ( a ) }和{ p1 ( a ) }中的任何一个在设计时都可用,而没有数据集可用。一个二分类问题被表示为假设检验问题,它基于两个类{ p0 ( a ) }和{ p1 ( a ) }的PDF都可用的假设。在OCC中,只有目标类PDF { p0 ( a ) }可用,问题被表示为复合假设检验(正如下面更详细地讨论的那样)。分类器在统计框架中表示为测试,而f ( x )是从可用的PDF中获得的函数。
ML框架:在ML框架中,PDF { p0 ( a ) }和{ p1 ( a ) }不可用,但在训练过程中可以得到一个包含一个或两个类的向量样本的数据集。在二分类中,具有(正确)标记样本的数据集可用,而在OCC中,只有属于目标类的向量样本的数据集可用。在OCC中,可用于训练的目标类数据集有N0个样本,记为
我们在这里简要地总结了二分类问题和OCC的最重要的结果与统计框架中备选类的部分已知统计,这将有助于更好地理解ML框架中的OCC。
二分类:在统计框架中,二分类的测试通常以最小化MD概率为目标,同时确保目标FA概率。因此,测试被设计为
其中F是所有可能的测试函数的集合.检验求解式( 6 ),当两类PDF都可用时,即为LRT,首先计算样本x上的对数似然比
然后通过比较Γ ( x )和阈值δ来执行测试,
其中,阈值δ的选择是为了保证对FA概率的约束,即PFA ( fLRT )≤δ。带未知参数的复合假设检验:复合假设检验[ 7 ],是指一个分类问题,其中可获得备选类样本的PDF的部分知识。这通常发生在备选类样本的PDF可以写为{ p1( a , θ) }时,其中θ是未知参数的向量θ。例如,可以假设在备选类中,x是均值θ未知且协方差矩阵给定的高斯向量。在这类场景中,一个被广泛考虑的测试函数是GLRT,它首先计算
并且在未知参数向量θ的所有可能值的集合中取分母处的最大值;然后测试函数被定义为
其中,阈值δ的选择是为了保证对FA概率的约束,即PFA ( f GLRT )≤δ。
GLRT不解决问题( 6 ),但它已被证明可以解决问题( 6 )的渐近版本。特别地,考虑由n个向量样本组成的集合x ( n ) = { x1,. . .,xn },其中每个向量xi独立于同一个类:我们考虑如下优化问题
其中Gn是x ( n )上所有测试函数的集合.换句话说,我们的目标是找到一个测试函数序列{ gn,n = 1,.. },它渐近地最小化MD概率,同时渐近地满足对FA概率的约束。如( 10 )中定义的GLRT,但现在在xn而不是x上,在Gn上的特定条件下求解( 11 ),如[ 8 ]中证明的那样。换句话说,当对来自同一类别的n个i . i . d .向量样本的集合执行GLRT时,当向量样本的数量n增长到无穷大时,它就成为渐近最优的(根据( 6) )。因此,在目前,GLRT是最有名的测试(在上述意义上)在PDF { p1( a , θ) }的部分知识的情况下
我们现在关注OCC问题(在统计框架下),当备选假设下样本的统计量未知时。
这种情况可以看作是复合假设检验的一个极端情况,其中{ p1( a , θ) }可以表示任何PDF,根据参数θ的(大)向量所取的值。例如,多个多元高斯变量的混合物很好地建模了一大类多元PDF。在这种情况下,( 9 )式的分母max θ p1( x , θ)对x的任何值都可以很大,因为参数向量θ可以适当地选择。因此,我们可以假设分母取相同(大)值,即
在条件( 12 )下,Λ ( x )的分母与决策函数( 10 )无关,GLRT归结为我们所说的GLRT - UA,即
注意,在( 13 )中,我们忽略了log函数,它与决策过程无关,因为它可以包含在阈值δ的选择中。同样在这种情况下,阈值δ被选择以确保对FA概率的约束PFA ( fGLRT-UA )≤ǫ,因为我们注意到这个约束不依赖于替代类的统计量。
在ML框架中,数据集D0用于训练一个模型μ ( x ),将样本x作为输入并提供一个软实数μ ( x ),然后对其进行阈值化以生成OCC,即。
在这种情况下,选择阈值δ来保证对FA概率的约束PFA ( fML )≤ǫ。例如,可以使用测试数据集并在其上计算采样FA概率来执行此选择。
区分OCC的各种解决方案的是使用的模型μ ( · )的类型和它的训练方式,仍然使用数据集D0。在下面,我们回顾两个OCC解决方案,即AE和OSVM。
自编码器( AE )分类器:AE是一个无监督的多层感知器NN,经过训练将其输入复制到输出。AE可以分解为两个子网络,编码器提供潜在空间中的输出,解码器提供与编码器输入相同大小的向量作为输出。编码器NN (带权重偏差)旨在将M维输入,x投影到由潜在空间建模的K维空间,y∈RK。然后将输入在隐空间中的表示作为解码器NN的输入,fd( x、wd、bd) (权重wd和偏差bd),其目的是复制原始输入,计算重构向量。因此,对于每个样本向量,训练AE以最小化MSE损失函数,即。
我们注意到,潜在空间通常比输入向量具有更小的维度,即M > K,并且一般而言,重构过程并不完美。因此,为了复制输入,AE必须学习输入的统计特性。关于AE设计的更多细节可参见文献[ 21 ]。
在这个框架中,用于OCC的模型提供了输入样本x和AE输出' x之间的MSE,即:
利用式( 14 )得到AE分类器。将AE用于OCC背后的思想是,通过仅使用D0数据集训练NN,在测试阶段,只有具有与D0中样本相同(或相似)统计分布的输入样本才有望以低MSE重建[ 3 ],[ 22 ]
单类最小二乘SVM ( OCLSSVM )分类器:在训练过程中,二分类SVM找到能更好地分离两个类的样本的边界。OCLSSVM模型只在D0数据集上训练,并找到最好包含D0中样本的超曲面。具体而言,考虑一个适当的特征空间转换5函数φ:RM→RP。然后,通过求解如下优化问题来训练OCLSSVM [ 10 ]
其中w是P - size权重列向量,b是偏置参数,C是超参数,其值根据学习数据集本身进行调整[ 23 ]。
本例中OCC ( 14 )使用的模型为
注意,在D0中包围样品的曲面的形状很大程度上取决于变换函数φ ( x )的选择。
我们现在提出具有适当训练的模型来执行GLRT-UA。为此,我们a)展示了如何将GLRT - UA描述为一个二分类分类器,并为备选假设定义适当的统计量;b)定义要在ML分类器( 14 )中使用的训练和正确选择的模型,使用正确选择的模型以GLRT-UA的形式执行。
从统计框架出发,我们首先将OCC问题描述为一个二分类问题,并设计了一个合适的备选类PDF。
以下结果将二分类的LRT与OCC的GLRT - UA联系起来。
引理1 .当备选类的PDF在目标类的论域上不变时,即
其中| X |是X的体积,GLRT-UA ( 13 )等价于LRT ( 8 ),即对于每个阈值δ 1存在一个阈值δ 2使得
证明。通过将p1 * ( a )的定义( 19 )插入对数似然相似比( 7 ),我们得到
考虑到( 8 )的LRT,从( 4 )我们有
其中Δ′= Exp[ δ-log | X |]。注意到( 22 )的最后一行是GLRT - UA ( 13 ),因此测试在( 20 )的意义上是等价的。
因此,GLRT - UA也可以看作是二元假设检验,其中备择假设下的样本在目标类样本域X上的统计量是一致的。
现在转移到ML框架,我们考虑这里的oneclass分类器实现如下:
1 )生成一个人工数据集根据( 19 )随机生成的样本
2)在大小为N = N0 + N *的二分类标记数据集上训练一个模型μ ( x )作为二分类分类器
对于样本qn∈D0,标签tn = -1;对于qn∈D⋆1,标签tn = 1。
3)利用分类器( 14 )中训练好的模型得到单类分类器。
我们将展示,当使用NN和LS - SVM作为模型μ ( x )时,这种方法实现了GLRT - UA。
我们考虑用MSE损失函数训练的NN
或者交叉熵损失函数
式中:w为神经网络权值向量。LS - SVM代替使用最小二乘( LS )函数训练的SVM,即求解优化问题
式中:w为权重列向量,b为偏置参数,C为超参数。我们注意到,与( 17 )的单类优化问题不同,这里的偏置参数并没有出现在优化函数本身。我们现在说明,上述这些模型的过程提供了GLRT - UA。
定理1。考虑一个NN μ NN ( x ) (用MSE或交叉熵损失函数进行训练)或一个LS - SVM μ LS - SVM ( x ) (用LS损失函数进行训练),在从人工数据集获得的二分类标记数据集D = { D0,D⋆1 }上。当使用( 14 )中的这类模型时,当a )神经网络足够复杂,b )训练收敛到最小化两个模型损失函数的配置时,我们得到了等价于GLRT - UA的单类分类器。
证明。我们使用[ 3 ,定理2和定理3]的结果,其中已经表明,在定理的假设下,当使用多层感知器NN或LSSVM作为模型μ ( x )时,分类器( 14 )实现了LRT。然后,使用备选类的人工数据集并利用引理1的结果,我们得出结论,由定理定义的分类器等价于GLRTUA。
由于人工数据集具有非常简单的分布(均匀),我们现在考虑另一种方法,即修改用于训练NN的损失函数,以纳入人工数据集的影响,而无需显式生成它。
在用于训练的陡峭梯度下降( SGD )算法[ 21 ]的第n轮,n = 1,..,N,权值更新如下
其中λ是学习率,∇wρNN( D0 , qn , w) | wn是关于NN权重的梯度算子,计算权重值wn。
现在,我们定义当x属于PDF { p1 * ( a ) }的人工替代类时的平均梯度,即利用( 19 ),
注意,函数F ( w )取决于NN的结构,而不是目标类数据集D0。因此,我们可以离线计算这样的函数,并将其存储在查找表中或作为模型本身。
然后,在训练过程中,我们只使用目标类数据集D0并按如下方式更新权重,现在对于n = 1,..,N0,
采用这种选择,我们复制了更新式( 28 )在输入属于备选类时的平均行为,而没有显式生成数据集。这种方法的主要优点是我们不需要生成人工数据集,训练需要半次迭代,缺点是我们必须离线获得多元函数F ( ' w ),并且我们必须在训练算法的每次迭代中计算它。最后,我们注意到,如果区域X发生变化,平均梯度F ( ' w )必须相应地重新计算。
生成人工数据集的领域X的知识可能不是微不足道的。
第一种可能性是域是可用的,因为样例向量的已知属性。例如,由模拟信号的数字采样得到的采样向量,通常在采集范围内被截取。这种情况通常发生在操作从接收器获得的样本的安全问题中,如引言中提到的。当我们知道备选类中样本的定义域与目标类中样本的定义域相同时,就会出现第二种可能。在这种情况下,遵循ML方法,从数据集D0中学习域为( X .当数据集D0覆盖了域的所有点,即域X是一个离散集合时,这种方法效果很好。当区域X是连续的点集时,我们可以插值D0的样本以获得连续的区域。
第三种情况发生在我们假设对备选类(包括其域)没有任何先验知识的情况下,通常假设它与目标类不同。在这种场景下,需要考虑两种情况,a )目标类的域点不属于备选类的域,b )备选类的域点不属于备选类的域。
情形a )是没有问题的,因为如果我们考虑{ p1⋅( a ) }仍然是一致的,但在更大的域上,引理1仍然成立,并且我们仍然得到一个等价于GLRT - UA的分类器。情况b )反而是有问题的,因为备选类域中不属于目标类的点在训练阶段不会被探索,而它们可能在训练阶段发生。由于模型没有针对这些点进行训练,其行为很难预测。在这种情况下,我们可以扩展生成均匀样本的人工数据集的域,以考虑可能的外部点。再次,对于人工数据集考虑更大的论域,即使超出备选类的论域也不会改变得到的分类器;然而,领域扩展的缺点是需要生成一个更大的数据集,模型的收敛速度较慢,并且需要一个潜在的更复杂的模型(更多的层和神经元)来获得与th等价的分类器.
AE分类器没有表现出良好的性能[ 24 ],并且已经提出了几个补丁。在这里,我们通过将AE分类器与GLRT-UA进行比较的以下结果来确认这些不足。
定理2。AE分类器并不等同于一个GLRTUA,即它对相同的输入一般会做出不同的分类。
证明。已经证明[ 25 ],任何具有足够层数并使用MSE损失函数训练的非线性AE,都将作为具有线性激活函数的三层AE执行,由此产生的结构仅将输入投影到子空间(潜在的域)。一般情况下,GLRT - UA通过PDF { p0 ( a ) }对观测进行非线性变换(参见( 13 ) ),因此AE分类器不会(总是)实现GLRT - UA。注意到在[ 3 ]中也提供了同样结果的另一种证明。
GLRT - UA也可以由第III - D节中描述的OCLSSVM分类器实现,并具有合适的转换函数,如下面的定理所示。
定理3。考虑OCLSSVM模型,该模型使用一个转换函数将D0的不同样本映射为正交向量,即
将此模型训练到全局最小值( 17 ),并在分类器( 14 )中使用生成的模型( 18 ),当目标类数据集足够大( ( N0→∞) )时,提供一个相当于GLRT的分类器。
为了证明定理,我们首先考虑下面的引理。
引理2 .给定一个R→R可逆函数h ( u ),其中h ( u )≥0,∂u,且h ( u )可逆。给定两个满足的模型μ 1 ( x )和μ 2 ( x )
两种模型下利用式( 14 )得到的分类器是等价的。特别地,对于任意满足的模型μ ( x )
得到的测试等价于GLRT - UA。证明。根据决策函数( 4 )的定义,我们有
它显示了两个分类器的等价性,具有合适的选定阈值。最后,当( 34 )式成立时,它得到具有模型μ ( x )的分类器具有等价的决策函数Δ ( p0 ( x ),h-1 ( δ ) ),它建立了与GLRT - UA的等价性。
我们现在准备证明定理3。
定理3的证明。我们考虑修正模型μ ( x ) = μ ( x ) - b,它去掉了偏差项b,并且由引理2得到了一个等价的分类器.
令~ xl,l = 1,..,L是数据集D0的不同向量,让我们定义矩阵
由正交性条件,方程组( 37 )是唯一可解的,因此我们可以优化~ w来最小化损失函数,而不是优化w。为了将( 17b )写成~ w的函数,首先我们注意到由( 31 )我们有Φ 0 Φ 0T = I为单位矩阵,并且
其中l ( n )是对应于xn的唯一向量的索引,即xn = " xl ( n ) "。对于N0→∞,我们有
接下来,我们通过零化损失函数的导数来最大化over ~ w
由( 47 )我们得出μ ( x )是p0 ( x )的单调非负函数,并且由引理2得到的分类器等价于GLRT - UA。值得注意的是,由于核技巧[ 26 ],无穷大的变换函数是SVM的典型,其中最重要的是样本x和y之间的核k( x , y) = φT ( x ) φ ( y )。
例如,作为转换函数,我们可以考虑下面的映射,当向量样本取自一组离散的L值时,这种映射是合适的,因此在测试过程中也只能出现向量" xl,l = 1,..,L "。定义带条目的L - size列向量ω ( l )
满足式( 31 )的特征空间转换函数为φ ( ~ xl ) = ω ( l )。在实际应用中,这需要找到数据集D0中所有唯一的样本向量,并将其赋值为整数l。然而,我们应该注意到,定理3的假设的实际实现可能是困难的。首先,转换函数( 48 )严格依赖于数据集D0。实际上,从转换得到的向量φ ( x )的大小随着数据集的大小而增长。
而且,当样本空间X连续时,在测试阶段出现的无穷多个目标类样本向量在数据集D0中不存在,使得正交条件存在问题。这个问题的一个解决方案是考虑X的(向量)量化版本,对于这个版本,来自目标类的量化样本的数据集D0将具有足够的代表性,定理3的假设将得到满足。这一问题留待未来研究的课题。
在本节中,我们评估了所提出的单类分类器的性能,并将它们与AE分类器和GLRT - UA进行了比较。
对于训练,使用数据集D0和D⋆1。为了测试,使用数据集T = { T0,T1 },其中Ti,是来自Hi类样本的数据集。
样本向量有M = 4个条目,由一个数字系统获取,该数字系统将向量的条目剪辑到范围[ -14 , 14]之外,因此任何条目m使得[ x ] m > 14在14处饱和,而条目[ x ] m < - 14在- 14处饱和。设XS = [ -14 , 14] × · · · × [ -14 , 14]为截断向量的定义域.因此,对于人工数据集D⋆1,我们考虑在区间[ -14 , 14]中均匀生成具有独立条目的向量。
作为样本向量的模型,我们考虑两种场景:高斯场景和混合场景。
图1 .对高斯场景中的数据集{ [ x ] 1 }中的第一项样本进行采样PDF:用于训练阶段的人工生成数据集D⋆1 (红色),用于测试阶段的目标类样本T0数据集(蓝色),以及用于测试阶段的备选类样本T1数据集(绿色)。
高斯场景:x具有截断多元高斯分布,每个条目具有单位方差和独立条目,即对于i = 0 (目标类)和1 (替代类),样本向量x的条目j具有PDF
ΔD ( · )是狄拉克delta函数;对于目标类(因此对于数据集D0和T0的样本),均值为γ 0 = 0 · 14,(这里14 = [ 1 , 1 , 1 , 1 ] T),而对于测试阶段的备选类(数据集T1 ),均值为γ 1 = 3 · 14。图1显示了来自测试数据集T0和T1以及来自人工数据集D⋆1的样本向量的第一个元素的采样PDF。
混合情形:x是多元高斯分布的混合,其方差为酉,分量ν i的个数不同,均值为{ γi,m },m = 1,..,νi,混合概率为{ qi,m },即样本向量x的元素j对i = 0 (目标类)和1 (备选类)具有PDF,样本向量x的元素j具有PDF
图2 .对混合场景中的数据集{ [ xn ] 1 }中的样本的第一个条目进行采样PDF:用于训练阶段的人工生成数据集D⋆1 (红色),用于测试阶段的目标类样本的T0数据集(蓝色),以及用于测试阶段的备选类样本的T1数据集(绿色)。
具体来说,对于目标类,我们使用ν 0 = 3个分量,概率q0,1 = 0.2,q0,2 = 0.4,q0,3 = 0.4,均值γ 0,1 = -1.5 · 14,γ0,2 = -0.5 · 14,γ0,3 = 3 · 14。对于备选类,我们有ν 1 = 2个分量,概率q1,1 = q1,2 = 0.5,意味着γ 1,1 = 6 · 14和γ 1,2 = 9 · 14。图2显示了对于混合场景,来自测试数据集T0和T1以及来自人工数据集D⋆1的样本向量的第一个元素的采样PDF。值得注意的是,通过混合高斯变量我们可以很好地拟合任意PDF,因此该场景可以适应多个OCC问题。特别是,与使用物理接收信号进行身份验证[ 1 ]、使用无线电信号进行区域内位置验证以及全球导航卫星系统欺骗性检测[ 4 ] [ 5 ]有关的安全问题,都是在两个考虑的场景都很好地描述的矢量样本上运行的。
我们评估了基于GLRT - UA的NN和SVM分类器的性能,以及OCLSSVM分类器的性能。我们将它们与GLRT - UA和AE进行了比较。对于所有的方法,测试阶段(从中评估它们的性能)在来自目标类和备选类的25000个样本的测试数据集上进行。我们现在详细介绍每个分类器使用的参数。
基于GLRT - UA的NN ( GLRT-UA-NN)分类器:我们设计了7层神经网络,分别包含40、32、24、16、8、4和1个神经元;所有的神经元都有sigmoid激活函数。训练持续了5个历元;单类训练和验证数据集分别有60000和15000个样本。用于训练的人工数据集有60000个样本。
基于GLRT - UA的LS - SVM ( GLRT-UA-LS-SVM)分类器:核函数采用高斯径向基核函数k( x , y) = e‖x-y‖2。( 53 )由于SVM方法的计算成本,我们使用了包含5000个样本的训练数据集。单类最小二乘支持向量机( OCLSSVM )分类器:转换函数和训练数据集均为GLRT - UA - LS - SVM分类器所用。注意到这个函数不满足定理3的假设,因为我们考虑的是连续域上的样本向量。对于GLRT - UA - LS - SVM,(一类)训练数据集包含5000个样本。
自动编码器( AE )分类器:根据[ 25 ]的结果,考虑一个线性AE是没有限制的,在输入和输出层都有4个神经元,以及线性激活函数。在隐含层中,我们有K = 1,2,或3个神经元,仍然具有线性激活函数。权重是随机初始化的。该模型已用5个历元和用于GLRT - UA - NN分类器的数据集进行训练。
为了评估分类器的性能,我们考虑了受试者工作特征( ROC )曲线,显示MD概率是在测试阶段实现的FA概率的函数。
高斯场景:图3显示了高斯场景中各种考虑的解决方案的ROC。考虑到当ROC更多地被推到更低的值(图的西南部分)时,分类器更有效,从而产生更低的MD和FA概率,我们注意到基于GLRT - UA的分类器表现为GLRT - UA,正如预期的那样。这同样发生在OCLSSVM分类器中,尽管它没有按照定理3的假设进行配置。我们还注意到,基于GLRT - UA的分类器明显优于AE分类器。AE分类器的性能反而随着K的减小而增加,从而获得更紧凑的潜在空间。然而,即使在最小K = 1的情况下,AE分类器的分类精度也远低于基于GLRT - UA的分类器,而AE分类器的性能则要差的多。
混合场景:图4显示了分类器和GLRT - UA在混合场景中的ROC曲线。在这种情况下,所有的分类器和GLRT - UA都比高斯场景下的性能更好,因为这两类样本的PDF之间的差异更明显。同样在这种情况下,我们观察到所有基于GLRT - UA的分类器具有相似的性能,并且表现出与GLRT - UA非常接近的ROC
我们考虑了OCC问题,基于只有目标数据集的可用性,旨在识别学习实现GLRT - UA的分类器。我们确定了三种解决方案,其中两种是使用人工生成的数据集作为二类分类器训练的NN和SVM模型,第三种是具有适当转换函数的OCLSSVM模型。我们研究了这些模型收敛到GLRT-UA的条件,并得到了证实在高斯和高斯混合数据集上的数值结果。我们也证明了AE单类分类器总体上不收敛于GLRT - UA。我们得出结论,在所考虑的场景中,基于GLRT - UA的分类器优于AE分类器,实现了更低的MD和FA概率