开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)

摘要:在现实的识别/分类任务中,由于受到各种客观因素的限制,在训练一个识别器或分类器摘

0.摘要:

  1. 原因与场景:在现实的识别/分类任务中,训练模型的时候可能并没有所有类别的训练集。因此,这样训练出来的模型在没有出现过的类出现时,一般会失效。
  2. 解决方案:开放集识别就是要既能识别训练集中出现过的类,也要识别训练集中没有出现过的类。
  3. 后面还有相关的比较:包括样本、一次样本(少样本)识别/学习技术、带有拒绝选项的分类、开放世界识别等。

————————————————

目录

0.摘要:

1.引言:

1.1类似的学习概念还包括:

1.2考虑不同的四种样本

1.3这些学习概念与这四类样本的关系。

2.基本符号&相关定义

2.1开放空间风险的定义

2.2开放性的定义

2.3开放集识别问题

3.OSR技术分类

3.1基于传统ML (TML)的判别方法

3.1.1基于SVM

3.1.2基于稀疏表示

3.1.3基于距离

3.1.4基于margin分布

3.1.5基于其他传统ML方法

3.2基于深度神经网络的OSR模型

3.3基于实例生成的OSR模型(非常局限的有用)

3.4基于非实例生成的OSR模型

4.开放世界识别

5.评估指标

5.1准确率

5.2F-measure

5.3尤登指数

5.3 实验

5.3.1 使用非深度特征的OSR方法

5.3.2 使用深度特征的OSR方法

6.未来方向

6.1 关于建模

6.1.1 对已知的已知类进行建模

6.1.2 为未知的未知类建模

6.2 关于拒绝

6.3 关于决策

6.4 开放集+其他研究领域

6.5 广义开放集识别

6.5.1 附加语义/属性信息

6.5.2 使用其他可用的侧面信息

6.6 相对开放集识别

6.7 开放集识别的知识整合

7 结论


1.引言:

1.1类似的学习概念还包括:

  1. Life-long learning终身学习(一机多能)[1],[2]:一个网络结构、方法能够胜任所有的任务,类似于Continuous Learning,Never ending Learning,Incremental Learning,Multi-task learning。
  2. transfer learning迁移学习[3],[4],[5]
  3. domain adaptation域适应[6],[7]
  4. zero-shot(从样本学描述,借助描述进行分类) [8],[9],[10],one-shot (few-shot) [11],[12],[13],[14],[15],[16],[17],[18],[19],[20]识别/学习(只用几个样本进行分类,用的方法是度量两个样本是否属于同一类)
  5. 开放集识别/分类[21],[22],[23]。

————————————————

1.2考虑不同的四种样本

前面的已知未知表示是否有标记样本(标记信息)。

后面的已知未知表示能不能说明这个类别是什么类,以及这个类长什么样(描述信息)。

  1. 注意:标记信息并不能标记所有样本,而描述信息可以描述所有样本。例如,我只标记了十张马的照片,但并不能标记所有马的照片,并不能说明这个类就是马了,更不能说明马都长成这些样子。但描述信息可以说明所有马的共性特点,可以说这个类是马,以及马长什么样。
  2. 注意:具体这个描述信息是仅仅告诉你这个类是什么(明确类),或者还包括这个类长什么样要看具体设置(明确类含义)。
  3. 注意:可以理解成类标记打在样本上(样本级),描述信息描述在类上(类级)。通常的分类是对样本进行分配类标记(样本级),当样本缺少类标记时,不能学习样本到类标记的映射,此时可以学习样本到描述的映射,来匹配类的描述,再根据匹配结果分配类标记。

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第1张图片

  1. 已知的已知类(KKCs):有类标记信息,有类别描述信息的样本;有类标记,并告诉你这个类是什么,或者还告诉你这个类都长什么样。
  2. 已知的未知类(KUCs):有类标记信息,无类别描述信息的样本;有类标记,但不告诉你这个类是什么,也不告诉你这个类都长什么样。
  3. 未知的已知类(UKCs):无类标记信息,有类别描述信息的样本;没有类标记,但告诉有这么个类,还告诉你这个类都长什么样。
  4. 未知的未知类(UUCs):无类标记信息,无类别描述信息的样本;没有类标记,也不告诉有什么类,更不告诉什么类都长什么样了。

————————————————

1.3这些学习概念与这四类样本的关系。

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第2张图片

传统分类:对明确类的正常标记样本进行训练与分类。(描述信息这里只指明确类)

带拒绝选项的分类:对明确类的正常标记样本进行训练与分类,如果分类结果置信度低的话,拒绝这个分类结果,可以待人工二次判断。(描述信息这里只指明确类)

异常检测:对明确类的正常标记样本进行训练(或还包括少量没有明确类的异常样本),对有明确类的正常样本和没有明确类的异常样本进行分类。(描述信息这里只指明确类)

one/few-shot学习(参考人脸识别中的人脸比对):对明确类含义的正常标记样本进行训练,以及迁移到只有类描述的样本上训练,最后在有类描述的样本上进行分类(描述信息这里只指明确类含义)

zero-shot:对明确类含义的正常标记样本进行训练,通过学习类别描述的方式来学习分类(样本—>类别描述—>类),对具有类别描述信息的样本进行分类,期望也能通过样本—>类别描述—>类实现分类。(描述信息这里只指明确类含义)

open-set:对明确类的正常标记样本进行训练,对有明确类的正常样本和拒绝其他非明确类的样本。(描述信息这里只指明确类)

2.基本符号&相关定义

2.1开放空间风险的定义

开放空间风险即将开放空间 O(远离已知数据的未知空间)中的样本标注为已知类别带来的风险,它被形式化为开放空间 O 相对于整体测度空间的相对测度,计算如下

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第3张图片

2.2开放性的定义

开放性openness 用来定义开放空间(或者说开放识别问题)的开放程度,令 C_{TA} 、C_{TR} 和 C_{TE} 分别表示:待识别类的集合、训练中使用的类的集合和测试中使用的类的集合。则对应的问题开放性O为:

考虑到考虑以下简单的情况:C_{TA}\subseteq C_{TR}\subseteq C_{TE}, \left | C_{TA} \right |=3 ,\left | C_{TR} \right |=10\left | C_{TE} \right |=15会导致O < 0,其次,也考虑问题的开放性应该只取决于 C_{TR}  知识和 C_{TE}  知识,而不是 C_{TA} 、C_{TR} 和 C_{TE}  三个方面的知识。对开放性公式重新校准为:

 

2.3开放集识别问题

开放集识别问题就是既要最小化传统的经验风险,也要最小化上面提出的开放空间风险。换句话说,开放集识别的目标就是找到一个可测量的识别函数f 来最小化以下开放集风险的(其中后一项为经验风险,V为为训练数据):

3.OSR技术分类

现有技术都是在一定的约束下,从判别和生成的角度对OSR建模进行了探索。 根据建模形式,这些模型可进一步分为四类(见表2):

  1. 基于传统ML (TML)的判别方法
  2. 基于深度神经网络(DNN)的判别方法
  3. 基于实例的生成方法
  4. 基于非实例的生成方法

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第4张图片

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第5张图片

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第6张图片

3.1基于传统ML (TML)的判别方法

3.1.1基于SVM

  1. Scheirer等人首先提出了1-vs-Set,该机制在建模中纳入了开放空间风险项,以解释超出KKCs合理支持范围的空间。具体来说,他们在得分空间中加入另一个与SVM得到的分离超平面相平行的超平面,从而在特征空间中形成一个一定厚度的厚片slab。线性核厚片模型的开放空间风险定义如下:。其中 \delta _{A} 和 \delta _{\Omega } 表示对应超平面的边缘距离,而“\delta ^{+}”是解释所有正样本所需的间隔。用户指定参数 p _{A} 和 p _{\Omega } 作为margin space w_{A} 和 w _{\Omega } 的权重。在这种情况下,出现在两个超平面之间的测试样本将被标记为已知类,否则,它将被视为非目标类或被拒绝。其中,在两个超平面之间但不属于已知类的空间具有开放空间风险(错误分类为已知的风险)。个人观点:建议扩展到非线性情况、多类空间,参考文献[]
  2. 类似于1-vs-Set机制,Cevikalp[62][63]在传统SVM的基础上,对正/目标类的样本增加了另一个约束,并提出了最佳拟合超平面分类器(Best Fitting Hyperplane Classifier, BFHC)模型,该模型直接在特征空间中形成一个slab。此外,BFHC可以利用kernel技巧扩展到非线性情况,更多细节请参考[63]。
  3. Scheirer等人[22]将非线性内核融入到一个解决方案中,通过积极标记有限测度的集进一步限制开放空间风险。他们制定了一个紧凑的降低概率(CAP)模型,在该模型中,当点从已知数据移动到开放空间时,类成员的概率降低。在此基础上,提出了一种基于微布尔校正的支持向量机(W-SVM)模型,它结合了作为得分校准的静态极端值定理(EVT) [95]和两个分开的支持向量机。值得注意的是,虽然W-SVM通过基于阈值的分类方案有效地限制了开放空间风险,但阈值选择也给出了一些警告。首先,假设所有的KKCs都有相等的阈值,这可能是不合理的,因为类在特征空间中的分布通常是未知的。其次,建议根据问题开放性[22]设置拒绝阈值。然而,相应问题的开放性通常也是未知的。
  4.  为了解决这些问题,Scherreik等人[64]引入了概率开放集SVM (POS-SVM)分类器,它可以根据经验为定义2下的每个KKC确定唯一的拒绝阈值。POS-SVM没有定义  作为开放空间和类定义空间的相对测度,而是分别选择开放空间风险  和经验风险  的概率表示(详情[64])。此外,作者还采用了结合true negative rate和召回率的新的OSR评价指标Youden’s index,将在第5.2小节详细介绍。
  5. 最近,为了解决滑动窗口视觉目标检测和开放集识别任务,Cevikalp和Triggs[65]、[66]使用一类准线性“多面体圆锥”函数[98]来定义正KKCs的接受区域。这种选择提供了一组方便的紧凑和凸区域形状,用于区分相对局部的正KKCs和更广泛的负KKCs,包括负KKCs和UUCs
  6. conic-svm,pi-svm,cbs-svm,1s-BFHS

3.1.2基于稀疏表示

为了使SRC适应开放环境,Zhang和Patel[67]提出了基于稀疏表示的开放集识别模型,简称SROSR。由于OSR的大部分判别性信息隐藏在匹配和非匹配的重构这两个误差分布的尾部,SROSR使用EVT对匹配和非匹配的重构误差分布的尾部进行建模。这个模型包括两个主要阶段。一个阶段利用EVT将误差分布的尾部建模,将OSR问题简化为假设检验问题;另一个阶段首先计算一个测试样本的重构误差,然后根据两个尾部分布的置信值进行融合,以确定其一致性。(其实就是对比重构误差,这里的EVT就是起到了一个自动化获取阈值的作用)

正如在[67]中所述,虽然SROSR优于许多具有竞争力的OSR算法,但它也有一些局限性。例如,在人脸识别任务中,当数据集在姿态、光照或分辨率方面存在极端变化时,SROSR就会失败,而SRC所要求的自我表达能力不再成立。除此之外,为了达到良好的识别性能,训练集需要广泛的跨度包含可能发生在测试集的情况。(换句话说,训练集得够强,能够建立这种重建关系)

3.1.3基于距离

  1. Bendale 和Boul t[68]通过扩展最近类均值(Nearest Class Mean, NCM)分类器,建立了开放集识别的最近非离群值(Nearest Non-Outlier, NNO)算法[103],[104]。NNO根据测试样本与KKCs的均值之间的距离进行分类,当所有分类器都拒绝输入样本时,NNO就拒绝输入样本。
  2. 此外,J’unior等人[69]在传统的最近邻分类器的基础上,引入了一个开放集版本的最近邻分类器(OSNN)来处理OSR问题。与直接对最相似类的相似度评分使用阈值的方法不同,OSNN对两个最相似类的相似度评分比使用一个阈值,称为最近邻距离比(NNDR)。具体地说,它首先找到测试样本 s 的最近邻 t 和 u ,其中 t 和 u 来自不同的类别,然后计算其比值。值得注意的是,OSNN的一个局限性是,仅选择来自不同类的两个参考样本进行比较,使得OSNN容易受到离群值的攻击[91]。

3.1.4基于margin分布

Rudd等人[70]制定了一个理论上完善的分类器:极值机(EVM),它源于margin分布的概念。假设我们有一个正样本 x_{i} 和从定义良好的类分布中提取的足够多的负样本 x_{j},产生两两的margin估计 m_{ij} 。因此,对任意点 x_{i} 都成立,每个点都可以估计自己到边缘的距离分布( 用威布尔分布给出了 x_{i} 的边际距离最小值的分布。)

得到任意点x^{'} 包含在由 x_{i} 估计的边界中的概率为:

其中,k_{i} 和 \lambda _{i} 分别为拟合最小 m_{ij} 得到的威布尔形状参数和尺度参数。

一旦EVM训练后,新样本 x^{'} 与类 C_{l} 的概率,也就是说 P(C_{l}|x^{'}) ,可以通过公式(9)获得,从而导致下面的决策函数:

其中,M为训练中KKCs的数量,\delta 为定义KKCs与不支持开放空间边界的概率阈值。

注意,正如在[71]中报道的,它也有一些局限性,其中一个明显的局限性是,当KKCs和UUCs的几何图形不同时,使用KKCs的几何图形是有风险的。为了解决这些局限性,Vignotto和Engelke[71]进一步提出了依赖于EVT近似的GPD和GEV分类器。

3.1.5基于其他传统ML方法

  1. 使用center-based similarity(CBS)的空间学习,范和刘[72]提出了一个新颖的解决方案用于文本分类下OSR的场景中,
  2. Vareto[73]探讨了开集人脸识别,提出hpl和HFCN算法结合哈希函数、偏最小二乘法(PLS)和完全连接网络(FCN)。
  3. Neira等[74]采用了集成的思想,将不同的分类器和特征结合起来解决OSR问题。

3.2基于深度神经网络的OSR模型

  1. Bendale和Boult[75]将DNNs中的SoftMax层替换为OpenMax层,提出OpenMax模型作为开放集深度网络的第一个解决方案。具体来说,深度神经网络首先使用SoftMax层通过最小化交叉熵损失来训练。采用Nearest Class Mean的概念[103],[104],每一类表示为利用该网络倒数第二层的特征(也称为激活向量)(仅对分类正确的训练样本)的均值的平均激活向量(MAV)。然后,计算训练样本与对应类MAVs的距离,并利用其拟合每个类的单独Weibull分布。然后根据Weibull分布拟合得分对激活向量的值进行重新分布,并用于计算UUCs的伪激活。最后,对这些重新分布的激活向量再次使用SoftMax计算了KKCs和(伪)UUCs的类概率。 正如[75]中讨论的,OpenMax有效地解决识别挑战欺骗/垃圾和不相关的开集的图像,但它未能认识到视觉上与训练样本不易辨别的但是被设计让深网络产生高信心但不正确答案[113],[114]的敌对的图像。(对抗样本:分布内,已知类之间。未知类:分布外无限区域和分布内的对抗区域,也就是他对未知样本的检测其实不是很好,只能检测到特征空间内的未知)
  2. Rozsa等人[76]还分析和比较了使用SoftMax层和OpenMax的DNNs对抗的鲁强性:尽管OpenMax对传统攻击提供的脆弱系统比SoftMax要少,但它同样容易受到直接处理深层表示的更复杂的对抗生成技术的影响。因此,对抗性样本仍然是开放集识别的一个严峻挑战。此外,利用与MAV的距离,OpenMax中的交叉熵损失函数不会直接激励在MAV周围投射类样本。此外,测试中使用的距离函数没有用于训练,可能导致该空间测量不准确[77]  。
  3. 为了解决这一局限性,Hassen和Chan[77]学习了一种基于神经网络的开放集识别表示。在这个表示中,来自同一阶级的样本相互封闭,而来自不同阶级的样本相距较远,使得UUCs的样本在KKCs之间占据的空间较大。
  4. 此外,Prakhya等人[78]继续遵循OpenMax的技术路线探索开放集文本分类,Shu等人[79]用1-vs-rest的最后一层sigmoids代替SoftMax层,提出了Deep open classifier (DOC)模型。
  5. Kardan和Stanley[80]提出了竞争过完备输出层(COOL)神经网络,以规避神经网络在远离训练数据的区域过度泛化的问题。
  6. Cardoso等人[81]基于一种无重神经网络提供的精细的类距离计算,提出了开放集识别的tWiSARD算法,该算法在[82]得到进一步发展。
  7. 最近,考虑到现有的背景类(KUCs), Dhamija等人[25]将SoftMax与新颖的Entropic开集和对流层损失结合起来,以解决OSR问题。
  8. Yoshihashi等人[83]提出了开放集识别(CROSR)的分类:重建学习算法,该算法利用潜在表示进行重建,使UUCs的检测具有鲁棒性,而不会损害KKCs的分类精度。
  9. Oza和Patel[85]利用带有新的训练和测试方法的类条件自动编码器,提出了OSR的C2AE模型。
  10. 与上述工作相比,Shu等[84]更注重发现被拒绝样本中隐藏的UUCs。相应地,他们提出了一个联合开放分类模型,其中有一个子模型用于分类一对样本是否属于同一类,该子模型可以作为聚类的距离函数,发现拒绝样本中的隐藏类。
     

从判别模型的角度来看,几乎所有现有的OSR方法都采用基于阈值的分类方案,其中识别器在决策时使用经验设定的阈值对输入样本进行拒绝或分类。因此,阈值起着关键作用。然而,目前对它的选择通常依赖于KKCs的知识,由于缺乏UUCs的可用信息,不可避免地会产生风险[91]。事实上,由于KUCs的数据经常在[25],[115],[116]手中,我们可以充分利用它们来降低这种风险,进一步提高这些方法在UUCs中的稳健性。此外,对数据分布尾部的有效建模使得EVT在现有的OSR方法中得到了广泛的应用。然而,遗憾的是,它没有提供原则性的方法来选择适合的尾巴的大小。此外,由于视觉类别中的目标频率通常遵循长尾分布[29],[117],一旦测试中KKCs和UUCs中罕见的类别同时出现,这种分布拟合将面临挑战[118]。

3.3基于实例生成的OSR模型(非常局限的有用)

  1. Ge等人[86]提出了生成OpenMax (G-OpenMax)算法,利用条件生成对抗网络(GAN)合成UUCs的混合物,生成OpenMax (G-OpenMax)算法可以对生成UUCs提供明确的概率估计,使分类器能够根据KKCs和生成UUCs的知识定位决策裕度。显然,这样的UUCs在其设置中仅局限于原KKCs空间的一个子空间中。此外,正如文献[86]报道的,虽然G-OpenMax可以有效地检测单色数字数据集中的UUCs,但在自然图像上并没有显著的性能提升。(生成的只是原KKCs空间的一个子空间中,并非真正的UUC)
  2. 与G-OpenMax不同,Neal等人[87]引入了一种新的数据集增强技术,称为反事实图像生成(OSRCI)。OSRCI采用encoder-decoder GAN架构生成接近KKCs但不属于任何KKCs的合成开集示例。他们进一步将OSR问题重新表述为使用一个包含新生成样本的附加类进行分类。(生成的只是对抗样本,并非全部UUC)
  3. 类似于[87],Jo等人[88]采用GAN技术生成假数据作为UUC的数据来进一步增强UUCs分类器的鲁棒性。
  4. Yu等人[89]提出了OSR的对抗性样本生成(ASG)框架。ASG可以应用于神经网络之外的各种学习模型,它不仅可以生成UUCs的数据,必要时还可以生成KKCs的数据。
  5. 此外,Yang等人[90]借鉴典型GAN网络中的生成器,生成与自动负集目标样本高度相似的合成样本,同时对鉴别器进行重新设计,与UUC一起输出多个类。然后,他们研究了基于微多普勒信号的人类活动识别技术

3.4基于非实例生成的OSR模型

Geng和Chen[91]对层次Dirichlet过程(HDP)进行了微小的修改,将HDP应用于OSR,并提出了基于集体决策的OSR模型(CDOSR),既可以处理批量样本,也可以处理个体样本。CD-OSR首先在训练阶段执行一个共聚过程以获得适当的参数。在测试阶段,它使用含有未知成分/子类的高斯混合模型(GMM)将每个KKC的数据建模为一组CD-OSR,而将整个测试集作为一个集合/批处理方法相同。然后,在HDP框架下,所有组都是共同聚集的。共聚后,可以得到一个或多个表示对应类的子类。因此,对于一个测试样本,它将被标记为合适的KKC或UUC,这取决于它被分配的子类是否与相应的KKC相关联。


4.开放世界识别

共同考虑OSR和CIL(增量学习)任务,Bendale和筛子[68]扩展现有的开集识别(2)定义开放世界识别(OWR)。

差别不大,暂时忽略。

5.评估指标

5.1准确率

(1)传统闭集是这样的

开放集修改为这样子

这里TU=TPU+TNU?FU=FPU+FNU?

(2)上述公式认为UUC和每个KKC等权重了,下面给出了可以分配不同权重给他们的公式,

其中,\lambda _{r} 为正则化常量,0<\lambda _{r}<1

5.2F-measure

公式传统是这样的

其中P,R的传统是这样的

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第7张图片

用于OSR后,保留C类而不增加计算未知类的P,R,修改的是每个FP要考虑未知类样本,每个FN要考虑样本分类到未知类的情况。

5.3尤登指数

由于F值对TN的变化是不变的[145],而TN是OSR性能的一个重要因素,Scherreik和Rigling[64]转向尤登指数J,定义如下 J = R + S -1; (16) 其中S = TN/(TN + FP)代表真阴性率[146]。尤登指数可以表示一个算法避免失败的能力[147],它在[-1;1]中是有界的,更高的值表示一个算法对失败的抵抗力更强。

此外,为了克服对模型参数和阈值敏感性的影响,[87]采用了ROC曲线下的面积(AUROC)和封闭集准确度作为评价指标,该指标将OSR任务视为新颖性检测和多类识别的结合。需要注意的是,虽然AUROC对评价模型有很好的作用,但对于OSR问题,我们最终需要做出决定(一个样本属于哪个KKC或UUC),因此这样的阈值似乎必须要确定。

备注:目前,F-measure和AUROC是最常用的评价指标。由于OSR问题面临新的情况,新的评价方法值得进一步探索。

5.3 实验

本小节在第5.1小节提到的流行基准数据集上定量评估了一些有代表性的OSR方法。此外,这些方法在非深度和深度特征的分类方面进行了比较。

5.3.1 使用非深度特征的OSR方法

使用非深度特征的OSR方法通常在LETTER, PENDIGITS, COIL20, YALEB数据集上进行评估。其中大多数采用基于阈值的策略,建议根据具体问题的开放性来设置阈值[22], [23], [67]. 然而,我们通常对 OSR 场景中的 UUCs 没有预先了解。因此,这样的设置似乎是不合理的,本文对此进行了重新校准,即只根据训练中的KKC来确定决策阈值,一旦在训练中确定,其数值在测试中就不再变化。为了有效地确定相应模型的阈值和参数,我们参照[69]、[91]引入一个评估协议,具体如下。

评估协议。如图4所示,数据集首先被分为拥有KKCs的训练集和包含KKCs和UUCs的测试集。训练集中出现的2/3的KKCs被选为 "KKCs模拟",而剩下的则是 "UUCs "模拟。因此,训练集被分为仅包含 "KKCs "的拟合集F和包括 "Closed-Set "模拟和 "Open-Set "模拟的验证集V。封闭集 "模拟只拥有KKCs,而 "开放集 "模拟包含 "KKCs "和 "UUCs"。请注意,在训练阶段,所有的方法都是用F进行训练,并在V上进行评估。具体来说,对于每个实验,我们

1.从相应的数据集中随机选择m个不同的类作为KKC进行训练;

2.随机选择每个KKC中60%的样本作为训练集;

3.从步骤2中选择剩余的40%的样本和不包括m个KKC的其他类的样本作为测试集;

4.从训练集中随机选择[( 2/3m + 0:5)]类作为 "KKC "进行拟合,而剩余类作为 "UUC "进行验证;

5.从每个 "KKC "中随机选择60%的样本作为拟合集F;

6.从步骤5中选择剩余40%的样本作为 "封闭集 "模拟,而步骤5中剩余40%的样本和 "UUCs "中的样本作为 "开放集 "模拟;

7.用F训练模型并在V上验证,然后找到合适的模型参数和阈值;

8.用5个随机类分区用微F度量法评估这些模型。

请注意,这里的实验方案只是评价OSR方法的一个相对合理的形式。事实上,其他协议也可以用来评估,而且有些可能更合适,因此值得进一步探讨。此外,由于之前不同的论文经常采用不同的评价方案,在这里我们尽可能地遵循他们论文中的参数调整原则。此外,为了鼓励可重复的研究,我们请读者到我们的github6了解数据集及其相应的类分区的细节。在不同的开放性O下,表4报告了这些方法之间的比较,其中1-vs-Set[21],W-SVM(W-OSVM7)[22],PI-SVM[23],SROSR[67],OSNN[69],EVM[70]来自基于传统ML类别,CD-OSR[91]来自基于非实例生成类别。

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第8张图片

  1. 我们的第一个观察结果是:随着开放程度的提高,尽管基于阈值的方法(如W-SVM、PI-SVM、SROSR、EVM)在一些数据集上表现良好,但也有在其他数据集上性能显著下降的情况(例如,W-SVM在LETTER上表现良好,而在PENDIGITS上表现明显不佳)。这主要是由于他们的决策阈值仅仅是根据KKC的知识来选择的,一旦UUC的样本落入某些KKC的划分空间,就会产生OSR风险。相比之下,由于HDP的数据适应特性,CD-OSR可以有效地对测试中出现的UUCs进行建模,使得它目前在大多数数据集上取得了更好的性能,特别是对LETTER和PENDIGITS。
  2. 我们的第二个观察结果是:与其他方法相比,OSNN的性能在标准差方面波动很大,特别是对于LETTER,这可能是因为NNDR策略使其性能严重依赖于相应数据集的分布特征。此外,由于1-vs-Set的开放空间仍然是无界的,我们可以看到其性能随着开放度的增加而急剧下降。作为一个单类分类器的基准,W-OSVM在封闭集的情况下运行良好。然而,一旦场景转为开放集,它的性能也会大幅下降。
  3. 总结:总的来说,基于HDP的数据适应特性,CD-OSR目前与其他方法相比表现相对较好。但是,CD-OSR也受到HDP本身的限制,比如难以应用于高维数据,计算复杂度高,等等。至于其他方法,它们也受到它们采用的基础模型的限制。例如,由于SRC在LETTER上的效果不好,因此SROSR在该数据集上获得的性能很差。此外,正如3.1小节中提到的,对于使用EVT的方法,如W-SVM、PI-SVM、SROSR、EVM,一旦KKCs和UUCs中的稀有类在测试中同时出现,它们就可能面临挑战。此外,还有必要指出的是,这一部分只是给出了这些算法在所有常用数据集上的比较,在某种程度上可能无法完全描述它们的行为。

开放集识别的最新进展总结(源于Recent Advances in Open Set Recognition: A Survey)_第9张图片

5.3.2 使用深度特征的OSR方法

使用深度特征的OSR方法通常在MNIST、SVHN、CIFAR10、CIFAR+10、CIFAR+50、Tiny-Imagenet上进行评估。由于他们中的大多数遵循了[87]中定义的评估协议,并且没有提供源代码,与[3]、[148]类似,我们在此只与他们公布的结果进行比较。表5总结了这些方法之间的比较,其中SoftMax[87]、OpenMax[75]、CROSR[83]和C2AE[85]属于基于深度神经网络的判别方法,而G-OpenMax[86]和OSRCI[87]属于基于实例生成的类别。

  1. 我们的第一个观察是。首先,所有方法在MNIST上的表现都是相当的,这主要是因为MNIST上的结果几乎是饱和的。第二,与SoftMax、OpenMax、GOpenMax和OSRCI等早期方法相比,CROSR和C2AE目前在基准数据集上取得了更好的性能。它们成功的主要原因也许是:对于CROSR来说,训练网络进行联合分类和重建KKC,使得为KKC学习到的表征更具辨别力和紧密性(使得KKC获得更紧密的分布区域);对于C2AE来说,将OSR分为封闭集分类和开放集识别,使得它可以避免在由SoftMax分数修改的单一分数下,同时执行这两个子任务(找到这样一个单一分数措施通常极具挑战性[85] )。
  2. 我们的第二个观察结果是:作为一个最先进的基于实例生成的OSR方法,OSRCI目前在上述几乎所有的数据集上都没有赢得CROSR和C2AE(两个最先进的基于深度神经网络的OSR方法),这似乎有点违反直觉,因为OSRCI从UUCs获得了额外的信息。但这恰恰说明(从另一个方面),基于实例生成的方法的性能仍有更大的改进空间,值得进一步探索,同时也显示了CROSR和C2AE中策略的有效性。(实例生成,个人真心不推荐,就是用实例来以偏概全而已)
  3. 备注。如前所述,由于使用EVT,OpenMax、CROSR、C2AE和G-OpenMax在测试中同时出现KKC和UUC中的稀有类时也可能面临挑战。此外,还值得一提的是,基于实例生成的方法与其他三类方法是正交的,也就是说,它可以与这些方法相结合,达到最佳效果。

6.未来方向

在这一节中,我们简要分析和讨论了现有OSR模型的局限性,同时也指出了这一领域的一些有前景的研究方向,并在以下几个方面进行了详细介绍。

6.1 关于建模

首先,如图3所示,虽然几乎所有现有的OSR方法都是从判别模型或生成模型的角度建模的,但一个自然的问题是:能否从混合生成判别模型的角度构建OSR模型?(非常有意义,但建议已知类用判别,未知类用生成)。请注意,就我们所知,目前还没有从这个角度出发的OSR工作,这值得进一步讨论。其次,OSR的主要挑战在于,传统的分类器在封闭场景下会潜入KKCs的过度占用空间,因此一旦UUCs的样本落入为KKCs划分的空间,它们将永远无法被正确分类。从这个角度看,以下两个建模角度将是有希望的研究方向。

6.1.1 对已知的已知类进行建模

为了缓和上述空间被过度占用的问题,我们通常期望在聚类方法的帮助下,对每个目标类获得更好的区分,同时将其限制在一个紧凑的空间内。为了达到这个目的,聚类学习和分类学习可以统一起来,以达到两全其美的效果:聚类学习可以帮助目标类获得更紧凑的分布区域(即有限的空间),而分类学习则为它们提供更好的判别能力。(生成方法,或基于原始空间的方法具有紧凑的表示,判别方法具有好的判别能力)事实上,已经有一些工作将聚类和分类功能融合到一个统一的学习框架中[149], [150]。不幸的是,这些工作仍然是在一个封闭集的假设下。因此,需要做一些认真的努力来使它们适应OSR的情况,或者为OSR专门设计这种类型的分类器。

6.1.2 为未知的未知类建模

在开放集假设下,为UUCs建模是不可能的,因为我们只有来自KKCs的可用知识。然而,适当放宽一些限制将使其成为可能,其中一种方法是通过对抗性学习技术生成UUCs数据,在一定程度上说明开放空间,如[87]、[88]、[89],其中的关键是如何生成有效的UUCs数据。此外,由于Dirichlet过程的数据适应性,基于Dirichlet过程的OSR方法,如CD-OSR[91],也值得进一步探讨。

6.2 关于拒绝

到目前为止, 大多数现有的OSR算法主要关心的是有效地拒绝UUC, 然而只有少数作品[68], [84]关注拒绝样本的后续处理, 而且这些作品通常采用事后策略[91]. 因此,将现有的开放集识别与新的类知识发现一起扩展将是一个有趣的研究课题。此外,据我们所知,拒绝选项的可解释性似乎还没有被讨论过,其中拒绝选项可能对应的是一个低也是一个有趣的未来研究方向。其他研究领域的一些相关工作可以在[116]、[151]、[152]、[153]、[154]中找到。

6.3 关于决策

如3.2.2小节所述,几乎所有现有的OSR技术都是专门为识别单个样本而设计的,即使这些样本是集体来的,如图像集识别[155]。事实上,这样的决策并不考虑测试样本之间的关联性。因此,集体决策[91]似乎是一个更好的选择,因为它不仅可以考虑到测试样本之间的相关性,而且还可以在同一时间发现新类。因此,我们期待未来的方向是通过采用这样的集体决策来扩展现有的OSR方法。

6.4 开放集+其他研究领域

由于开放集场景对于现实世界的分类/识别任务来说是一个比较实用的假设,它可以自然地与涉及分类/识别的各个领域相结合,如半监督学习、领域适应、主动学习、多任务学习、多视图学习、多标签图像分类问题等等。例如,[156]、[157]、[158]将这一方案引入领域适应,而[159]将其引入语义实例分割任务。最近,[160]探讨了主动学习领域的开放集分类。值得一提的是,数据集NUS-Wide和MS COCO已经被用于研究多标签零点学习[161],它们也适合于研究多标签OSR问题。因此,许多有趣的工作都值得期待。

6.5 广义开放集识别

OSR假定在训练中只有KKCs的知识是可用的,也就是说,我们还可以利用关于KKCs的各种侧面信息。然而,大多数现有的OSR方法只是使用了KKCs的特征级信息,而忽略了它们的其他侧面信息,如语义/属性信息、知识图谱、KUCs的数据(如universum数据)等,这些信息对于进一步提高它们的性能也很重要。因此,我们给出了以下有希望的研究方向。

6.5.1 附加语义/属性信息

通过对ZSL的探索,我们可以发现,很多语义/属性信息通常在KKC和未知类数据之间共享。因此,这些信息完全可以用来在OSR中 "认知 "UUCs,或者至少为UUCs的样本提供一个粗略的语义/属性描述,而不是简单地拒绝它们。请注意,这种设置与ZSL(或G-ZSL)中的设置不同,后者假设KKC和UUC的语义/属性信息在训练中都是已知的。此外,表1的最后一行显示了这种差异。此外,一些相关的工作可以在[133]、[154]、[162]、[163]中找到。还有一些概念上类似的课题在其他研究界也有研究,如开放词汇的物体检索[164],[165],开放世界的人物重新识别[166]或搜索目标[167],开放词汇的场景解析[168]。

6.5.2 使用其他可用的侧面信息

对于6.1小节中提到的过度占用空间问题,通过使用其他侧面信息如KUCs数据(如universum数据[169],[170])尽可能地缩小其区域,也会随着这些KKCs划分的空间减少而降低开放空间风险。如图1所示,以数字识别为例,假设训练集包括感兴趣的类 "1"、"3"、"4"、"5"、"9";测试集包括所有的类 "0"-"9"。如果我们还有可用的universum数据--英文字母'Z'、'I'、'J'、'Q'、'U',我们可以在建模中充分使用它们来扩展现有的OSR模型,进一步降低开放空间风险。因此,我们可以预见,未来的开放套型识别将采用更加通用的设置。

6.6 相对开放集识别

虽然开放集场景无处不在,但也有一些现实世界的场景在实践中并非完全开放。这种场景下的识别/分类可以被称为相对开放集识别。以医疗诊断为例,整个样本空间可以分为患病样本和健康样本两个子空间,在检测样本是否患病的这样一个层面,确实是一个封闭集问题。然而,当我们需要进一步识别疾病的类型时,这自然会成为一个完整的OSR问题,因为在训练中未见过的新疾病可能会出现在测试中。目前,很少有作品共同探索这种新的混合场景。请注意,在这种情况下,主要目标是限制测试中出现的UUC的范围,同时在用KKCs建立的分类法上找到一个新样本的最具体的类标签。一些相关的工作可以在[171]中找到。

6.7 开放集识别的知识整合

事实上,对世界的不完全了解是普遍存在的,特别是对单个个体而言:你知道的东西并不意味着我也知道。例如,陆生物种(子知识集)显然是对海洋物种训练的分类器的开放集。俗话说,"两个脑袋不如一个脑袋",因此,如何整合在每个子知识集上训练的分类器,以进一步降低开放空间的风险,将是未来工作中一个有趣而具有挑战性的课题,特别是对于这样的情况:我们只能获得在相应的子知识集上训练的分类器,但由于数据隐私保护,这些子知识集却无法使用。这似乎在某种程度上具有具有多个源域和一个目标域(mS1T)的领域适应的味道[172], [173], [174], [175]。

7 结论

如上所述,在现实世界的识别/分类任务中,通常不可能对所有事物进行建模[176],因此OSR的情况无处不在。另一方面,尽管许多相关的算法已经被提出来用于OSR,但它仍然面临严重的挑战。由于目前还没有关于这一主题的系统总结,本文对现有的OSR技术进行了全面的回顾,涵盖了从相关定义、模型的表示、数据集、评价标准和算法比较等各个方面。需要注意的是,为了方便起见,本文对现有OSR技术的分类只是其中一种可能的方式,而其他方式也可以有效地对其进行分类,有些可能更合适,但不在我们这里的关注范围之内。此外,为了避免读者混淆与OSR类似的任务,我们还简要分析了OSR与其相关任务之间的关系,包括零次、一次(少数次)识别/学习技术、带有拒绝选项的分类等等。除此之外,作为OSR的自然延伸,我们还回顾了开放世界的识别。更重要的是,我们分析和讨论了这些现有方法的局限性,并指出了这一领域中一些有前途的后续研究方向。

 

 

 


 

你可能感兴趣的:(开放集识别,deep learning)