摘要:在现实的识别/分类任务中,由于受到各种客观因素的限制,在训练一个识别器或分类器摘
————————————————
目录
0.摘要:
1.引言:
1.1类似的学习概念还包括:
1.2考虑不同的四种样本
1.3这些学习概念与这四类样本的关系。
2.基本符号&相关定义
2.1开放空间风险的定义
2.2开放性的定义
2.3开放集识别问题
3.OSR技术分类
3.1基于传统ML (TML)的判别方法
3.1.1基于SVM
3.1.2基于稀疏表示
3.1.3基于距离
3.1.4基于margin分布
3.1.5基于其他传统ML方法
3.2基于深度神经网络的OSR模型
3.3基于实例生成的OSR模型(非常局限的有用)
3.4基于非实例生成的OSR模型
4.开放世界识别
5.评估指标
5.1准确率
5.2F-measure
5.3尤登指数
5.3 实验
5.3.1 使用非深度特征的OSR方法
5.3.2 使用深度特征的OSR方法
6.未来方向
6.1 关于建模
6.1.1 对已知的已知类进行建模
6.1.2 为未知的未知类建模
6.2 关于拒绝
6.3 关于决策
6.4 开放集+其他研究领域
6.5 广义开放集识别
6.5.1 附加语义/属性信息
6.5.2 使用其他可用的侧面信息
6.6 相对开放集识别
6.7 开放集识别的知识整合
7 结论
————————————————
前面的已知未知表示是否有标记样本(标记信息)。
后面的已知未知表示能不能说明这个类别是什么类,以及这个类长什么样(描述信息)。
————————————————
传统分类:对明确类的正常标记样本进行训练与分类。(描述信息这里只指明确类)
带拒绝选项的分类:对明确类的正常标记样本进行训练与分类,如果分类结果置信度低的话,拒绝这个分类结果,可以待人工二次判断。(描述信息这里只指明确类)
异常检测:对明确类的正常标记样本进行训练(或还包括少量没有明确类的异常样本),对有明确类的正常样本和没有明确类的异常样本进行分类。(描述信息这里只指明确类)
one/few-shot学习(参考人脸识别中的人脸比对):对明确类含义的正常标记样本进行训练,以及迁移到只有类描述的样本上训练,最后在有类描述的样本上进行分类(描述信息这里只指明确类含义)
zero-shot:对明确类含义的正常标记样本进行训练,通过学习类别描述的方式来学习分类(样本—>类别描述—>类),对具有类别描述信息的样本进行分类,期望也能通过样本—>类别描述—>类实现分类。(描述信息这里只指明确类含义)
open-set:对明确类的正常标记样本进行训练,对有明确类的正常样本和拒绝其他非明确类的样本。(描述信息这里只指明确类)
开放空间风险即将开放空间 O(远离已知数据的未知空间)中的样本标注为已知类别带来的风险,它被形式化为开放空间 O 相对于整体测度空间的相对测度,计算如下
开放性openness 用来定义开放空间(或者说开放识别问题)的开放程度,令 、 和 分别表示:待识别类的集合、训练中使用的类的集合和测试中使用的类的集合。则对应的问题开放性O为:
考虑到考虑以下简单的情况:, ,,会导致O < 0,其次,也考虑问题的开放性应该只取决于 知识和 知识,而不是 、 和 三个方面的知识。对开放性公式重新校准为:
开放集识别问题就是既要最小化传统的经验风险,也要最小化上面提出的开放空间风险。换句话说,开放集识别的目标就是找到一个可测量的识别函数f 来最小化以下开放集风险的(其中后一项为经验风险,V为为训练数据):
现有技术都是在一定的约束下,从判别和生成的角度对OSR建模进行了探索。 根据建模形式,这些模型可进一步分为四类(见表2):
conic-svm,pi-svm,cbs-svm,1s-BFHS
为了使SRC适应开放环境,Zhang和Patel[67]提出了基于稀疏表示的开放集识别模型,简称SROSR。由于OSR的大部分判别性信息隐藏在匹配和非匹配的重构这两个误差分布的尾部,SROSR使用EVT对匹配和非匹配的重构误差分布的尾部进行建模。这个模型包括两个主要阶段。一个阶段利用EVT将误差分布的尾部建模,将OSR问题简化为假设检验问题;另一个阶段首先计算一个测试样本的重构误差,然后根据两个尾部分布的置信值进行融合,以确定其一致性。(其实就是对比重构误差,这里的EVT就是起到了一个自动化获取阈值的作用)
正如在[67]中所述,虽然SROSR优于许多具有竞争力的OSR算法,但它也有一些局限性。例如,在人脸识别任务中,当数据集在姿态、光照或分辨率方面存在极端变化时,SROSR就会失败,而SRC所要求的自我表达能力不再成立。除此之外,为了达到良好的识别性能,训练集需要广泛的跨度包含可能发生在测试集的情况。(换句话说,训练集得够强,能够建立这种重建关系)
Rudd等人[70]制定了一个理论上完善的分类器:极值机(EVM),它源于margin分布的概念。假设我们有一个正样本 和从定义良好的类分布中提取的足够多的负样本 ,产生两两的margin估计 。因此,对任意点 都成立,每个点都可以估计自己到边缘的距离分布( 用威布尔分布给出了 的边际距离最小值的分布。)
得到任意点 包含在由 估计的边界中的概率为:
其中, 和 分别为拟合最小 得到的威布尔形状参数和尺度参数。
一旦EVM训练后,新样本 与类 的概率,也就是说 ,可以通过公式(9)获得,从而导致下面的决策函数:
其中,M为训练中KKCs的数量, 为定义KKCs与不支持开放空间边界的概率阈值。
注意,正如在[71]中报道的,它也有一些局限性,其中一个明显的局限性是,当KKCs和UUCs的几何图形不同时,使用KKCs的几何图形是有风险的。为了解决这些局限性,Vignotto和Engelke[71]进一步提出了依赖于EVT近似的GPD和GEV分类器。
从判别模型的角度来看,几乎所有现有的OSR方法都采用基于阈值的分类方案,其中识别器在决策时使用经验设定的阈值对输入样本进行拒绝或分类。因此,阈值起着关键作用。然而,目前对它的选择通常依赖于KKCs的知识,由于缺乏UUCs的可用信息,不可避免地会产生风险[91]。事实上,由于KUCs的数据经常在[25],[115],[116]手中,我们可以充分利用它们来降低这种风险,进一步提高这些方法在UUCs中的稳健性。此外,对数据分布尾部的有效建模使得EVT在现有的OSR方法中得到了广泛的应用。然而,遗憾的是,它没有提供原则性的方法来选择适合的尾巴的大小。此外,由于视觉类别中的目标频率通常遵循长尾分布[29],[117],一旦测试中KKCs和UUCs中罕见的类别同时出现,这种分布拟合将面临挑战[118]。
Geng和Chen[91]对层次Dirichlet过程(HDP)进行了微小的修改,将HDP应用于OSR,并提出了基于集体决策的OSR模型(CDOSR),既可以处理批量样本,也可以处理个体样本。CD-OSR首先在训练阶段执行一个共聚过程以获得适当的参数。在测试阶段,它使用含有未知成分/子类的高斯混合模型(GMM)将每个KKC的数据建模为一组CD-OSR,而将整个测试集作为一个集合/批处理方法相同。然后,在HDP框架下,所有组都是共同聚集的。共聚后,可以得到一个或多个表示对应类的子类。因此,对于一个测试样本,它将被标记为合适的KKC或UUC,这取决于它被分配的子类是否与相应的KKC相关联。
共同考虑OSR和CIL(增量学习)任务,Bendale和筛子[68]扩展现有的开集识别(2)定义开放世界识别(OWR)。
差别不大,暂时忽略。
(1)传统闭集是这样的
开放集修改为这样子
这里TU=TPU+TNU?FU=FPU+FNU?
(2)上述公式认为UUC和每个KKC等权重了,下面给出了可以分配不同权重给他们的公式,
公式传统是这样的
其中P,R的传统是这样的
用于OSR后,保留C类而不增加计算未知类的P,R,修改的是每个FP要考虑未知类样本,每个FN要考虑样本分类到未知类的情况。
由于F值对TN的变化是不变的[145],而TN是OSR性能的一个重要因素,Scherreik和Rigling[64]转向尤登指数J,定义如下 J = R + S -1; (16) 其中S = TN/(TN + FP)代表真阴性率[146]。尤登指数可以表示一个算法避免失败的能力[147],它在[-1;1]中是有界的,更高的值表示一个算法对失败的抵抗力更强。
此外,为了克服对模型参数和阈值敏感性的影响,[87]采用了ROC曲线下的面积(AUROC)和封闭集准确度作为评价指标,该指标将OSR任务视为新颖性检测和多类识别的结合。需要注意的是,虽然AUROC对评价模型有很好的作用,但对于OSR问题,我们最终需要做出决定(一个样本属于哪个KKC或UUC),因此这样的阈值似乎必须要确定。
备注:目前,F-measure和AUROC是最常用的评价指标。由于OSR问题面临新的情况,新的评价方法值得进一步探索。
本小节在第5.1小节提到的流行基准数据集上定量评估了一些有代表性的OSR方法。此外,这些方法在非深度和深度特征的分类方面进行了比较。
使用非深度特征的OSR方法通常在LETTER, PENDIGITS, COIL20, YALEB数据集上进行评估。其中大多数采用基于阈值的策略,建议根据具体问题的开放性来设置阈值[22], [23], [67]. 然而,我们通常对 OSR 场景中的 UUCs 没有预先了解。因此,这样的设置似乎是不合理的,本文对此进行了重新校准,即只根据训练中的KKC来确定决策阈值,一旦在训练中确定,其数值在测试中就不再变化。为了有效地确定相应模型的阈值和参数,我们参照[69]、[91]引入一个评估协议,具体如下。
评估协议。如图4所示,数据集首先被分为拥有KKCs的训练集和包含KKCs和UUCs的测试集。训练集中出现的2/3的KKCs被选为 "KKCs模拟",而剩下的则是 "UUCs "模拟。因此,训练集被分为仅包含 "KKCs "的拟合集F和包括 "Closed-Set "模拟和 "Open-Set "模拟的验证集V。封闭集 "模拟只拥有KKCs,而 "开放集 "模拟包含 "KKCs "和 "UUCs"。请注意,在训练阶段,所有的方法都是用F进行训练,并在V上进行评估。具体来说,对于每个实验,我们
1.从相应的数据集中随机选择m个不同的类作为KKC进行训练;
2.随机选择每个KKC中60%的样本作为训练集;
3.从步骤2中选择剩余的40%的样本和不包括m个KKC的其他类的样本作为测试集;
4.从训练集中随机选择[( 2/3m + 0:5)]类作为 "KKC "进行拟合,而剩余类作为 "UUC "进行验证;
5.从每个 "KKC "中随机选择60%的样本作为拟合集F;
6.从步骤5中选择剩余40%的样本作为 "封闭集 "模拟,而步骤5中剩余40%的样本和 "UUCs "中的样本作为 "开放集 "模拟;
7.用F训练模型并在V上验证,然后找到合适的模型参数和阈值;
8.用5个随机类分区用微F度量法评估这些模型。
请注意,这里的实验方案只是评价OSR方法的一个相对合理的形式。事实上,其他协议也可以用来评估,而且有些可能更合适,因此值得进一步探讨。此外,由于之前不同的论文经常采用不同的评价方案,在这里我们尽可能地遵循他们论文中的参数调整原则。此外,为了鼓励可重复的研究,我们请读者到我们的github6了解数据集及其相应的类分区的细节。在不同的开放性O下,表4报告了这些方法之间的比较,其中1-vs-Set[21],W-SVM(W-OSVM7)[22],PI-SVM[23],SROSR[67],OSNN[69],EVM[70]来自基于传统ML类别,CD-OSR[91]来自基于非实例生成类别。
使用深度特征的OSR方法通常在MNIST、SVHN、CIFAR10、CIFAR+10、CIFAR+50、Tiny-Imagenet上进行评估。由于他们中的大多数遵循了[87]中定义的评估协议,并且没有提供源代码,与[3]、[148]类似,我们在此只与他们公布的结果进行比较。表5总结了这些方法之间的比较,其中SoftMax[87]、OpenMax[75]、CROSR[83]和C2AE[85]属于基于深度神经网络的判别方法,而G-OpenMax[86]和OSRCI[87]属于基于实例生成的类别。
在这一节中,我们简要分析和讨论了现有OSR模型的局限性,同时也指出了这一领域的一些有前景的研究方向,并在以下几个方面进行了详细介绍。
首先,如图3所示,虽然几乎所有现有的OSR方法都是从判别模型或生成模型的角度建模的,但一个自然的问题是:能否从混合生成判别模型的角度构建OSR模型?(非常有意义,但建议已知类用判别,未知类用生成)。请注意,就我们所知,目前还没有从这个角度出发的OSR工作,这值得进一步讨论。其次,OSR的主要挑战在于,传统的分类器在封闭场景下会潜入KKCs的过度占用空间,因此一旦UUCs的样本落入为KKCs划分的空间,它们将永远无法被正确分类。从这个角度看,以下两个建模角度将是有希望的研究方向。
为了缓和上述空间被过度占用的问题,我们通常期望在聚类方法的帮助下,对每个目标类获得更好的区分,同时将其限制在一个紧凑的空间内。为了达到这个目的,聚类学习和分类学习可以统一起来,以达到两全其美的效果:聚类学习可以帮助目标类获得更紧凑的分布区域(即有限的空间),而分类学习则为它们提供更好的判别能力。(生成方法,或基于原始空间的方法具有紧凑的表示,判别方法具有好的判别能力)事实上,已经有一些工作将聚类和分类功能融合到一个统一的学习框架中[149], [150]。不幸的是,这些工作仍然是在一个封闭集的假设下。因此,需要做一些认真的努力来使它们适应OSR的情况,或者为OSR专门设计这种类型的分类器。
在开放集假设下,为UUCs建模是不可能的,因为我们只有来自KKCs的可用知识。然而,适当放宽一些限制将使其成为可能,其中一种方法是通过对抗性学习技术生成UUCs数据,在一定程度上说明开放空间,如[87]、[88]、[89],其中的关键是如何生成有效的UUCs数据。此外,由于Dirichlet过程的数据适应性,基于Dirichlet过程的OSR方法,如CD-OSR[91],也值得进一步探讨。
到目前为止, 大多数现有的OSR算法主要关心的是有效地拒绝UUC, 然而只有少数作品[68], [84]关注拒绝样本的后续处理, 而且这些作品通常采用事后策略[91]. 因此,将现有的开放集识别与新的类知识发现一起扩展将是一个有趣的研究课题。此外,据我们所知,拒绝选项的可解释性似乎还没有被讨论过,其中拒绝选项可能对应的是一个低也是一个有趣的未来研究方向。其他研究领域的一些相关工作可以在[116]、[151]、[152]、[153]、[154]中找到。
如3.2.2小节所述,几乎所有现有的OSR技术都是专门为识别单个样本而设计的,即使这些样本是集体来的,如图像集识别[155]。事实上,这样的决策并不考虑测试样本之间的关联性。因此,集体决策[91]似乎是一个更好的选择,因为它不仅可以考虑到测试样本之间的相关性,而且还可以在同一时间发现新类。因此,我们期待未来的方向是通过采用这样的集体决策来扩展现有的OSR方法。
由于开放集场景对于现实世界的分类/识别任务来说是一个比较实用的假设,它可以自然地与涉及分类/识别的各个领域相结合,如半监督学习、领域适应、主动学习、多任务学习、多视图学习、多标签图像分类问题等等。例如,[156]、[157]、[158]将这一方案引入领域适应,而[159]将其引入语义实例分割任务。最近,[160]探讨了主动学习领域的开放集分类。值得一提的是,数据集NUS-Wide和MS COCO已经被用于研究多标签零点学习[161],它们也适合于研究多标签OSR问题。因此,许多有趣的工作都值得期待。
OSR假定在训练中只有KKCs的知识是可用的,也就是说,我们还可以利用关于KKCs的各种侧面信息。然而,大多数现有的OSR方法只是使用了KKCs的特征级信息,而忽略了它们的其他侧面信息,如语义/属性信息、知识图谱、KUCs的数据(如universum数据)等,这些信息对于进一步提高它们的性能也很重要。因此,我们给出了以下有希望的研究方向。
通过对ZSL的探索,我们可以发现,很多语义/属性信息通常在KKC和未知类数据之间共享。因此,这些信息完全可以用来在OSR中 "认知 "UUCs,或者至少为UUCs的样本提供一个粗略的语义/属性描述,而不是简单地拒绝它们。请注意,这种设置与ZSL(或G-ZSL)中的设置不同,后者假设KKC和UUC的语义/属性信息在训练中都是已知的。此外,表1的最后一行显示了这种差异。此外,一些相关的工作可以在[133]、[154]、[162]、[163]中找到。还有一些概念上类似的课题在其他研究界也有研究,如开放词汇的物体检索[164],[165],开放世界的人物重新识别[166]或搜索目标[167],开放词汇的场景解析[168]。
对于6.1小节中提到的过度占用空间问题,通过使用其他侧面信息如KUCs数据(如universum数据[169],[170])尽可能地缩小其区域,也会随着这些KKCs划分的空间减少而降低开放空间风险。如图1所示,以数字识别为例,假设训练集包括感兴趣的类 "1"、"3"、"4"、"5"、"9";测试集包括所有的类 "0"-"9"。如果我们还有可用的universum数据--英文字母'Z'、'I'、'J'、'Q'、'U',我们可以在建模中充分使用它们来扩展现有的OSR模型,进一步降低开放空间风险。因此,我们可以预见,未来的开放套型识别将采用更加通用的设置。
虽然开放集场景无处不在,但也有一些现实世界的场景在实践中并非完全开放。这种场景下的识别/分类可以被称为相对开放集识别。以医疗诊断为例,整个样本空间可以分为患病样本和健康样本两个子空间,在检测样本是否患病的这样一个层面,确实是一个封闭集问题。然而,当我们需要进一步识别疾病的类型时,这自然会成为一个完整的OSR问题,因为在训练中未见过的新疾病可能会出现在测试中。目前,很少有作品共同探索这种新的混合场景。请注意,在这种情况下,主要目标是限制测试中出现的UUC的范围,同时在用KKCs建立的分类法上找到一个新样本的最具体的类标签。一些相关的工作可以在[171]中找到。
事实上,对世界的不完全了解是普遍存在的,特别是对单个个体而言:你知道的东西并不意味着我也知道。例如,陆生物种(子知识集)显然是对海洋物种训练的分类器的开放集。俗话说,"两个脑袋不如一个脑袋",因此,如何整合在每个子知识集上训练的分类器,以进一步降低开放空间的风险,将是未来工作中一个有趣而具有挑战性的课题,特别是对于这样的情况:我们只能获得在相应的子知识集上训练的分类器,但由于数据隐私保护,这些子知识集却无法使用。这似乎在某种程度上具有具有多个源域和一个目标域(mS1T)的领域适应的味道[172], [173], [174], [175]。
如上所述,在现实世界的识别/分类任务中,通常不可能对所有事物进行建模[176],因此OSR的情况无处不在。另一方面,尽管许多相关的算法已经被提出来用于OSR,但它仍然面临严重的挑战。由于目前还没有关于这一主题的系统总结,本文对现有的OSR技术进行了全面的回顾,涵盖了从相关定义、模型的表示、数据集、评价标准和算法比较等各个方面。需要注意的是,为了方便起见,本文对现有OSR技术的分类只是其中一种可能的方式,而其他方式也可以有效地对其进行分类,有些可能更合适,但不在我们这里的关注范围之内。此外,为了避免读者混淆与OSR类似的任务,我们还简要分析了OSR与其相关任务之间的关系,包括零次、一次(少数次)识别/学习技术、带有拒绝选项的分类等等。除此之外,作为OSR的自然延伸,我们还回顾了开放世界的识别。更重要的是,我们分析和讨论了这些现有方法的局限性,并指出了这一领域中一些有前途的后续研究方向。