读论文是一个很痛苦的过程,但是也是最干货的阅读材料,看一篇关于零样本目标分割的论文。
论文:https://arxiv.org/abs/1803.06049
代码:https://github.com/salman-h-khan/ZSD_Release
目前的零样本学习(ZSL)方法仅限于识别测试图像中的单个显性看不见的物体类别。我们假设此设置不适用于真实世界中的应用,在这些应用中看不见的对象仅作为复杂场景的一部分出现,从而保证了对看不见类别的“识别”和“定位”。为了解决这个限制,我们引入了一个新的 ‘Zero-Shot Detection’(ZSD)问题设置,该问题设置旨在同时识别和定位属于新颖类别的对象实例,而无需任何训练实例。我们还基于极具挑战性的ILSVRC数据集提出了一种针对ZSD的新实验协议,该协议遵循一些实际问题,例如看不见的物体的稀有性。据我们所知,这是ZSD的第一个端到端深度网络,可以联合建模可视域和语义域信息之间的相互作用。为了克服自动派生的语义描述中的干扰,我们利用元类的概念来设计原始的损失函数,以实现最大余量类分离与语义空间聚类之间的协同作用。此外,我们提出了从识别扩展到检测设置的基线方法。我们的大量实验表明,在必不可少的ZSD问题上,性能明显超过了基线。
自研究ZSL以来,其一直以该对象分类问题为主导。但其局限性使其在现实生活中无法使用。
第一,它注定要在图像中仅存在一个主要对象的简单情况下工作。
第二,属性和语义描述与单个对象相关整个场景组成。
第三,零击识别提供了答案到基本任务中看不见的类别,例如分类和检索,但是无法扩展到高级任务,例如场景解释和上下文建模,这需要对场景中所有显着对象进行基本推理。
第四,全局属性更容易受到背景变化,视点,外观和比例变化以及诸如咬合和混乱。
结果,在复杂情况下,图像级ZSL失败场景,其中各种竞争属性不属于单个图像级类别将存在。
引入了一个新的问题设置,称为零散物体检测。
如图1所示,不仅仅是分类图像,我们的目标是同时检测和定位每个个体实例新对象类,即使没有这些类的任何直观示例
在训练阶段。
在这方面,我们提出了一种基于ILSVRC的新的零击检测协议-对象检测挑战。
由于数据集规模大,种类繁多,不受限制的性质,并且由于其利用WordNet语义层次结构而独特。利用对象之间的语义关系
类,我们使用“元类”的概念并介绍一种新颖的方法自动更新语义嵌入。
原始语义嵌入是使用文本挖掘以无监督的方式学习,因此他们有相当大的噪音。我们对类嵌入的优化证明是一种
减少这种噪音并学习可靠的语义表示的有效方法。
ZSD在许多新颖的对象定位,检索,跟踪以及推理对象与其环境之间的关系方面具有广泛的应用可用的语义,例如对象名称或自然语言描述。尽管是一个关键问题,但与标准分类相比,ZSD非常困难。零镜头识别问题仅假设一个图像中的单个主要对象并尝试预测其类别ZSD任务必须预测多类别类别标签和准确的位置给定图像中的每个实例。由于图像中每个对象的可能存在的位置可能非常庞大,并且因为语义
类描述比较嘈杂,与分类相比,检测方法更容易受到错误预测的影响。因此,可以预料ZSD方法预测的类标签可能不正确,但在视觉上
并且在语义上类似于相应的true类。例如,错误地预测“蜘蛛”为“蝎子”,由于语义上两者都相似是无脊椎动物。
为解决此问题,我们放松了原始检测问题独立研究视觉和语义上的混乱紧密联系的类之间的相似之处。为此,与ZSD一起,
我们评估零镜头元类检测,零镜头标记和零镜头元类标记。值得注意的是,拟议的网络仅针对ZSD进行了“一次”培训任务和其他任务仅在评估期间使用。
尽管已经提出了基于深度网络的解决方案以实现零击识别,就我们所知,我们提出了第一个端到端可训练网络,用于同时与视觉相关的ZSD问题具有语义标签信息的图像特征。该网络将类的语义嵌入向量视为网络内的固定嵌入,以产生可见和不可见类的预测分数。我们提议一本小说损失公式结合了最大利润学习和基于不同元类的类别分数的语义聚类损失。而最大保证金损失试图分离各个类,语义聚类损失试图减少
通过将相似的类放置在一起并且相异的类分开放置,可以使语义向量中的噪声变大。值得注意的是,我们提出的公式假设已预先定义
看不见的课程,以探索模型学习阶段的语义关系。
这一假设与最近的文献研究一致类语义来解决ZSL 中的域转移问题,并且没有构成转导设置。基于看不见的前提几个实用的零射训练期间,类语义可能是未知的场景中,我们还提出了一种方法的变体,无需进行培训即可预定义的看不见的类。
最后,我们提出了一种针对ZSD的比较方法:
扩展了一个流行的零镜头识别框架,名为ConSE ,该框架使用
Faster-RCNN 。
总而言之,本文报告了以下进展:
–我们引入零射击学习的新问题,旨在共同识别并定位复杂场景中的新颖对象。
–我们提出了新的实验方案并设计了新颖的基准解决方案从传统的识别扩展到检测任务。
–我们提出了一种可同时进行的端到端可训练深度架构同时考虑视觉和语义信息。
–我们设计了一种新颖的损失函数,该函数可实现基于元类的最大分类分离和语义聚类的协同效果。除此之外,我们的方法还可以自动调整嘈杂的语义嵌入。
给定一组可见物体类别的图像,ZSD旨在识别和识别以前看不见的对象类别的本地化。在本节中,我们正式描述ZSD问题及其相关的挑战。我们还介绍了检测任务的变体,它们是原始问题的自然扩展。
我们描述以下讨论中使用的符号。
考虑一组由S表示的“可见”类S = {1,… ,S},其示例在培训阶段可用,S代表他们的总数。还有另一组“看不见的”类U = {S + 1,… ,S + U},其实例仅在测试阶段可用。我们表示所有对象类均由C = S∪U表示,因此C = S + U表示标签空间。
我们通过将相似的对象类分组来定义一组元(或超级)类归为一个元类别。这些元类用M = {zm:m∈[1,M]},其中M表示元类的总数,zm = {k∈C s.t.,g(k)= m}。 g(k)是映射每个类别k的映射函数到其对应的元类Zg(k)。注意,元类是相互独立的Z,即交集为空,并集为C。
所有训练图像的集合用Xs表示,其中包含以下示例所有看到的对象类。包含不可见样本的所有测试图像的集合对象类用Xu表示。每个测试图像x∈X u包含至少一个看不见的班级的实例。值得注意的是,Xs中没有看不见的类对象,但是
Xu您可能包含看到的物体。
我们为每个维度定义d维单词向量vc(word2vec或GloVe)类c∈C.i的真相标签边界框由表示
Yi。
对象检测任务还涉及识别以下对象的背景类:否定对象建议,我们引入扩展的标签集:S’ = S∪Ybg,C’ = C∪ Ybg和M’ = M ∪Ybg,其中Ybg = {C + 1}是单调集,表示背景标签。
任务定义:给定图像的观察空间X = X s∪X u和输出标签空间C’
,我们的目标是学习一个映射函数f:X →C’
给出最小的正规化经验风险(Rˆ)如下:
其中,x∈X s在训练过程中,Θ表示参数集,Ω(Θ)表示学习权重的正则化。映射功能具有形式如下:
其中F(·)是兼容性函数,B(x)是给定图像x中所有边界框建议的集合。直观地讲, 公式(2)找到最佳得分边界每个对象类别的框,并为其分配最大得分对象类别。接下来,我们定义零镜头学习任务,这些任务超出了图像中单个看不见的类别识别范围。值得注意的是,培训的框架是极具挑战性的ZSD问题,但是使用了其余任务描述在评估过程中以放松原始问题:
T1 零脉冲检测(ZSD):给定测试图像x∈X u,目标是对未知对象类u∈U的每个实例进行分类和定位。
T2 零镜头元类检测(ZSMD):给定测试图像x∈X u, 目标是定位一个看不见的对象类u∈U的每个实例并将其分类进入m∈M的超类之一。
T3 零镜头标记(ZST):在测试中识别一个或多个看不见的类图像x∈X u,但未确定其位置。
T4 零镜头元类标记(ZSMT):识别一个或多个元类在测试图像中x∈X u,但未确定其位置。
在上述任务中,ZSD是最困难的问题并且随着列表的增加,难度级别降低。后续任务的目标是通过研究两种方法来缓解ZSD的主要挑战
原始问题:(a)通过将相似的看不见的类聚类为一个超类(T2和T4)来减少看不见的对象类的效果。 (b)效果删除本地化约束的过程。为此,我们调查零射标记问题,目标是仅识别一个对象中的所有对象类别图像(T3和T4)。
零镜头学习的最新技术仅处理识别/标记。建议的问题设置添加了丢失的检测任务,该任务间接地封装了传统的识别和标记任务。
我们提出的模型使用Faster-RCNN 作为骨干架构,这是由于其在竞争性的端到端检测模型中表现出色。 我们首先概述我们提出的模型架构,然后讨论网络学习。 最后,我们将流行的ZSL方法扩展为检测问题,我们将其与实验中的性能进行比较。
总体架构如图2所示。它具有两个主要组件用颜色标记:第一个提供对象级别的功能描述,第二个提供将视觉信息与语义嵌入集成以执行零样本检测。接下来,我们将详细解释这些。
对象级特征编码:对于输入图像x,使用深层网络(VGG或ResNet)用于获得中间卷积激活。这些激活被视为功能图,这些功能图将转发到区域提议网(RPN)。 RPN生成一组候选对象建议通过自动在每个滑动窗口位置对锚定框进行排名。其中的高分候选人建议可以具有不同的大小,并映射到使用RoI池层固定大小的表示形式,该层在初始特征图和RPN生成的建议上运行。结果对象每个候选人的级别特征都标记为“ f”。请注意,RPN会生成基于客观性度量的目标提议。
因此,经过训练的RPN对象还可以为看不见的对象生成建议。在第二块在我们的架构中,这些特征表示与语义一起使用嵌入,以了解可见和不可见对象类别的有用表示形式。集成视觉和语义上下文:将对象级功能f转发到第二个模块中的两个分支。顶部分支受过训练预测每个候选框的对象类别。请注意,这可以分配一个类别c∈C0,可以是可见,不可见或背景类别。分支由两个主要的子网组成,这对于了解可见对象类和不可见对象类之间的语义关系至关重要。
第一个组件是“语义对齐网络”(SAN),由可调整的FC层组成,其参数表示为W1∈R d×d,
将输入的视觉特征向量投影到d维的语义空间。然后将生成的特征图投影到固定语义上嵌入,用W2∈R d×(C + 1)表示,它是在无监督的情况下获得的文本挖掘的方式(例如Word2vec和GloVe嵌入)。请注意,这里我们考虑需要看不见的类的可见和看不见的语义向量预先定义。这种考虑与最近的努力一致。采用此设置来探索语义嵌入空间的簇流形结构和地址域转移问题。给定特征表示输入到顶部分支中的SAN,f t,整个操作可以表示为:
在此,o是输出预测得分。 W2是通过堆叠语义形成的所有类(包括背景类)的向量。对于背景课,我们使用平均词向量
Vc作为其在W2中的嵌入。
值得注意的是,在SAN中的可调和固定语义嵌入之间未应用非线性激活函数。因此,这两个投影可以理解为对对象类的语义嵌入的单个可学习的投影。这有助于自动更新语义嵌入,使其与视觉特征域兼容。它是具有很高的价值,因为原始的语义嵌入通常由于紧密相关的语义概念的模糊性和无监督的用于计算的过程。在图3中,我们将修改后的嵌入可视化训练期间应用不同损失函数时的空间。底部分支用于边界框回归以添加适当的偏移量的建议,使它们与地面真相保持一致,以便精确可以预测对象的位置。该分支的建立方式相同如Faster-RCNN 。
我们遵循两步训练方法来学习模型参数。首先
部分涉及使用以下方法为仅可见的课程训练主干Faster-RCNN:
训练套装Xs。此培训涉及使用来初始化共享层的权重。预训练的Vgg / ResNet模型,然后学习RPN,分类和检测网络。第二步,我们修改Faster-RCNN模型将Faster-RCNN分类分支的最后一层替换为建议的语义对齐网络和更新的损失函数(请参见图2)。而第一步使用其余的网络权重,权重W1为随机初始化,并将W2固定为对象的语义向量类,并且在培训期间不会更新。
在第二步训练中,我们保持共享层可训练,但修复了RPN特定的层,因为对象提议要求未更改从上一步开始。相同的观看类图像X用于训练与第一步一致。对于每个给定的图像,我们获得RPN的输出它由属于正对象提案和负对象提案的“ R”投资回报率组成。每个提案都有一个相应的地面标签,由yi∈S0。正面建议属于任何可见的S类,负面建议仅包含背景。在我们的实现中,我们使用相等数量的正面和负面的建议。现在,当对象提案通过时ROI池化和随后的密集层,特征表示如图为每个ROI计算。此功能转发到两个分支,分类分支和回归分支。总损失是相应损失的总和
这两个分支中的损失,即分类损失和边界框回归
失利。
其中Θ表示网络参数oi是分类分支输出,
T = N×R表示训练集中的ROI总数N张图片。
bi和b∗i分别是预测边界框和地面边界框的参数化坐标,并且yi表示目标框的真实类标签i th的目标提案。
分类损失:此损失处理可见和不可见的类。它有两个组成部分:最大保证金损失(Lmm)和元类聚类损失
(LMC)。
其中,Ok表示类别k∈S的预测响应。Lmm试图分离其余班级对真实班级的预测反应。相比之下,LMC试图将每个超类的成员聚集在一起,并进一步拉开距离属于不同元类的类。
我们在图3中说明了聚类损失对学习的嵌入的影响。使用Lmc使我们能够将语义相似的类聚类在一起,从而改进了语义空间中的嵌入。例如,所有动物相关的元类位置很近,而食物和车辆相距很远。语义空间中的这种清晰分隔有助于获得更好的ZSD性能。而且,基于元类的聚类损失不会损害细粒度检测,因为使用炒作参数λ更加强调与最大损失(Lcls)的聚类部分(Lmc)相比,最大保证金损失(Lmm)。尽管如此,聚类损失仍然为嘈杂提供了足够的指导语义嵌入(例如,无监督的w2v / glove),以使类似的类聚集在一起,如图3所示。请注意,w2v / glove尝试放置关于数百万个语料库的相似词,因此不是仅针对200个班级识别设置进行了微调。
回归损失:这部分损失类似于更快的RCNN回归
损失,可以为每个看到的类别ROI调整边界框。对于每个fi,我们得到4×S值,表示4个边界框的参数化坐标每个对象实例。根据这些坐标计算回归损失和参数化的地面真实坐标。
在训练期间,由于无法使用背景知识和看不见的课程,因此无法进行边界框预测视觉例子。作为替代方法,我们近似边界框通过框提案,针对一个不相关的对象,针对一个紧密相关的可见对象获得最大的响应。这是一个合理的近似值,因为看不见的班级的视觉特征与相似的见过班级的视觉特征有关。
它基本上计算出修饰词向量和图像特征之间的余弦相似度。此规范化映射预测值在0到1范围内。如果最大值在ˆoc中响应,则将对象建议分类为背景,其中c∈C0属于ybg。除此以外,如果目标提案的最大预测响应是我们发现的目标,则我们会将其视为未见目标,其中u∈U高于阈值α。
另一个检测分支找到bi,它是的参数化坐标边界框对应于S个可见类。在它们之中,我们选择一个对应于具有最大预测响应的类的边界框Oˆs,其中s∈S是未分类的类别yu。对于标记任务,我们只需使用映射函数g(.)为任何看不见的标签分配一个元类。
而在第二节中应用聚类损失。 3.2,元类分配在语义空间中增加了高级监督。在执行此作业时,我们考虑不论是可见类还是不可见类。同样,最大保证金亏损考虑了C‘由可见和不可见的类组成。此问题设置有助于确定语义嵌入的聚类结构以寻址域适应零样本检测。但是,在几种实际情况下,训练期间可能看不到看不见的课程。在这里,我们报告一个简化的在没有预先定义的看不见的类的情况下训练提议的网络的方法的变体。对于此问题设置,我们仅使用see + bg字向量(而不是seen+unseen+bg)W2∈Rd×(S + 1)进行训练整个框架只有最大利润损失L’mm,定义如下:
由于输出分类层无法预测看不见的类别,因此我们应用了一个过程在测试阶段类似于ConSE。在这里选择有两个主要原因:
(a)与其他训练的ZSL方法相反每个类别都有单独的模型,ConSE可以根据预测得分单个端到端框架。
(b)直接扩展单个与ConSE一起将网络连接到ZSD,因为仅使用语义嵌入在测试阶段。
假设对于一个对象建议,o∈R S + 1是包含final的向量仅可见类别和背景的概率值。如前所述,如果背景类获得最高的概率得分,我们将忽略目标提议。
在其他情况下,我们按降序对向量o进行排序,以计算出索引l和排序列表oˆ:
然后,使用公式:
的前K个得分值(s.t.,K≤S)与其对应的词向量组合。我们认为ei为对象建议的语义空间投影,它是单词的组合由前K个类别概率加权的向量。做出最终预测通过找出ei和所有看不见的词向量之间的最大余弦相似度,
在本文中,我们使用[33]中提出的K = 10。对于边界框检测,我们选择相应观看类别获得最高分的盒子。
数据集:我们评估了针对标准ILSVRC-2017检测的方法数据集。该数据集包含200个对象类别。对于培训,它包括围绕对象实例的456,567张图像和478,807边界框注释。验证数据集包含20,121张图像,其中全部标有200个对象类别,其中包括55,502个对象实例。类别层次结构具有在[40]中定义,其中某些对象具有多个父对象。因为,我们也评估我们的元类检测和标记方法,我们定义一个每个类别的父级(有关详细信息,请参见补充材料)。
seen/unseen的分割:由于缺乏现有的ZSD协议,我们建议ILSVRC-2017检测数据集具有挑战性的可见/不可见分割。 200个之中对象类别,我们随机选择23个类别作为看不见的类别,其余177个类别类别视为可见。此拆分旨在遵循以下内容
实际考虑:(a)看不见的课程很少,(b)测试类别应为多样的(c)看不见的类在语义上应该与至少一些相似看到的类别。拆分的详细信息在补充材料中提供。
训练/测试集:零镜头设置不允许任何视觉示例
训练期间看不见的类。因此,我们定制ILSVRC的训练集这样就删除了包含任何看不见实例的图像。这导致总共315,731个训练图像和449,469个带注释的边界框。对于测试中,使用传统的零镜头识别设置,该设置仅考虑unseen的类。由于测试集注释对我们不可用,因此我们无法单独的看不见的类进行评估。因此,我们的测试集由ILSVRC训练数据集中的遗漏数据以及具有至少一个看不见的边界框。生成的测试集包含19,008张图像,19,931个边界框。
语义嵌入:传统上,ZSL方法会报告有监督的属性和无监督的word2vec / glove都作为语义嵌入。由于很难获得手动标记的受监管属性,因此仅具有这些注释的小规模数据集可用[9,20]。 ILSVRC-2017当前工作中使用的检测数据集非常庞大,无法提供属性注释。在本文中,我们研究l2归一化500和300
维无监督word2vec [30]和GloVe [35]向量分别
描述类别。这些词向量是通过在几个来自维基百科转储语料库的十亿个单词。
评估指标:我们报告未看到的个人的平均精度(AP)类和平均平均精度(mAP),用于看不见的整体性能类。
实施细节:与Faster-RCNN不同,我们的第一步是经过训练第一步:在使用预先训练的权重初始化共享层之后,RPN和一起学习Fast-RCNN层的检测网络。其他一些设置包括将较短尺寸的图像重新缩放为600像素,RPN步幅= 16,三个锚框比例128、256和512像素,三个纵横比1:1、1:2和2:1,使用IoU对提案类别概率进行非最大抑制(NMS)阈值= 0.7。每个小批量都是从具有16个图像的单个图像获得的正面和16个负面(背景)建议。亚当优化器与学习速率10的−5次方,两个状态训练都使用β1= 0.9和β2= 0.999。第一步是在没有任何数据扩充的情况下训练了超过一千万个迷你批次,但是数据在第二步骤中使用通过重复对象建议进行扩充(补充材料中的详细信息)。在测试期间,预测分数阈值基线是0.1,而我们的基线(L’mm)和0.2的聚类方法(我们的
使用Lcls)。我们在Keras中实现我们的模型。
我们比较了我们方法的不同版本(损失配置为L‘mm和分别为Lcls)到基线方法。请注意,基线很简单Faster-RCNN [38]和ConSE [33]的扩展。我们应用推理策略在第二节中提到。 3.3经过第一步训练后,我们仍然可以获得在Faster-RCNN网络分类层上向量o∈R 的S+1次方。我们使用两种不同的架构,即VGG-16(V)[42]和ResNet-50(R)[13]作为在训练的第一步中,使用Faster-RCNN。在第二步中,我们将Word2vec和GloVe作为用于定义W2。图4说明了一些定性的ZSD示例。更多性能结果补充材料中提供了ZSD在其他数据集上的数据。
总体结果:表1报告了针对四个任务的所有方法的mAP:跨网络架构的不同组合的ZSD,ZSMD,ZST和ZSMT。
我们可以进行以下观察:
(1)我们基于聚类的方法在所有四个任务上都胜过其他竞争对手,因为它的损失利用了元类定义中不存在的高级语义关系在其他方法中。
(2)绩效从基线提高到我们的(L’mm)。原因是基线方法未考虑训练期间的单词向量。因此,整体检测不够监督类的语义嵌入。相反,L’mm损失公式考虑单词向量。
(3)性能从ZST提升到ZSMT适用于所有方法,而ZSD并不普遍提供类似的改进到ZSMD。这并不奇怪,因为如果使用元类,ZSMD可以从中受益
预测类的元类与真实类的元类相同。如果违反了
通常,我们不能指望ZSMD会显着提高性能。
(4)与传统的物体检测结果相比,ZSD取得了显著成就较低的性能。值得注意的是,即使是最先进的零镜头分类的方法执行效果很差,例如,最近的ZSL方法[51]报告点击率是11%ILSVRC 2010/12的费率。这种趋势不会破坏ZSD的重要性,而是强调潜在的挑战。
个别类别检测:个别未见班级的表现表明ZSD面临的挑战。在表2中,我们显示了个人的表现使用我们最好的(R + w2v)网络在所有任务中看不见的课程。我们观察到,在其元类中存在视觉上相似的类的看不见的类比以下类具有更好的检测性能(ZSD mAP 18.6、22.7、27.4)对于所有方法(基准,我们的L方法)没有相似类(ZSD mAP 6.3、6.5、4.4)的那些L’mm和Lcls)。我们提出的损失聚类方法当存在视觉上相似的类时,Lcls明显优于其他版本。对于所有类,我们的聚类方法仍然是最好的(mAP:群集16.4与基准12.7)。但是,我们与L’mm如果不存在类似的类(mAP 6.5与4.4),L’mm方法会更好。对于更轻松的标记任务(ZST和ZSMT),群集方法在大多数情况下都具有出色的性能。这表明一个潜在的原因对于我们的ZSD群集方法的失败案例,可能会在
由于看不见的类在视觉外观上存在歧义,因此无法对对象进行定位。
作为一种检测模型,提出的网络还可以执行传统的ZSR。我们在流行的Caltech-UCSD Birds-200-2011(CUB)上评估ZSR性能数据集[44]。 该数据集包含200个类别的11,788张图像,并提供每个图像一个边界框。 按照标准的训练/测试拆分[47],我们使用进行了150次看到的课程和50次未看到的课程。 对于语义嵌入,我们使用400维word2vec(w2v)和GloVe(glo)向量[46]。 请注意,我们不使用图像部分注释(如[1])和描述(如[51])以丰富语义嵌入。 对于给定的测试图像,我们的网络会预测看不见的类边界盒子。 我们只选择每个图像的预测得分最高的标签。 在这样,我们在表3中报告了所有未见类的平均Top1准确性。可以发现我们提出的解决方案在以下方面实现了显着的性能改进与最新方法进行比较。
ZSD具有挑战性:我们的经验评估表明ZSD需要应对
面临以下挑战:
(1)看不见的类别比见过的类别少
(2)小小的看不见的物体很难被发现并且很难与之联系他们的语义;
(3)相似阶级的匮乏导致不足对看不见的班级的描述;
(4)以无人监督的方式得出,语义空间的噪声影响ZSD。这些问题将在补充材料中详细讨论。
未来的挑战:ZSD问题值得进一步调查。
(1)取消链接当前的作品,可以考虑对两者的边界框进行微调以及基于视觉和语义对应的看不见的类。 (2)宁可将图像特征映射到语义空间,反向映射可能会有所帮助ZSD与[19,51]中使用的ZSR类似。 (3)可以考虑融合不同的单词向量(word2vec和GloVe)来改善ZSD。
(4)广义ZSL [48,47,24],可以将其扩展为更现实的广义ZSD。而且,零散射问题的弱监督或半监督版本也是执行ZSD / GZSD时可能发生。
尽管传统的ZSL研究仅关注对象识别,但我们建议
将问题扩展到对象检测(ZSD)。为此,我们提供了一个新的ILSVRC-2017数据集的实验性协议,指定了看不见的,火车测试分裂。我们还开发了端到端可训练的CNN模型来解决这个问题。我们证明了我们的解决方案优于强基准。总的来说,这项研究给ZSL社区带来了一些新的挑战。为了在ZSL中取得长期进展,社区需要在检测设置上更进一步,而不仅仅是识别。
下面有时间再慢慢整理代码再细读