使用语义保持对抗嵌入网络的零样本视觉识别
摘要:我们提出了一种新的框架,称为语义保持对抗嵌入网络(SP-AEN),用于零样本视觉识别(ZSL),其中测试图像及其类别在训练期间都是不可见的。 SP-AEN旨在解决流行的基于嵌入的ZSL系列中的固有问题 - 语义损失,其中一些语义在训练期间将被丢弃,如果它们对训练类没有判别性,但可能对于识别测试类变得至关重要。具体而言,SP-AEN通过引入独立的 视觉 - 语义空间嵌入器 来防止语义上的损失,该嵌入器将语义空间解开为两个子空间,用于两个可以说是有冲突的目标: 分类和重构 。 通过对两个子空间的对抗性学习 ,SP-AEN可以将语义从重建子空间转移到判别子空间,实现对未见类的零样本识别的改进。与之前的工作相比,SP-AEN不仅可以提升分类效果,还可以生成照片般逼真的图像,证明了语义保存的有效性。在四个流行的基准测试上:CUB,AWA,SUN和aPY,SP-AEN在调和平均值方面远远优于其他最先进的方法,绝对性能差异为12.2%,9.3%,4.0%和3.6%[62]。
- 语义损失是用什么衡量的?
- 独立的视觉-语义空间嵌入器是怎么防止语义损失的?
基于结构化知识图的多标签零样本学习
摘要:在本文中,我们提出了一种用于**多标签零样本学习**(ML-ZSL)的新型深度学习架构,它能够为每个输入实例预测多个未见类的标签。 受人类在感兴趣对象之间利用语义知识的方式的启发,我们提出了一个框架,其中包含用于描述多个标签之间关系的**知识图**。 我们的模型**从语义标签空间学习信息传播机制,可以应用于模拟已见和未见类标签之间的相互依赖性**。 通过对视觉推理的结构化知识图的这种研究,我们证明了我们的模型可以应用于解决多标签分类和ML-ZSL任务。 与现有技术方法相比,我们的方法可以实现相当或提升的性能。
使用深度内部学习的“零样本”超分辨率
摘要:在过去几年中深度学习导致了超级分辨率(SR)性能的巨大飞跃。然而,受监督,这些SR方法仅限于特定的训练数据,其中从其高分辨率(HR)对应物获取低分辨率(LR)图像是预定的(例如,双三次降采样),而没有任何分散注意力的伪像(例如, ,传感器噪声,图像压缩,非理想PSF等)。然而,真实LR图像很少遵守这些限制,导致SotA(现有技术)方法的SR结果较差。在本文中,我们介绍了“零样本”SR,它利用了深度学习的力量,但不依赖于先前的训练。我们利用单个图像内部信息的内部重现,并在测试时间训练一个小的图像特定CNN,仅对从输入图像本身提取的示例进行训练。因此,它可以适应每个图像的不同设置。这允许执行实际旧照片,噪声图像,生物数据以及获取过程未知或非理想的其他图像的SR。在这样的图像上,我们的方法优于基于SotA CNN的SR方法,以及先前的无监督SR方法。据我们所知,这是第一个无监督的基于CNN的SR方法。
零样本草图-图像哈希
最近的研究表明,通过跨模式二进制表示学习方法可以有效地处理大规模基于草图的图像检索(SBIR),其中汉明距离匹配显著加速了相似性搜索的过程。提供一组固定的预定义的类别的训练和测试数据,最先进的SBIR和跨模态哈希工作可获得可接受的检索性能。但是,当查询草图的类别在训练期间从未见到时,大多数现有方法都会失败。
在本文中,上述问题被简要介绍为一种新颖但实际的零样本SBIR散列任务。我们详细说明了这项特殊任务的挑战,并因此提出了零样本草图图像哈希(ZSIH)模型。**构建了端到端的三网络架构,其中两个被看作二进制编码器。第三个网络分别利用Kronecker融合层和图卷积,减轻了草图图像的异质性,增强了数据间的语义关系。**作为ZSIH的重要组成部分,我们制定了一种生成哈希方案,用于重建零样本检索的语义知识表示。据我们所知,ZSIH是第一个适用于SBIR和跨模态搜索的零样本哈希工作。在两个扩展的数据集上进行了综合实验,即Sketchy和TU-Berlin,其中使用新颖的零样本训练-测试数据拆分。所提出的模型明显优于相关工作。
基于合成实例的广义零样本学习
摘要:我们提出了广义零样本学习的生成框架,其中训练和测试类不一定是不相交的。基于变分自编码器架构,由概率编码器和概率条件解码器组成,我们的模型可以根据各自给定的类属性生成已见/未见类新的样本。这些样本随后可用于训练任何现成的分类模型。我们的**编码器 - 解码器架构的一个关键方面是反馈驱动机制**,其中**判别器(多变量回归器)学习将生成的样本映射到相应的类属性向量**,从而实现改进的生成器。我们的模型生成和利用来自未见类的示例来训练分类模型的能力自然有助于减轻在广义零样本学习设置中预测已见类的偏差。通过一系列全面的实验,我们证明了我们的模型在几个基准数据集上优于几种最先进的方法,无论是标准还是广义零样本学习。
基于特征生成网络的零样本学习
摘要:由于已见类和未见类之间的极端训练数据不平衡,大多数现有的最先进的方法未能在具有挑战性的广义零样本学习任务中获得满意的结果。 为了避免对未见类的标记示例的需要,我们提出了一种新的生成对抗网络(GAN),它综合了基于类级语义信息的CNN特征,提供了直接从类的语义描述符到类条件特征分布的捷径。我们提出的方法,将Wasserstein GAN与分类损失,能够生成足够有判别性的CNN特征来训练softmax分类器或任何多模式嵌入方法。 我们的实验结果表明,在零样本学习和广义零样本学习设置中,在五个具有挑战性的数据集(CUB,FLO,SUN,AWA和ImageNet)上对最先进的准确率有显著提高。
基于语义嵌入和知识图的零样本识别
摘要:我们考虑零样本识别的问题:为没有训练示例的类别学习一个视觉分类器,仅使用类别的词嵌入及与其他类别的关系,来提供视觉数据。处理不熟悉或新颖类别的关键是迁移从熟悉的类中获得的知识来描述不熟悉的类。在本文中,我们基于最近引入的图卷积网络(GCN),并提出了一种使用语义嵌入和分类关系来预测分类器的方法。给定学到的知识图(KG),我们的方法将每个节点作为输入语义嵌入(表示视觉类别)。在一系列图卷积之后,我们为每个类别预测视觉分类器。在训练期间,给出几个类别的视觉分类器以学习GCN参数。在测试时,这些过滤器用于预测未见类的视觉分类器。我们证明了我们的方法对KG的噪声很鲁棒。更重要的是,与目前最先进的结果相比,我们的方法在性能方面有显著改善(从一些指标的2%~3%到少数指标高达20%)。
网络监督学习遇到零样本学习:细粒度分类的混合方法
摘要:由于庞大的细粒度类别的高注释成本,细粒度图像分类(其旨在区分各个从属类别之间的细微区别)仍然是非常困难的任务。为了应对好的标记训练图像的稀缺性,现有的工作主要遵循两个研究方向:1)利用可以自有获取的无人工标注的网络图像; 2)仅标注一些细粒度类别并将知识迁移到其他细粒度类别,这属于零样本学习(ZSL)的范围。但是,上述两个方向都有其自身的缺点。第一个方向,Web图像的标签非常杂乱,并且Web图像和测试图像之间的数据分布是相当不同的。第二个方向,ZSL与传统监督学习之间的性能差距仍然很大。上述两个方向的缺点促使我们设计一个新的框架,该框架可以**联合利用网络数据和辅助标记类别来预测与任何标记良好的训练图像无关的测试类别**。三个基准数据集的综合实验证明了我们提出的框架的有效性。
- 测试类别和网络数据类别相交吗?
基于隐含特征判别性学习的零样本学习
摘要:零样本学习(ZSL)的目标是通过学习图像表示和语义表示之间的嵌入空间来识别未曾见过的图像类别。多年以来,在已有的研究成果中,中心任务都是学习合适映射矩阵以对齐视觉空间和语义空间,而学习用于ZSL 的**判别性表示的重要性却被忽视了。在本工作中,我们回顾了已有的方法,并证明了为 ZSL的视觉和语义实例学习判别性表示的必要性。我们提出了一种端到端的网络,能够做到:1)通过一个放大网络自动发现判别性区域;2)在一个为用户定义属性和隐含属性引入的扩增空间中学习判别性语义表示**。我们的方法在两个有挑战性的ZSL 数据集上进行了大量测试,实验结果表明我们的方法显著优于之前最佳的方法。
判别性表示,判别性视觉表示,判别性语义表示,隐含属性。
基于语义关系保持的零样本学习
摘要:零样本学习具有缩放识别模型而不需要额外的训练数据的潜力,因此受到关注。通常ZSL通过将类别与其属性等语义信息相关联来实现这种能力。但是,我们认为这种范式所提供的潜力尚未得到充分利用。在这项工作中,我们提出**使用一组关系来利用属性跨越的空间结构**。我们设计目标函数来保持嵌入空间中的这些关系,从而引入**嵌入空间的语义**。通过对五个基准数据集的大量实验评估,我们证明了诱导嵌入空间的语义有利于零样本学习。我们的方法优于最先进的方法,无论是在标准零样本点设置还是更贴近实际的广义零样本设置。我们还证明了我们的方法如何用于**对属性信息不可用的类别的图像进行近似语义推断**。
嵌入空间的语义?
属性不可用的类,近似语义推断?
核零样本学习
摘要:在本文中,我们解决了零样本学习的开放性问题。其原理基于学习一个映射,该映射将从图像提取的特征向量与描述感兴趣的对象和/或场景的属性向量相关联。反过来,这允许通过映射到描述新类的新定义的属性向量来匹配特征向量来对看不见的对象类和/或场景进行分类。由于这种学习任务的重要性,已经存在许多学习语义,概率,线性或分段线性映射的方法。相比之下,我们应用完善的核方法来学习特征空间和属性空间之间的非线性映射。我们提出了一个简单的学习目标,其灵感来自于线性判别分析,核-目标对齐和核极化方法[12,8,4],它们改善了不一致性。我们评估了算法在多项式以及移位不变高斯和Cauchy核上的性能。尽管我们的方法很简单,但我们在几个零样本数据集和基准测试(包括最近的AWA2数据集[45])上获得了最先进的结果。
Avatar网络:利用特征修饰的多尺度零样本风格迁移
摘要:零样本艺术风格迁移是一种重要的图像合成问题,旨在将任意风格迁移到为内容图像。然而,现有方法在泛化和效率之间的权衡阻碍了实时的高质量零样本风格迁移。在本文中,我们解决了这一难题,并提出了一种高效而且有效的Avatar-Net,可以实现任意风格的视觉上合理的多尺度迁移。我们方法的关键要素是风格装饰器,它通过来自任意风格图像的语义对齐风格特征来构成内容特征,这不仅在整体上匹配其特征分布,而且还在装饰特征中保留了细节风格模式。通过将此模块嵌入到融合多尺度风格抽象的图像重建网络中,Avatar-Net在一个前馈传递中为任何风格图像呈现多尺度风格。我们证明了所提出的方法在生成高质量风格化图像方面的最先进的效果和效率,其中一系列连续应用包括多种风格集成,视频风格化等。
噪声文本零样本学习的生成对抗方法
摘要:大多数现有的零样本学习方法都把该问题当作视觉语义嵌入。鉴于生成对抗网络(GAN)生成图像的能力,我们利用GAN从文本描述中推想未见类,从而识别出没有示例的新类。具体来说,我们提出了一个简单但有效的生成模型,该模型将关于未见类的噪声文本描述(例如维基百科文章)作为输入,并为该类生成合成的视觉特征。通过添加伪数据,零样本学习自然地转换为传统的分类问题。另外,为了保持生成特征的类间判别性,提出视觉轴正则化作为显式监督。与以前的方法使用复杂工程正则化项不同,我们的方法可以很好地抑制噪声而无需额外的正则化。根据经验,我们证明我们的方法在基于文本的零样本学习的最大可用基准上始终优于最先进的方法。
基于直推式无偏嵌入的零样本学习
摘要:大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法都存在强偏问题:训练阶段未见(目标)类的实例在测试时往往被归类为已见(源)类之一。因此,在广义 ZSL 设置中部署后,它们的性能很差。在本文,我们提出了一个直接而有效的方法,称为准完全监督学习(QFSL),来缓解偏置问题。我们的方法遵循直推式学习的方式,假定标记的源图像和未标记的目标图像都可用于训练。在语义嵌入空间中,被标记的源图像被映射到由源类别指定的若干个嵌入点,并且未标记的目标图像被强制映射到由目标类别指定的其他点。在 AwA2,CUB 和 SUN 数据集上进行的实验表明,我们的方法在遵循广义 ZSL 设置的情况下比现有最先进的技术高 9.3%至 24.5%,在遵循传统 ZSL 设置下有 0.2%至 16.2%的提升。
如何给未标记图像归类?
基于学习序列匹配网络的一次性动作定位
基于学习的时间动作定位方法需要大量的训练数据。然而,期望捕获每个动作类别的动态的这种大规模视频数据集不仅非常昂贵,而且也不实用就是因为存在无数个动作类别。当训练样本很少且罕见时(例如,当前公共可用数据集中不存在的目标动作类时),这对当前方法提出了一个关键的限制。为了应对这一挑战,我们概念化了一个新的基于示例的动作检测问题,其中只提供了几个示例,目标是在未修剪的视频序列中查找这些示例的出现。为实现这一目标,我们引入了一种新颖的一次性动作定位方法,可以减少对大量训练样本的需求。我们的解决方案采用匹配网络的一次性学习技术,并利用相关性来挖掘和定位以前看不见的类的动作。我们在THUMOS14和Activity Net数据集上评估我们的一次性动作定位方法,我们修改了配置以适应我们的一次性问题设置。
CLEAR:基于累积学习的一次性单类图像识别
摘要:这项工作解决了单样本单类别分类的新问题。目标是基于单个图像示例估计新类别的分类决策边界。我们的方法利用迁移学习来模拟从卷积神经网络提取的输入表示到分类决策边界的转换。 我们使用深度神经网络从大规模标记数据集及其从ImageNet生成的相关类决策边界中学习这种转换,然后应用学习的决策边界对后续查询图像进行分类。我们在几个基准数据集上测试了我们的方法,并且显着优于基线方法。
基于结构化匹配网络的一次性零件标注
摘要:图表通常描绘复杂的现象,并作为视觉和文本推理的良好测试平台。然而,使用自然图像理解方法理解图表需要大规模的图表训练数据集,这很难获得。相反,这可以作为匹配问题来解决,标记图表之间,图像之间或两者之间的匹配问题。这个问题非常具有挑战性,因为没有明显的颜色和纹理会使局部线索模糊不清并需要全局推理。我们考虑一次性部件标记的问题:给定某类别仅有单个源图像并在目标图像中标记对象的多个部分。对于这种集合到集合的匹配问题,我们引入了结构化集合匹配网络(SSMN),这是一种结合了卷积神经网络的结构化预测模型。使用全局归一化来训练SSMN以最大化相应元素之间的局部匹配分数和所有匹配元素之间的全局一致性分数,同时还强制两组之间的匹配约束。 SSMN在三个标签转移方案中明显优于几个强基线:图表到图表,在200多个类别的新图表数据集上评估;图像到图像,在Pascal部件数据集之上构建的数据集上进行评估;以及图像到图表,在跨这些数据集的迁移标签上进行评估。
基于内存匹配的一次性图像识别
摘要:在本文中,我们介绍了使用内存增强卷积神经网络(CNN)的新思路,并学习在一次性学习中即时学习未标记图像的网络参数。具体来说,我们提出了内存匹配网络(MM-Net) - 一种新颖的深层体系结构,它探索训练过程,遵循训练和测试条件必须匹配的理念。从技术上讲,MM-Net将一组标记图像(支持集)的特征写入内存,并在执行推理时从内存中读取,从而整体利用集合中的知识。同时,Contextual Learner语境学习器以顺序方式使用存储器槽来预测CNN的参数以用于未标记的图像。整个架构通过一次只显示每个类的几个示例进行训练,并将学习从小批量转换到小批量,这是为一次性学习定制的,其在测试时提供了一些新类别的示例。与传统的一次性学习方法不同,我们的MM-Net可以输出一个统一的模型,而不管样本和类别的数量。在两个公共数据集,即Omniglot和mini ImageNet,上进行了广泛的实验,并且与现有技术方法相比显式了优异的结果。更值得注意的是,我们的MM-Net在Omniglot上的单次精确度从98.95%提高到99.28%,在mini ImageNet上从49.21%提高到53.37%。
逐步利用未知:逐步学习基于一次性视频的行人再识别
摘要:我们专注于基于视频的行人再识别(re-ID)的一次性学习。用于re-ID任务的未标记的轨迹可以通过预处理轻松获得,(例如行人检测和跟踪)。在本文中,我们提出了一种通过逐步学习,逐步但稳定地提高卷积神经网络(CNN)特征表示的判别能力来利用未标记的轨迹的方法。我们首先为每个身份使用一个标记的轨迹初始化CNN模型。然后我们通过以下两个步骤迭代地更新CNN模型:1.从未标记的轨迹中抽取具有最可靠伪标签的几个候选者; 2.根据所选数据更新CNN模型。我们提出了一种逐步采样的方法来逐步增加所选择的伪标记候选者的数量,而不是现有工作中应用的静态采样策略。我们系统地研究了如何选择伪标记的轨迹作为训练集以充分利用它们的方式。值得注意的是,我们方法的rank-1准确度在MARS数据集上优于最新方法21.46点(绝对值,即62.67%对41.21%),在DukeMTMC-VideoReID数据集上高出16.53点。
学习比较:基于关系网络的少样本识别
摘要:我们提出了一个概念上简单,灵活且通用的框架,用于少样本学习,其分类器必须学习识别只给出几个例子的新类。我们的方法称为关系网络(RN),是从头开始端到端训练的。在元学习中,它学习学习深度距离度量以比较剧集中的少量图像,每个剧集旨在模拟少样本设置。一旦经过训练,RN就能够通过计算查询图像与每个新类的少数示例之间的关系得分来对新类别的图像进行分类,而无需进一步更新网络。除了改进少样本学习性能外,我们的框架还可以轻松扩展到零样本学习。对五个基准测试的广泛实验表明,我们的简单方法为这两个任务提供了统一有效的方法。
动态的少量视觉学习而不忘记
摘要:人类视觉系统具有显着的能力,能够毫不费力地从几个示例中学习新的概念。在机器学习视觉系统中模仿相同的行为是一个有趣而且非常具有挑战性的研究问题,在真实世界视觉应用中具有许多实际优势。在这种情况下,我们的工作的目标是设计一个少样本视觉学习系统,在测试时它将能够从少量训练数据中有效地学习新的类别,同时它还不会忘记它的初始训练类别(这里称为基本类)。为了实现这个目标,我们提出:(a)用基于注意力的少样本分类权重生成器来扩展对象识别系统;(b)重新设计ConvNet模型的分类器作为特征表示和分类权重向量之间的余弦相似函数。后者除了统一对新类别和基本类别的认识之外,还导致了能更好地概括“未见”类别的特征表示。我们在Mini-ImageNet上广泛地评估了我们的方法,我们成功提升了之前的少样本识别技术(即我们分别在1个样本和5个样本设置下分别达到56.20%和73.00%),而同时我们也不牺牲任何基本类的准确性,这是大多数先前方法缺乏的特征。最后,我们将我们的方法应用于最近推出的少样本基准[4],我们也达到了最先进的结果。
AI最前线
code and model
基于预测激活内参数的少样本图像识别
摘要:在本文中,我们对少样本学习问题感兴趣。特别地,我们关注的是一个具有挑战性的场景,其中类别数很大,而且每个新类的示例数量非常有限,例如1个,2个或者3个。受与相同类别相关的神经网络中的参数与激活之间密切关系的激发,我们提出了一种新方法,可以通过直接预测来自激活的参数使预训练神经网络适配新的类别。在适配新类别时不需要训练,并且通过单个前向传递实现快速推理。我们通过在ImageNet数据集上进行少样本图像识别来评估我们的方法,在新类别上实现了最好的分类准确度,同时保持了在大规模类别上的可比性能。我们还在MiniImageNet数据集上测试我们的方法,它强烈优于以前最先进的方法。
基于多内容GAN的少样本字体风格迁移
摘要:在这项工作中,我们专注于对高度风格化文本进行部分观察并概括观察以在装饰字体中生成未观察到的字形的挑战。 为了从非常少的示例中按照一致的样式生成一组多内容图像,我们提出了一种端到端堆栈条件GAN模型,该模型考虑了沿着网络层的信道和样式的内容。我们提出的网络**将给定字形的风格转换为看不见的字体的内容**,该网络捕获了真实世界中发现的高度风格化的字体,例如电影海报或图表上的字体。 我们寻求迁移印刷风格(例如衬线和耳朵)以及文本风格化(例如颜色渐变和效果)。我们将实验基于我们收集的数据集,包括10,000种不同风格的字体,并展示了从极少数观察到的字形中有效的概括。
风格转换成内容?
基于大规模扩散的少样本学习
摘要:本文考虑了训练阶段只有几个带注释的样本时从图像中推断出图像标签的问题。 这种设置通常被称为少样本学习,其标准方法是重新训练在训练样本丰富的其他类上学习的卷积神经网络的最后几层。我们考虑基于大量图像的半监督设置来支持标签传播。 这可以通过利用大规模相似性图构造的最新进展来实现。 我们证明了,尽管概念简单,高达数亿张图像的缩放标签传播导致了少样本学习状态下的最先进精度。
基于盖印权重的少样本学习
摘要:人类的视觉系统能够在看到一个或几个训练样本后立即识别新颖的视觉类别。我们描述了如何通过在少样本学习期间直接设置来自新颖训练样本的最后一层的权重来给ConvNet分类器增加类似功能。我们称这个过程为权重盖印,因为它根据训练示例的嵌入层激活的适当缩放副本直接设置新类别的权重。盖印过程为随机梯度下降的训练提供了有价值的补充,因为它提供了即时又良好的分类性能,并为将来的任何进一步微调提供了初始化。我们展示了该盖印过程如何与基于代理的嵌入相关。然而,它的不同之处在于,每个新类只学一个盖印权重向量,而不是依赖于通常和嵌入方法一起使用的训练实例的最近邻距离。我们的实验表明,使用盖印权重的均值比使用最近邻居实例嵌入提供的泛化更好。
基于假想数据的少样本学习
摘要:人类可以快速学习新的视觉概念,也许是因为他们可以轻松地可视化或**想象新物体从不同角度看像什么**。合并这种幻化新概念的新实例的能力可能有助于机器视觉系统更好地执行少样本学习,即从几个例子中学习概念。我们提出了一种基于这种想法的少样本学习新方法。我们的方法建立在元学习(“学习学习”)的最新进展的基础上,将元学习器和产生额外训练示例的“幻化器”相结合,并联合优化两个模型。我们的幻化器可以被整合到各种元学习器中并提供显著收益:当只有一个训练样本可用时,分类精度提高了6个点,产生了具有挑战性的ImageNet少样本分类基准上最先进的性能。
用于语义分割的全卷积自适应网络
摘要:深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。然而,收集专家标记的数据集尤其是像素级标注是一个非常昂贵的过程。一个吸引人的选择是渲染合成数据(例如,计算机游戏)并自动生成ground truth。然而,简单地应用在合成图像上学习的模型可能由于域漂移而导致真实图像上的高泛化误差。在本文中,我们从视觉外观级别和表示级域适应的角度来促进这个问题。前者使源域图像看起来好像是从目标域中的“风格”中抽取而后者尝试学习域不变表示。具体来说,我们提出了完全卷积自适应网络(FCAN),一种新颖的深层架构,结合了外观自适应网络(AAN)和表示自适应网络(RAN)的语义分割。AAN学习像素空间中从一个域到另一个域的变换,而RAN以对抗性学习方式利用学到的源域和目标域表示最大限度地欺骗域判别器。从GTA5(游戏视频)到城市景观(城市街景)的迁移的语义分割进行了广泛的实验,与最先进的无监督域自适应技术相比,我们提出的方法取得了优异的成果。更显著地是,我们获得了一项新的记录:在无监督的环境中,BDDS(drive-cam视频)的mIoU为47.5%。