Zero-Shot Object Detection 翻译

Zero-Shot Object Detection 翻译——更新中

  • Approach
    • 1.Baseline Zero-Shot Detection 基准零样本检测
    • 2.Background-Aware Zero-Shot Detection背景感知零样本检测
    • 3.Densely Sampled Embedding Space (DSES)密集采样词嵌入空间

目前的Zero-shot学习方法仅限于识别测试图像中一个主要的没有见到过的(未加入训练的)对象类别。我们认为这种设定不适合于现实世界中的应用,在这些应用中,未见过的对象仅作为复杂场景的一部分出现,这既需要保证“识别”这些没有进行训练的目标的类别,也需要保证对其“定位”。为了解决这一局限性,我们引入了一种新的“Zero-shot检测”,旨在同时识别和定位属于新类别的对象实例,而不需要任何训练样本。我们还提出了一种新的基于高度挑战性的ILSVRC数据集的zsd实验方法,并结合实际问题,例如看不见物体的稀有性。据我们所知,这是第一个实现ZSD的端到端深度网络,它共同模拟视觉和语义领域信息之间的相互作用。为了克服自动派生语义描述中的噪声,我们利用元类的概念设计了一个原始的损失函数,实现了最大边界类分离和语义空间聚类之间的协同。此外,我们还提出了一种从识别扩展到检测设置的baseline方法。我们的大量实验表明,在ZSD问题上,文中方法的性能显著高于基线。

Approach

我们现在描述我们解决Zero-shot检测任务的方法。我们首先概述了我们的baseline检测框架,该框架将前面的工作适配到当前的当前任务的零样本学习当中。由于这种方法在训练过程中不考虑背景物体的多样性,因此我们概述了一种用固定背景类训练背景感知检测器的方法。然后,我们强调了这种方法可能存在的一些局限性,并提出了一种基于潜在任务的背景感知模型。最后,我们描述了使用附加数据对标签进行密集采样的方法,这有助于改进泛化。

1.Baseline Zero-Shot Detection 基准零样本检测

我们将所有类的集合表示为C = S∪U∪O,其中s表示已见(训练)类的集合,u表示未见(测试)类的集合,o表示既不属于已见或未见类的集合。我们在对象检测的零镜头设置中工作,在训练过程中,我们将获得仅属于可见类的带标签的边界框,而在测试期间,我们将检测来自未知类的对象。我们将动画表示为i∈r m×n×3,将边界框设置为b i∈n 4,并将它们的相关标签设置为y i∈s。我们从一个给定的边界框中提取深度特征,这些边界框是从一个非边界区域建议方法得到的。我们将每个方框b i的提取深度特征表示为

2.Background-Aware Zero-Shot Detection背景感知零样本检测

虽然背景框通常会提高当前的目标检测方法的检测性能,但在ZSD中不会直接使用背景框,而是需要对使用的背景边界框进行确认。我们概述了两种扩展ZSD baseline模型的方法,即在训练期间合并来自背景框的信息。

3.Densely Sampled Embedding Space (DSES)密集采样词嵌入空间

你可能感兴趣的:(DeepLearning)