点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
作者:Zhongqi Miao and Ziwei Liu
编译:ronghuaiyang
导读
真实世界的视觉问题的数据往往是长尾分布的开放数据,长尾开放识别是更贴近实际的更全面的试金石。
一天,一位生态学家来找我们。他想利用现代计算机视觉技术在他的野生动物相机陷阱图像数据集中进行自动动物识别。我们非常自信,因为这听起来就像一个基本的图像分类问题。然而,我们失败了。他提供的数据集非常长,而且是开放式的。像往常一样,当我们没有足够的训练数据时,我们询问是否有可能为长尾类别提供更多的数据,并且忽略可能出现在测试数据集中的开放类。不幸的是,收集更多的数据并不是可行的。对这些生态学家来说,在野外拍摄稀有和隐蔽的动物可能需要非常长的时间。对于一些濒临灭绝的动物来说,他们甚至要等好几年才能得到一张照片。与此同时,新的动物物种不断进来,旧的动物物种不断离开。在这样一个动态系统中,总类别数从来都不是固定的。此外,珍稀新动物的鉴定比数量多的动物的保护价值更大。如果我们只能在数量多的类上做得好,那么该方法将永远不会具有实际可用性。我们尝试了所有我们能想到的方法(数据增强,采样技术,少样本学习,不平衡分类,等等),但现有的方法都不能同时处理丰富类、稀缺类和开放类(图1)。
图1:在现有的计算机视觉设置和现实世界场景之间存在相当大的差距从那时起,我们就一直在思考,造成现有计算机视觉方法和现实场景之间差距的最大原因是什么?类似的情况不仅仅发生在野生动物图像数据中,它们在真实世界的场景中一次又一次地发生(无论是在行业还是在学术界)。如果卷积神经网络能够很好地从海量的ImageNet数据集中对图像进行分类,为什么在开放的世界中图像分类仍然是一个未解决的问题呢?视觉识别领域提出的几乎每一个任务(如少样本学习和开放集识别)都有成功的方法,但似乎没有人试图把这些问题作为一个整体来看待。当涉及到真实的应用时,分类任务(无论是头类还是尾类)有时并不是单独出现的。因此,我们认为这种差距可能来自于视觉识别本身的问题设置。
在现有的视觉识别设置中,训练数据和测试数据都是在一个封闭世界中平衡设置的,例如ImageNet数据集。但是,这个设置并不能很好地代表现实场景。例如,生态学家永远不可能收集平衡的野生动物数据集,因为动物的分布是不平衡的。同样,人们也会为各种数据集(街道标志、时尚品牌、面孔、天气状况、街道状况等)的不平衡和开放式分布而烦恼。为了忠实地反映这些方面,我们正式研究了自然数据设置中出现的“开放长尾识别”(OLTR)。一个实用的系统应该能够在几个常见的和许多罕见的类别中进行分类,从几个已知的实例中概括出一个单一类别的概念,并在一个从未见过的类别的实例中认识新颖性。我们将OLTR定义为从长尾和开放分布数据中学习,并在包含头、尾和开放类的连续分布中通过平衡测试集评估分类精度(图2)。
图2:我们的开放长尾识别任务必须从开放世界中分布的长尾训练数据中学习,处理不平衡分类、少样本学习和全分布的开放集识别虽然OLTR在文献中没有被定义,但有三个紧密相关的任务经常被单独研究:不平衡分类、少样本学习和开放集识别。图3总结了它们的区别。新提出的开放长尾识别(OLTR)为评价视觉识别系统提供了一个更全面、更现实的试金石。
图3:不平衡分类、少样本学习、开放集识别和开放长尾识别(OLTR)的区别我们建议将一个图像映射到一个特征空间,这样视觉概念可以很容易地相互关联,基于一个学习的度量,尊重封闭世界的分类,同时承认开放世界的新颖性。我们提出的动态元嵌入结合了直接图像特征和相关记忆特征,特征范数表示对已知类的熟悉程度,如图4所示。
首先,我们将头类和尾类的知识进行聚类,获得视觉记忆。然后将存储在记忆中的视觉概念作为关联记忆特征注入记忆,增强原始的直接记忆特征。它可以理解为利用诱导知识(即记忆特征)辅助直接观察(即直接特征)。我们进一步学习一个概念选择器来控制数量和类型的记忆特征被注入。由于head类已经有了大量的直接观察,所以只为它们注入了少量的记忆特性。相反,tail类很少被观察到,相关的视觉概念在记忆特征中是非常有益的。最后,我们通过计算开放类的可达性来校准所获得的视觉记忆的置信度。
图4:对我们方法的直观解释。我们提出的动态元嵌入结合了直接图像特征和相关记忆特征,特征范数表示对已知类的熟悉程度如图5所示,我们的方法对所有多、中、少样本类以及开放类都进行了全面的处理,在各方面都取得了实质性的改进。
图5:我们的方法在普通模型上的绝对F1得分。我们的成绩在所有方面都有所提高,无论是多/中/少类别还是开放类别在这里,我们检查的视觉概念,记忆特征已注入可视化其顶部激活神经元,如图6所示。具体来说,对于每个输入图像,我们识别出其记忆特征中的前3个迁移神经元。而在整个训练集上,每个神经元都被一组激活程度最高的图像块所显示。例如,在对左上方属于“公鸡”的尾类图像进行分类时,我们的方法已经学会了分别迁移代表“鸟头”、“圆形”和“纹理点”的视觉概念。经过特征灌注后,动态元嵌入的信息量和鉴别性增强。
图6:来自记忆特征的前3个注入的可视化概念示例。除了右下角的失败案例(红色标记),其他三个输入图像都是plain模型分类错误,而我们的模型分类正确。例如,在对左上方属于尾部类“公鸡”的图像进行分类时,我们的方法已经学会了分别转换代表“鸟头”、“圆形”和“纹理点”的视觉概念。现在我们回到真实的世界,将我们提出的方法应用到第一部分提到的生态学家提供的野生动物数据上。幸运的是,我们的新框架在没有牺牲大量类的情况下对稀缺类进行了实质性的改进。更具体地说,对于少于40张图片的类,我们可以获得大约40%的性能提升(从25%到66%)。我们还获得了超过15%的开放类检测性能提升。
我们认为,在开放长尾识别设置下开发的计算方法最终能够满足自然分布数据集的需要。综上所述,开放长尾识别(Open Long-Tailed Recognition, OLTR)是评价视觉识别系统的一个更全面、更现实的试金石,它可以进一步扩展到检测、分割和强化学习等领域。
—END—
英文原文:https://bair.berkeley.edu/blog/2019/05/13/oltr/
请长按或扫描二维码关注本公众号
喜欢的话,请给我个在看吧!