The Caltech-UCSD Birds-200-2011 Dataset

The Caltech-UCSD Birds-200-2011 Dataset
Catherine Wah1,Steve Branson1,Peter Welinder2,Pietro Perona2,Serge Belongie1
1 University of California, San Diego
  La Jolla CA
{sbranson,cwah,sjb}@ cs.ucsd.edu
2 California Institute of Technology
 Pasadena, CA
{welinder,perona}@ caltech.edu
摘要:
       CUB-200-2011是CUB-200的扩展版本,是200种鸟类的具有挑战性的数据集。 扩展版本使每个类别的图像数量大约增加了一倍,并添加了新的局部定位注释。 所有图像均带有边界框,局部位置和属性标签。 图像和注释由Mechanical Turk多个用户进行过滤筛选的。 我们介绍了用于多类分类和局部定位的基准和基准实验。
一、介绍
       鸟类物种分类是一个棘手的问题,它推动了人类和计算机视觉能力的极限。 尽管不同的鸟类具有相同的基本组成部分,但不同的鸟类在形状和外观上可能会发生很大的变化(例如:考虑鹈鹕与麻雀之间的差异)同时,即使是专业观鸟者,其他成对的鸟类几乎在视觉上也无法区分(例如,许多麻雀在视觉上都是相似的)。由于光照和背景的变化以及姿势的极端变化(例如,飞鸟,游泳鸟和被树枝部分遮挡的栖息鸟),类内差异很大。
       我们希望Birds-200通过为一个特定领域(鸟类)提供一套全面的基准和注释类型来促进从属分类的研究。 我们想建立一个迄今为止尚未为少数特定类别(如行人和人脸)保留的搜索深度级别。 从后勤和计算的角度来看,专注于鸟类将有助于使研究更易于处理。 同时,我们认为,许多经验教训(就注释程序,定位模型,特征表示和学习算法而言)将推广到其他领域,例如不同类型的动物,植物或物体。
二、 数据集规范和收集
       鸟类:该数据集包含200种鸟类的11,788张图像。 每个物种都与Wikipedia文章相关联,并按科学分类(顺序、科、属、物种)进行组织。 物种名称列表是使用在线领域指南( http://www.birdfifieldguide.com) 获得的。使用Flickr图像搜索来收集图像,然后通过将图像显示给Mechanical Turk的多个用户进行过滤。每个图像都带有边界框、属性标签和局部位置。 有关示例图像,请参见图1;有关详细数据集统计信息,请参见图6。
       边界框:边界框是使用图4中的界面获得的。
       属性:基于在线鸟类识别工具2选择了28个属性分组(见图2(b))和312个二进制属性(例如,属性组腹部颜色包含15种不同颜色选择)的词汇表( http://www.whatbird.com)。 所有属性本质上都是可视的,大部分与特定零件的颜色,图案或形状有关。 使用图5中的界面为每个图像获得属性注释。
       局部位置:使用图3(a)所示的GUI,每个图像中的像素位置和可见性注释了总共15个局部部位(参见图2(a))。 获得“ground truth”局部定位,作为每个图像的5个不同的Mechanical Turk用户的定位中值。
三、应用
       Birds-200具有许多我们认为值得关注的独特属性:
       次级类别识别( Subordinate category recognition ):由于类别在视觉上的较高相似度,诸如Caltech-101之类的数据集上广泛使用的方法(例如,基于直方图和BOW方法),在次级类别上分类通常不太成功。 研究次级类别分类会有助于促进高判别力特征或定位模型的开发。
       多类对象检测和基于局部的方法( Multi-class object detection and part-based meth ods ):基于局部的方法最近引起了新的研究兴趣和研究成功。不幸的是,具有全面的局部定位信息的数据集的可用性仍然相当有限。 此外,用于图像分类的数据集通常包含数百或数千个类别,比较流行的用于对象检测的数据集很少包含超过20个左右的类别(主要由于计算上的挑战)。采用共享局部模型的方法为将对象检测缩放到更多类别提供了广阔的前景。Birds-200包含200种不同鸟类的集合,这些鸟类使用相同的基本局部集进行注释,因此使其非常适用于共享局部模型中的研究。
       基于属性的方法( Attribute-based methods ):基于属性的识别是最近变得流行的另一种模型共享形式。 现有的大多数用于基于属性的识别的数据集都不包含定位信息, 这是研究基于属性的识别的一个困难,因为视觉属性通常自然地与特定的部位或对象相关联(例如,蓝腹或锥形喙)。
       众包和用户研究( Crowdsourcing and user studies ):诸如局部定位和属性之类的注释为新的研究机会打开了大门,但与对象类标签相比,它们还受到更大程度的注释错误和用户主观性的影响。 通过MTurk用户对每个训练图像发布注释,我们希望鼓励众包技术的研究,以结合多个用户的注释,并促进用户研究评估不同类型注释的可靠性和相对价值。
四、基准和基准实验
       我们介绍了一组基准和基准实验,用于研究鸟类的分类,检测和局部定位:
       1.已定位的物种分类( Localized Species Categorization ):给定“ground truth”局部定位,将每个图像分配给200种鸟类中的一个类。 此基准旨在促进对不同定位模型的研究(例如,定位信息在多大程度上提高了分类准确性?),还为现有分类算法提供了更大的可访问性。 使用RGB颜色直方图和带有线性SVM的矢量量化SIFT描述符的直方图,我们获得了17.3%的分类精度,参见图7(d)。
       2.局部定位( Part Localization ):给定完整的,未裁剪的鸟类图像,预测每个鸟类部位的位置和可见性。 我们测量了预测定位位置与ground truth之间的差距,并通过多个MTurk用户点击选择的局部位置上的标准偏差对每个局部进行了标准化。 每个局部的最大误差以5个标准偏差为界。 这也是与局部可见性分类错误有关的错误。 使用基于HOG的局部检测器和树状图形结构的混合,我们获得了2.47个标准偏差的平均误差(相比之下,平均MTurk用户应减去1个标准偏差)。 有关局部定位结果及其相关损耗的示例,请参见图8。
       3.物种分类/检测( Species Categorization/Detection ):仅使用完整的,未裁剪的鸟类图像,将每个图像分配给200个鸟类类别之一。 对于该基准,可以使用其他可选择的方法(例如,图像分类,对象检测,分割或基于局部的检测技术);但是,由于未裁剪图像,因此我们期望在未获得一定程度的定位的情况下无法高精度地解决该问题。 使用通用鸟类检测器(对于基准2)检测最可能的局部位置,然后应用定位物种分类(对于基准1),我们获得了10.3%的分类精度,见图7(b)。

The Caltech-UCSD Birds-200-2011 Dataset_第1张图片
  The Caltech-UCSD Birds-200-2011 Dataset_第2张图片

The Caltech-UCSD Birds-200-2011 Dataset_第3张图片

图2:部位采集和属性。(a)为每个图像收集15个部位位置标签。(b)为每个图像采集了28个属性分组,并为定位属性检测器关联了相关部位。
The Caltech-UCSD Birds-200-2011 Dataset_第4张图片
图3:用于收集部位位置标签的MTurk GUI,部署在11,788张图像上,用于15个不同的部位,每个图像5个工人。

The Caltech-UCSD Birds-200-2011 Dataset_第5张图片
图4:用于收集边框标签的MTurk GUI,部署在11,788张图像上。

The Caltech-UCSD Birds-200-2011 Dataset_第6张图片

图5:用于收集属性标签的MTurk GUI,部署在11,788张图像上,针对28种不同的问题以及312种二进制属性。

The Caltech-UCSD Birds-200-2011 Dataset_第7张图片

图6:数据集统计
(a)每个类的图像数量分布(大多数类有60张图像)
(b)每个图像的大小分布(以像素为单位,大多数图像大约为500X500)  
(c)鸟类边界框面积与整个图像面积之比的分布  (d)MTurkers为每个部位贴标签花费的平均时间

The Caltech-UCSD Birds-200-2011 Dataset_第8张图片

图7:200种鸟类分类的分类结果。 最上面的2张图像显示了当使用通用鸟类检测器检测所有部位的最有可能定位的位置,然后评估多类分类器的混淆矩阵。 下2个图像显示了在grond truth部位定位上评估多类分类器时的混淆矩阵。 左侧的2张图像显示每个类只有5张训练图像的结果,而右侧的图像显示每个类有52张训练图像的结果。

The Caltech-UCSD Birds-200-2011 Dataset_第9张图片

图8:部位检测结果示例,左侧为良好的检测结果,右侧为较差的检测结果。 损失1.0表示预测的部位位置大约与平均MTurk贴标签水平一样好。

你可能感兴趣的:(CV学习,算法,人工智能,计算机视觉)