PASCAL VOC2012 Chanllge 及其Dataset介绍

PASCAL:pattern analysis,statistical modelling and computational learning
VOC:visual object classes

该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中,这是一个监督学习的问题,训练集以带标签的图片的形式给出。这些物体包括20类:

  • Person: person
  • Animal: bird, cat, cow, dog, horse, sheep
  • Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
  • Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

该挑战主要包括三类任务:分类(classification)检测(detection)和分割(segmentation)


1. Classification/Detection Competitions

Classification:对20类中的每一类,预测test image中该类的presence/absence
Detection:预测test image中物体的bounding box以及该物体属于20类中的哪一类

对于这两类任务,允许参与者通过两种方式参与:

  • 使用除VOC测试集以外的任何数据集来构建、训练他们的分类/检测系统
  • 仅使用VOC提供的训练/校验集来构建、训练分类/检测系统

前者是为了衡量目前在这些任务上,我们的方法到底可以到达怎样一种程度的成功;后者则是为了建立一种在指定数据集上最为成功的方法。

2. Segmentation Competition

Segmentation:在test image上产生一个像素级别的分割,给出每一个像素属于哪一类,包括“背景”类。

3. Action Classification Competition

Action Classification:预测静态图像中人做出的动作。
该任务有两种形式,一种是:图像中做出动作的人被一个bounding box框出来;另一种是:图像中做出动作的人仅被一个点标示出来,该点落在这个人身体的某处。后者面向的是基于图像中只给定一个人的大概位置的方法。

4. ImageNet Large Scale Visual Recognition Competition

该任务的内容是预测图像中的内容,这对图像检索、自动标注等目标的实现有重要意义。训练集是ImageNet数据集(10,000,000张标注了的图像,包含10,000多类物体)的一个子集。测试集在给出的时候没有任何的标注、分割和标签。该任务的目的是提出一种方法,可以产生一些标签,对应着图像中出现了哪些物体。VOC2012中只要求识别图像中出现的主要物体,不要求指定物体出现的位置,即只识别不定位。

5. Person Layout Taster Competition

Person Layout:即人体轮廓布局。该任务的目标是预测人体部位(头,手,脚)的bounding box和对应的label》


数据集

训练集由一套图像组成:每个图像拥有一个对应的标注文件,给出了图像中出现的物体的bounding box和class label,该物体属于上述20类中的某一类。同一张图像中,可能出现属于多个类别的多个物体。

这些图像中的一部分图像还拥有像素级的标注,用于segmentation competition.

用于action classification的图片集与用于classification/detection/segmentation的图片集不相交。它们被部分地标注上了图像中人的bounding box,参考点和动作。

用于person layout taster的图像,被额外的标注上了人的身体部位(头、手、脚),其测试集与主任务(classification/detection)的测试集不相交。

数据集按1:1的比例被分为训练(验证)集和测试集。这两部分的图像中类别的分布也大致相等。

你可能感兴趣的:(目标检测)