检测识别数据集汇总

检测数据集

数据集类型 数据集名称 数据集介绍 备注
通用目标检测  PASCAL VOC

该数据集主要使用2007和2012年的数据,12年后该比赛停办。

作为通用检测的主要测试数据集。

数据集共包括:物体和动作的分类、物体分割、物体检测(20类)。

最新结果展示网页
COCO

该数据集主要包括物体检测(80类),分割和人体关键点定位等,

由微软和facebook等科技巨头赞助,是当前检测算法性能评价的主要数据库。

最新结果展示网页
Imagenet 2014 Detection task

数据格式为jpg,标注格式同VOC,共200类;

训练集456567,验证集20121,测试集40152。其中训练集中每类图片数从461到67513波动

下载地址
人脸检测 FDDB

该数据集是最具权威的人脸检测评测平台之一,其中涵盖在自然环

境下的各种姿态的人脸。

测试集为自然场景下包含5171张人脸的2845张图片组成

最新结果展示网页
WIDER Face

该数据集对人脸检测场景划分为:简单,中等,难三个等级,是该

领域一个较新的数据集(2015),是新论文中常出现的评测平台。

最新结果展示网页
人脸活体检测 Oulu_NPU 使用6款手机共拍摄4950个真实和攻击的视频  
OCR text_im

使用SynthText_Chinese_version生成的自然场景下的倾斜文本位置标注

数据,包含中文、英文、数字,一共4765张。数据格式已经转为统一规范。

原作者github路径
MSRA-TD500

包含多方向、多语言文字的图像数据集,文本涉及的语种包括中文、英文

、两者的混合。数据集包括500幅自然场景图像,图像分辨率结语1296864

到19201280之间。

最新结果展示网页
ICDAR

ICDAR大赛组委会自2003年起公布了自然场景文本数据库,直到2015年该

数据库已包括文本定位数据库、文本分割数据库、单词识别数据库、端对端

识别数据库。图像都是是24位彩色图像,大小是1024*768像素。收集到

 
svt

所有图像源于Google Street View,图像分辨率较低,文字变化较大。图像

是24位彩色图像,像素大小是1260*860,文件格式为JPEG。包括350幅高

分辨率图像,其中100张图像用于训练,250张图像用于测试,每幅图像都

用一个文本向量表示其中包含的文字信息。

最新结果展示网页

识别数据集

数据集类型 数据集名称 数据集介绍 备注
通用识别 ILSVRC

即Image-net数据集,基于WordNet的认知语言学字典构建,2017年为比

赛的最后一年。之后转到kaggle平台。

数据集包括:物体分类(1000类),检测和视频中的物体检测。

2017年比赛结果网页
人脸识别 LFW

该数据集是最权威的人脸识别评测平台之一。该数据集由13000多张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成,共有5000多人。

数据经过Viola-Jones人脸检测器得到。

该数据库从中随机选择了6000对人脸组成了人脸图片对,其中3000对属于同一个人2张人脸照片,3000对属于不同的人每人1张人脸照片。

最新结果展示网页
VGGFace2 总共3百多万张图片,9131个人(训练8631,测试500)  
  CASIA WebFace Database 人脸识别数据,包含10575个人,494414张图片  
  MS-Celeb-1M 人脸识别数据,包含99892个人,8456240张图片  

其他

数据集类型 数据集名称 数据集介绍 备注
自动驾驶 bdd100k

标注对象共10类,图片数量10w。

详细介绍可查看该文章。

github地址
分割 Open Image Dataset V5

新版数据集包含 280 万个物体实例的分割掩码,覆盖 350 个类别。新增 640 万个经过人工验证的图像级标签,标签总数高达 3650 万。

详细介绍可查看该文章。

 

 

参考文献:

  1. bdd100k
  2. 伯克利发布BDD100K:目前最大规模开放驾驶视频数据集

  3. Imagenet 2014 Detection task
  4. 280万分割掩码,谷歌Open Images数据集再更新

你可能感兴趣的:(数据集,bdd100k,Open,Images,v5)