计算机视觉 数据集(更新于2020.11.27)

::::::::::::::::::::::
VIOLIN: 视频与语言推理,一个新的大规模数据集,总计15887个视频片段包含95322个视频假设对,超过582个小时的视频,这些视频内容丰富,时间跨度大。主要来自流行的电视剧、电影剪切片段、油管。
COCAS: 这个是一个最有意思的数据集,都知道行人REID的场景中,换了衣服很多算法都会扑街,这个方向的研究其实一直在进行,该数据集就是一个大规模的换衣行人再识别的数据集。提供了针对每个人多张不同衣着的照片。总结5266人的62382张身体图像,每个人有5∼25幅图像和2∼3种不同衣着
HUMBI: 一个新的大规模多视角人体表达数据集,包含多个视角的自然衣着状态下的人体表达,这个数据集的主要目的是帮助更加有效的学习与重建人体,它是MPII-Gaze, Multi-PIE, Human3.6M, and Panoptic Studio datasets这些数据集的补充。
DeeperForensics: 一个大规模的人脸伪造检测数据集,是目前为止最大的人脸伪造检测基准数据集,有60000个视频,总共有1760万帧真实世界的人脸,是同期其它同类数据集的十倍。
FineGym: 基于细粒度动作理解的层次化视频数据集,主要为了动作识别领域的研究需要,由港中大开发的大规模、高质量的动作细粒度识别数据集。数据集在动作和子动作两个层次上实现标注,具有三个层次的语义,具有多个不同层次的语义。
OASIS:全称是开放的单图表面标注,是大规模的单图三维表面数据集。该数据集采用了14万张的互联网图像,人工标注实现了三维表面像素级重建。该数据集可以在深度估算、三维表面重建、边缘检测、实例分割等方向上帮助研究者。
FaceScape: 一个大规模高质量的3D人脸数据集,包括18760张高质量3D人脸模型,对938名志愿者实现20种表情采集,该数据训练可以实现对单张图像预测3D人脸的细节。适应于非商业开源项目
ScanNetV2:斯坦福大学开源室内场景的带注释的3D重构,一共有21个目标类,一共1513个采集场景数据,可做语义分割和目标检测任务。
Objectron 3D物体数据集: 谷歌AI开源“会动的”3D物体数据集,附带标记边界框、相机位姿、稀疏点云。包含15000份短视频样本,以及从五个大洲、十个国家里收集来的400多万张带注释的图像。包括自行车,书籍,瓶子,照相机,麦片盒子,椅子,杯子,笔记本电脑和鞋子。
MediaPipe Objectron: 是一种移动实时 3D 对象检测解决方案,用于日常对象。它检测 2D 图像中的对象,并通过机器学习 (ML) 模型估计其姿势,该模型在新创建的 3D 数据集上进行训练。
动作识别数据集:以前可用的基准(ActivityNet, UCF101, HMDB)
VLOG动作识别数据集:加利福尼亚大学的研究人员建议从我们实际需要的数据集开始,即交互丰富的视频数据,然后在动作发生后对其进行说明和分析。他们开始从生活方式VLOGs收集数据,VLOGs是一种非常受欢迎的视频类型,人们公开上传到YouTube,记录他们的生活。
SLAC动作识别数据集:麻省理工学院和Facebook的研究人员小组介绍了一个稀疏标记的ACTIONs数据集(SLAC)。该数据集侧重于人类行为,包括从 YouTube 检索到的 520K 多个未修剪视频,平均长度为 2.6 分钟。采用新颖的主动采样方法从视频中以2 秒为单位机芯剪辑和采样。这产生了 1.75M视频片段,包括 755K 阳性样本和 993K 阴性样本,由 70 个专业标注团队进行批过。包括从 ActivityNet 数据集获取的 200 个动作类。
Moments in Time动作识别数据集:由 MIT-IBM 沃森人工智能实验室开发的大规模的数据集,它收集了100万个标记为3秒的视频,不仅限于人类行为,还包括人、动物、物体和自然现象,捕捉动态场景的要点。
Kinetics-600动作识别数据集:Google DeepMind 团队的数据集。为推进人类动作识别模型而创建的 YouTube URL 的大规模高质量数据集。包括大约 500000 个视频片段,涵盖 600 个人类动作类,每个动作类至少有 600 个视频片段。
Open Images V6:谷歌开放900万注释图像数据集升级。首增语音、文本、鼠标轨迹同步注释。增加1400种视觉关系注释类型,新增2350万个经过人工验证的图像级标签,包含250万个人类动作注释,还更新了新特性局部叙事(localized narratives)。600种类别的可框住对象子集。包含1,743,042张训练图像,41,620张图像的验证集和125,436张图像的测试集。19,958种类别的图像级标签子集。训练集包含7,337,077张人工验证的注释图像和8,949,445张机器注释图像。完整集合包含9,178,275张图像。
DeeperForensics-1.0:商汤研发部门SenseTime Research的研究人员与新加坡南洋理工大学合作,设计了一个新的大规模基准DeeperForensics-1.0来检测人脸伪造,该基准是同类产品中最大的,质量和多样性都很高,比其他数据集更加接近现实世界场景。拥有60000多个视频,其中包含大约1760万帧
Youtube-8M:用于视频理解研究的大型多样化标记视频数据集。
Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。
UMD Faces:有 8501 个主题的 367,920 个面孔的带注释数据集。
CASIA WebFace:超过 10,575 个人经面部检测的 453,453 张图像的面部数据集。需要一些质量过滤。
MS-Celeb-1M:100 万张全世界的名人图片。需要一些过滤才能在深层网络上获得最佳结果。
Olivetti:一些人类的不同图像。
Multi-Pie:The CMU Multi-PIE Face 数据库。
Face-in-Action:
JACFEE:日本和白种人面部情绪表达的图像。
FERET:面部识别技术数据库。
mmifacedb:MMI 面部表情数据库。
IndianFaceDatabase:
耶鲁人脸数据库:
耶鲁人脸数据库 B:
COIL 20:不同物体在 360 度旋转中以每个角度成像。
LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
Labelme:带注释图像的大型数据集。
Pascal VOC:通用图像分割/分类——对于构建真实世界图像注释不是非常有用,但对基线很有用。
NORB:玩具摆件在各种照明和姿势下的双目图像。
The Street View House Numbers (SVHN):Google 街景中的门牌号码。可以把它想象成复现的户外 MNIST。
STL-10 数据集:用于开发无监督特征学习、深度学习、自学习算法的图像识别数据集。像修改过的 CIFAR-10。
Caltech 256:256 类物体的图片。
Caltech 101:101 类物体的图片。
CIFAR10 / CIFAR100:32x32 彩色图像,10/100 类。虽然仍有趣却不再常用的可用性检查。
Objects365通用物体检测数据集: Objects365 由旷视发布,是一个全新的数据集,旨在促进物体检测研究。训练集大小为 638K,包括 63 万张图像,标注了 365 个对象类,其中包括超过 1000 万个边界框,每张图像平均标注框为 15.8 个,涵盖了基本上所有常见的对象。
Mut1ny 头部/面部分割数据集:像素超过 16K 的面部/头部分割图像
Core50:用于连续目标识别的新数据集和基准。
生物识别数据集:
BISON视觉定位数据集:Facebook 提出一种替代性视觉定位系统评估任务 Binary Image SelectiON (BISON) :给出图像描述,让系统从一对语义相似的图像中选择与图像描述最匹配的图。系统在 BISON 任务上的准确率不仅可解释,还能够衡量系统关联图像描述中精细文本内容与图像中视觉内容的能力。
FFHQ数据集:Flicker人像照片的高清数据集 (FFHQ),包含70,000张高清人脸。
StyleGAN:英伟达推出
Tencent ML-Images:腾讯 AI Lab 公布的图像数据集,包含了 1800 万图像和 1.1 万多种常见物体类别,在业内已公开的多标签图像数据集中规模最大,足以满足一般科研机构及中小企业的使用场景。
Open Images V4数据集:谷歌开源的一个大型数据集,包含大约 920 万,其训练集包含 1460 万个边界框,用于标识从属于 600 个目标类别的 174 万张图像中的目标,这使它成为了现有的含有目标位置标注的最大数据集。数据集被分成了训练集(9,011,219 张图像)、验证集(41,620 张图像)和测试集(125,436 张图像)三部分。
COIN行为数据集:美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作推出,用于更全面的教程类行为视频分析。在标注结构上采用分层的组织结构,第一层是领域(Domain)、第二层是任务(Task)、第三层是步骤(Step),其中包含与日常生活相关的 11827 个视频,涉及交通工具、电器维修和家具装修等 12 个领域的 180 个任务,共 778 个步骤。
DeepFashion2数据集:87.3万对买家秀-卖家秀图像+海量标注
Visual Data:包含一些可以用来构建计算机视觉(CV)模型的大型数据集。用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。
斯坦福3D街景数据集:包含带有相机姿态的街景数据、8个城市的3D模型和拓展的元数据。这个数据集数据量庞大,街景数据集就包含2500万张图像和1.18亿个匹配的图像对。数据集可用于学习6DOF相机姿态估计/视觉运动、图像匹配及各种三维估计。
中科院目标追踪数据集:一个目标追踪数据集,叫做Got-10k。包含了超过10,000条视频,主角都是在现实世界里移动的物体,分成560多个类别。物体的边界框全部是手动标记,总计超过150万个。
20万NSFW图片数据集:一个内含20多万张“不可描述”图片的数据集。可以用来训练图像分类器,使用CNN做出来的分类器,一共有227995张图片。其中,hentai类别中有45228张;sexy类别19554张;neutral有20960张、drawings有25732张;porn类别最多,有116521张。
YouTube已标注视频数据集:YouTube-BoundingBoxes,一个由5百万个包围23类对象的边框组成的数据集,基于21万个YouTube视频进行密集标注。到目前为止,这是包含边框的最大的手动注释视频数据集,其在时间上连续的帧中跟踪对象。数据集被设计得足够大以训练大规模模型,并且代表在自然环境中捕获的视频。重要的是,人类标记的注释包含这样的对象:当它们在现实世界中出现时,可能会有部分遮挡、运动模糊和接受自然光照。
谷歌地标识别数据集:目前世界上最大的人造和自然地标识别数据集Google-Landmarks。数据集中包含200万张图片,描述了3万处全球独特地标,量级是普通的数据集的30倍。谷歌路标识别挑战赛(内含数据集下载):谷歌路标检索挑战赛(内含数据集下载):
ML-Images:腾讯多标签图像数据集,包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中,规模最大,一般科研机构及中小企业的使用场景,应该够了。
Labelme:数据集中包含大量有标注的图像数据。
ImageNet: 是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释。根据 WordNet 层次结构来组织,其中层次结构的每个节点都由成百上千个图像来描述。
LSUN:场景理解与许多辅助任务(房间布局估计,显着性预测等)
MS COCO:通用图像的理解和文字描述。
COIL 100:在 360 度旋转中以各个角度成像的 100 个不同的物体。
视觉基因组:非常详细的视觉知识库,配以0 万张带有文字描述的图像。
谷歌的Open Images:“知识共享”(Creative Commons)下的900万个图像网址集合,已标注超过6,000个类别的标签。
Labelled Faces in the Wild:13,000个人脸标记图像,用于开发涉及面部识别的应用程序。
Stanford Dogs Dataset:包含20580张图片和120个不同的狗品种类别。
室内场景识别(Indoor Scene Recognition):这是一个非常细化的数据集,由于大多数在“户外”场景中表现良好的场景识别模型在室内表现不佳,因而这个数据集非常有用。内有 67 个室内类别,共 15,620 张图像
野外标记面:13000张人脸标记图像,用于开发涉及面部识别的应用程序。

你可能感兴趣的:(数据集,计算机视觉,人工智能,数据集,计算机视觉)