小耗子Deng

Image数据集

原文链接：
（English）http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm#action

一、行动数据库

20bn-Something-Something - 密集标记的视频剪辑，显示人类使用日常物品执行预定义的基本动作（Twenty Billion Neurons GmbH）
3D在线行动数据集 - 有七个行动类别（微软和南洋理工大学）
50沙拉 - 完整注释的4.5小时RGB-D视频+加速度计数据数据集，捕获25人准备两个混合沙拉（邓迪大学，塞巴斯蒂安斯坦）
办公活动的第一人称视觉数据集（FPVO） - FPVO包含使用12名参与者收集的办公活动的第一人称视频片段。（G. Abebe，A。Catala，A。Cavallaro）
ActivityNet - 人类活动理解的大型视频基准（200个课程，每班100个视频，648个视频小时）（Heilbron，Escorcia，Ghanem和Niebles）
视频中的动作检测 - MERL购物数据集由106个视频组成，每个视频的序列长约2分钟（Michael Jones，Tim Marks）
演员和动作数据集 - 3782个视频，七个类别的演员表演八种不同的动作（Xu，Hsieh，Xiong，Corso）
用于行动识别的各种标记视频数据集的分析整理（Kevin Murphy）
ASLAN动作相似性标记挑战数据库（Orit Kliper-Gross）
用于理解非结构化社交活动的属性学习 - 包含10种非结构化社交事件类别的视频数据库，以及69个属性的注释。（Y. Fu Fudan / QMUL，T。Hospedales Edinburgh / QMUL）
视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）
AVA：原子视觉动作的视频数据集 - 430个15分钟电影剪辑中的80个原子视觉动作。（谷歌机器感知研究小组）
BBDB - 棒球数据库（BBDB）是一个大型棒球视频数据集，包含4200小时的完整棒球比赛视频，有400,000个临时注释的活动片段。（Shim，Minho，Young Hwi，Kyungmin，Kim，Seon Joo）
使用标记来交互人物视频数据（Scott Blunsden，Bob Fisher，Aroosha Laghaee）
BU动作数据集 - 三个图像动作数据集（BU101，BU101未过滤，BU203未过滤），与视频数据集UCF101和ActivityNet的类别1：1对应。（S. Ma，SA Bargal，J。Zhang，L。Sigal，S。Sclaroff。）
伯克利MHAD：综合多模人类行动数据库（Ferda Ofli）
伯克利多模人类行动数据库 - 扩展应用领域的五种不同模式（加州大学伯克利分校和约翰霍普金斯大学）
早餐数据集 - 这是一个包含1712个视频剪辑的数据集，显示10个厨房活动，这些活动被手工分割成48个原子动作类。（H. Kuehne，AB Arslan和T. Serre）
Bristol Egocentric Object Interactions数据集 - 包含从第一人称（以自我为中心）观点拍摄的视频，其中3-5个用户在六个不同的位置执行任务（Dima Damen，Teesid Leelaswassuk和Walterio Mayol-Cuevas，布里斯托尔大学）
布朗早餐行动数据集 - 70个小时，10个不同的早餐准备活动400万帧（Kuehne，Arslan和Serre）
CAD-120数据集 - 侧重于高级活动和对象交互（康奈尔大学）
CAD-60数据集 - CAD-60和CAD-120数据集包含人类活动的RGB-D视频序列（康奈尔大学）
CVBASE06：带注释的体育视频（Janez Pers）
Charades数据集 - 来自267名志愿者的10,000个视频，每个视频都注释了多个活动，字幕，对象和时间本地化。（Sigurdsson，Varol，Wang，Laptev，Farhadi，Gupta）
可组合活动数据集 - 26个原子动作的不同组合形成16个活动类别，由14个科目和注释提供（智利大学和智利大学）
人类跌倒的连续多模态多视图数据集 - 数据集包括正常日常活动和模拟跌倒，用于评估人体跌倒检测。（Thanh-Hai Tran）
康奈尔活动数据集CAD 60，CAD 120（康奈尔机器人学习实验室）
DMLSmartActions数据集 - 十六名受试者以自然的方式进行了12种不同的行动。（不列颠哥伦比亚大学）
DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
包含深度的人类行动视频数据集 - 它包含23种不同的行动（中央研究院的CITI）
DogCentric活动数据集 - 从安装在狗上的相机拍摄的第一人称视频*（Michael Ryoo）
爱丁堡ceilidh头顶视频数据 - 从头顶观看16个地面舞蹈，10个舞者遵循结构化的舞蹈模式（2种不同的舞蹈）。该数据集对于高度结构化的行为理解非常有用（Aizeboje，Fisher）
EPIC-KITCHENS - 由32名参与者在其原生厨房环境中记录的以自我为中心的视频，非脚本日常活动，11.5M帧，39.6K帧级动作片段和454.2K物体边界框（Damen，Doughty，Fidler等）
EPFL绉纱烹饪视频 - 分析1920x1080分辨率的6种结构化烹饪活动（12）视频（Lee，Ognibene，Chang，Kim和Demiris）
ETS曲棍球比赛事件数据集 - 此数据集包含使用固定摄像头拍摄的两个曲棍球比赛的镜头。（M.-A. Carbonneau，AJ Raymond，E。Granger和G. Gagnon）
FCVID：复旦 - 哥伦比亚视频数据集 - 根据239个类别手动注释的91,223个网络视频（江，吴，王，薛，张）
SoccerNet - 用于在足球视频中进行动作发现的可扩展数据集：500个足球游戏，完全注释主要动作（目标，牌，潜艇）和超过13K的足球比赛注释500K评论用于事件字幕和游戏摘要。（Silvio Giancola，Mohieddine Amine，Tarek Dghaily，Bernard Ghanem）
G3D - 使用Microsoft Kinect（Victoria Bloom）捕获的20个游戏动作的同步视频，深度和骨架数据
G3Di - 此数据集包含12个科目，分为6对（金斯顿大学）
游戏3D数据集 - 游戏场景中的实时动作识别（金斯顿大学）
佐治亚理工学院自我中心活动 - 凝视（+） - 人们观看的视频和他们的凝视位置（Fathi，Li，Rehg）
HMDB：大型人体运动数据库（Serre Lab）
好莱坞三维数据集 - 涵盖14个动作类（哈德菲尔德和鲍登）的650个3D视频剪辑
人类行动和场景数据集（Marcin Marszalek，Ivan Laptev，Cordelia Schmid）
人体搜索搜索人类注释器的序列，其任务是在AVA和THUMOS14数据集中发现动作。（Alwassel，H.，Caba Heilbron，F.，Ghanem，B。）
Hollywood Extended - 937个视频剪辑，总共787720帧，包含来自69部好莱坞电影的16种不同动作的序列。（Bojanowski，Lajugie，Bach，Laptev，Ponce，Schmid和Sivic）
HumanEva：用于评估关节人体运动的同步视频和运动捕捉数据集（布朗大学）
I-LIDS视频事件图像数据集（用于智能检测系统的图像库）（Paul Hosner）
I3DPost多视图人类行动数据集（Hansung Kim）
IAS-lab Action数据集 - 包含足够多的操作和执行操作的人数（帕多瓦大学的IAS实验室）
ICS-FORTH MHAD101行动共同分割 - 共享一个或多个共同动作以共同分割的 101对长期动作序列，包含三维骨架和视频相关的基于帧的特征（克里特岛大学和FORTH-ICS， K. Papoutsakis）
IIIT极限运动 - 来自YouTube的160个第一人称（自我中心）体育视频，帧级注释为18个动作类。（Suriya Singh，Chetan Arora和CV Jawahar。轨迹对齐）
INRIA Xmas运动采集序列（IXMAS）（INRIA）
InfAR数据集 - 不同时间神经计算的红外动作识别（陈强强，杜银河，刘江，吕静，杨鲁宇，孟德玉，Alexander G. Hauptmann）
JHMDB：基于来自HMDB51的928个剪辑的HMDB数据集（J-HMDB）的关节，包括21个动作类别（Jhuang，Gall，Zuffi，Schmid和Black）
JPL第一人称互动数据集 - 从第一人称角度拍摄的7种人类活动视频（Michael S. Ryoo，JPL）
耶拿行动识别数据集 - 爱宝犬行动（Korner和Denzler）
K3Da - Kinect 3D主动数据集 - K3Da（Kinect 3D主动）是一个真实的临床相关人类动作数据集，包含骨架，深度数据和相关参与者信息（D. Leightley，MH Yap，J。Coulson，Y。Barnouin和JS McPhee）
动力学人类行动视频数据集 - 300,000个视频剪辑，400个人类动作classe，10秒剪辑，每个剪辑单个动作（Kay，Carreira，et al）
KIT Robo-Kitchen活动数据集 - 由17人组成的540张剪辑，进行12项复杂的厨房活动。（L.R.R.Robok，S。Friedberger，UD Hanebeck，R。Stiefelhagen）
KTH人类行动识别数据库（KTH CVAP实验室）
卡尔斯鲁厄运动，意图和活动数据集（MINTA） - 7种类型的日常生活活动，包括完全运动的原始部分。（D。Gehrig，P。Krauthausen，L。Rybok，H。Kuehne，UD Hanebeck，T。Schultz， R. Stiefelhagen）
LIRIS人类活动数据集 - 包含（灰色/ rgb /深度）视频，显示人们进行各种活动（Christian Wolf等，法国国家科学研究中心）
MEXaction2动作检测和本地化数据集 - 支持开发和评估在相对较大的视频数据库中“发现”短行动实例的方法：77小时，117个视频（Michel Crucianu和Jenny Benois-Pineau）
MLB-YouTube - 棒球视频中的活动识别数据集（AJ Piergiovanni，Michael Ryoo）
时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）
MPII烹饪活动数据集用于细粒度烹饪活动识别，其中还包括连续姿势估计挑战（Rohrbach，Amin，Andriluka和Schiele）
MPII Cooking 2数据集 - 细粒度烹饪活动的大型数据集，是MPII烹饪活动数据集的延伸。（Rohrbach，Rohrbach，Regneri，Amin，Andriluka，Pinkal，Schiele）
MSR-Action3D - 基准RGB-D动作数据集（Microsoft Research Redmond和University of Wollongong）
MSRActionPair数据集 - ：深度序列中活动识别的定向4D法线直方图（中佛罗里达大学和微软）
MSRC-12 Kinect手势数据集 - 来自执行12个手势的人的594个序列和719,359个帧（Microsoft Research Cambridge）
MSRC-12数据集 - 人体运动的序列，表示为身体部位，以及相关的姿势（Microsoft Research Cambridge and Cambridge of Cambridge）
MSRDailyActivity3D数据集 - 有16项活动（微软和西北大学）
ManiAc RGB-D动作数据集：不同的操纵动作，15种不同的版本，30种不同的操纵对象，20种长而复杂的链式操作序列（Eren Aksoy）
Mivia数据集 - 它由14个主题执行的7个高级动作组成。（Salemo大学的Mivia Lab）
MuHAVi - Multicamera人类行动视频数据（Hossein Ragheb）
多模态动作检测（MAD）数据集 - 它包含由20个主题执行的35个连续动作。（卡内基·梅隆大学）
多视图3D事件数据集 - 此数据集包括8个主题（加州大学洛杉矶分校）执行的8类事件
名古屋大学超低分辨率FIR图像动作数据集 - 由16x16低分辨率FIR传感器捕获的动作识别数据集。（名古屋大学）
NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）
西北 - 加州大学洛杉矶分校Multiview Action 3D - 有10个行动类别:(西北大学和加州大学洛杉矶分校）
Office活动数据集 - 它由Kinect 2.0从执行常见办公活动的不同主体获取的骨架数据组成。（A. Franco，A。Magnani，D。Maiop）
牛津电视人体互动（牛津视觉几何组）
议会 - 议会数据集是228个视频序列的集合，描绘了希腊议会的政治演讲。（Michalis Vrigkas，Christophoros Nikou，Ioannins A. kakadiaris）
程序性人类行动视频 - 该数据集包含大约40,000个用于人类动作识别的视频，这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧，其可用于训练和评估模型，不仅是动作识别，而且还用于深度图估计，光流，实例分割，语义分割，3D和2D姿势估计以及属性学习的模型。（Cesar Roberto de Souza）
RGB-D活动数据集 - 数据集中的每个视频包含2-7个涉及与不同对象交互的操作。（康奈尔大学和斯坦福大学）
RGBD-Action-Completion-2016 - 该数据集包括414个完整/不完整的对象交互序列，跨越六个动作并呈现RGB，深度和骨架数据。（Farnoosh Heidarivincheh，Majid Mirmehdi，Dima Damen）
基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）
RGBD-SAR数据集 - RGBD-SAR数据集（中国电子科技大学和微软）
罗切斯特日常生活活动数据集（Ross Messing）
SBU Kinect交互数据集 - 它包含八种类型的交互（Stony Brook大学）
SBU-Kinect-Interaction数据集v2.0 - 它包含进行交互活动的人类RGB-D视频序列（Kiwon Yun等）
SDHA 2010年人类活动语义描述 - 人类互动（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SDHA人类活动语义描述2010年比赛 - 空中观点（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SFU排球小组活动识别 - 排球视频的2级注释数据集（9个玩家的动作和8个场景的活动）。（M.Ibrahim，S。Muralidharan，Z。Deng，A。Vahdat和G. Mori / Simon Fraser大学）
SYSU 3D人 - 对象交互数据集 - 40个科目进行12项不同的活动（中山大学）
ShakeFive数据集 - 仅包含两个动作，即握手和高五。（Universitit Utrecht）
ShakeFive2 - 153个高清视频中8个类别的肢体水平注释的二元人体交互数据集（Coert van Gemeren，Ronald Poppe，Remco Veltkamp）
野外体育视频（SVW） - SVW由Coach Eye智能手机用户使用智能手机拍摄的4200个视频，这是TechSmith公司开发的运动训练的领先应用程序。（Seyed Morteza Safdarnejad，Xiaoming Liu）
斯坦福体育赛事数据集（贾莉）
利兹活动数据集 - 早餐（LAD - 早餐） - 由15个带注释的视频组成，代表五个不同的人吃早餐或其他简单的一餐; （John Folkesson等人）
THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是一个用于RGBD视频中动作识别的大型数据集，带有像素杠杆手部注释。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）
THUMOS - 在时间上未修剪的视频中的动作识别！ - 430小时的视频数据和4500万帧（Gorban，Idrees，Jiang，Zamir，Laptev Shah，Sukthanka）
TUM厨房数据集的日常操作活动（Moritz Tenorth，Jan Bandouch）
电视人体互动数据集（Alonso Patron-Perez）
下降检测数据集 - 两个场景中的六个主题连续执行了一系列操作（德克萨斯大学）
TJU数据集 - 包含在两个不同环境中由20个主题执行的22个动作; 共有1760个序列。（天津大学）
UCF-iPhone数据集 - 使用Apple iPhone 4智能手机上的惯性测量单元（IMU）从（6-9）个科目记录了9个有氧运动。（Corey McCall，Kishore Reddy和Mubarak Shah）
UPCV动作数据集 - 数据集由20个受试者两次执行的10个动作组成。（帕特雷大学）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，通过Xsens的MVN Suit和Microsoft Kinect RGB以及深度图像采集。（葡萄牙科英布拉系统与机器人研究所）
UCF 101动作数据集 101动作类，超过13k个剪辑和27小时视频数据（佛罗里达中部大学）
UCF-犯罪数据集：监控视频中的真实异常检测 - 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频（128小时），包括13个现实异常，如战斗，交通事故，入室盗窃，抢劫等，以及正常活动。（中佛罗里达大学计算机视觉研究中心）
UCFKinect - 数据集由16个动作组成（中佛罗里达大学奥兰多分校）
加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn1 - RGB-D视频中的人机交互（Shu，Ryoo和Zhu）
加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn2 - RGB-D视频中的人机交互（第2版）（Shu，Gao，Ryoo和Zhu）
UCR Videoweb多摄像机广域活动数据集（Amit K. Roy-Chowdhury）
UTD-MHAD - 八名受试者进行了四次27次动作。（德克萨斯大学达拉斯分校）
UTKinect数据集 - 10个受试者（德克萨斯大学）进行了两次人类行为的十种类型
UWA3D多视图活动数据集 - 由10个人（西澳大利亚大学）进行了30项活动
佛罗里达中部大学 - 现实视频中的50个动作类别识别（3 GB）（Kishore Reddy）
佛罗里达中部大学 - ARG航空相机，屋顶摄像机和地面摄像机（UCF计算机视觉实验室）
[佛罗里达中部大学 - 长片动作数据集](http://server.cs.ucf.edu/~vision/projects/action_mach/Slaps and kisses.rar)（佛罗里达中部大学）
佛罗里达中部大学 - 体育行动数据集（佛罗里达中部大学）
佛罗里达中部大学 - YouTube动作数据集（体育）（佛罗里达中部大学）
未分类体育新闻视频 - 74个体育新闻视频数据库，标记有10类体育。旨在测试多标签视频标记。（T. Hospedales，爱丁堡/ QMUL）
乌得勒支多人运动基准（UMPM）。 - 基于动作捕捉数据的人物视频录像和基础事实的集合。（NP van der Aa，X。Luo，GJ Giezeman，RT Tan，RC Veltkamp。）
VIRAT视频数据集 - 从涉及人类和车辆的两大类活动（单一对象和双对象）中识别事件。（Sangmin Oh等）
维罗纳社交互动数据集（Marco Cristani）
ViHASi：虚拟人体动作剪影数据（用户ID：VIHASI密码：虚拟$虚拟）（Hossein Ragheb，金斯顿大学）
Videoweb（multicamera）活动数据集（B. Bhanu，G。Denina，C。Ding，A。Ivers，A。Kamal，C。Ravishankar，A。Roy-Chowdhury，B。Varda）
WVU多视图动作识别数据集（西弗吉尼亚大学）
WorkoutSU-10用于锻炼动作的Kinect数据集（Ceyhun Akgul）
WorkoutSU-10数据集 - 包含由专业培训师为治疗目的选择的锻炼行动。（萨班哲大学）
腕上摄像机视频数据集 - 对象操作（Ohnishi，Kanehira，Kanezaki，Harada）
YouCook - 带有注释的88个开源YouTube烹饪视频（Jason Corso）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集（Google Inc.）

二、农业

阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）
KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）
叶子计数数据集 - 估算小型植物生长阶段的数据集。（奥胡斯大学）
叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）
多物种果实花朵检测 - 该数据集由四组花卉图像组成，来自三种不同的树种：苹果，桃子和梨，以及伴随的地面真实图像。（Philipe A. Dias，Amy Tabb，Henry Medeiros）
植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）
植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）

三、属性识别

用于理解非结构化社交活动的属性学习 - 包含10种非结构化社交事件类别的视频数据库，以及69个属性的注释。（Y. Fu Fudan / QMUL，T。Hospedales Edinburgh / QMUL）
具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）
鸟类这个数据库包含6个不同类别的鸟类的600张图像（每个100个样本）。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
蝴蝶这个数据库包含719种不同类型蝴蝶的619张图像。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
CALVIN研究组数据集 - 使用眼睛跟踪，图像网络边界框，同步活动，火柴人和身体姿势，youtube对象，面部，马，玩具，视觉属性，形状类（CALVIN ggroup）进行对象检测
CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）
DukeMTMC属性 - DukeMTMC-reID的23个行人属性（Lin，Zheng，Zheng，Wu和Yang）
EMOTIC（情境中的情绪） - 嵌入其自然环境中的人物（34357）的图像，用2种不同的情感表示进行注释。（Ronak kosti，Agata Lapedriza，Jose Alvarez，Adria Recasens）
拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）
用于学习相对属性的LFW-10数据集 - 10,000对面部图像的数据集，具有10个属性的实例级注释。（CVIT，IIIT Hyderabad。）
市场-1501属性 - 1501名购物者的27个视觉属性。（林，郑，郑，吴，杨）
多级天气数据集 - 我们的多级基准数据集包含来自6个常见类别的65,000张图像，适用于晴天，阴天，下雨，下雪，阴霾和雷电天气。该数据集有益于天气分类和属性识别。（迪林）
个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
UT-Zappos50K Shoes - 大型鞋类数据集，包含50,000个目录图像和超过50,000个成对相对属性标签，共11个细粒度属性（Aron Yu，Mark Stephenson，Kristen Grauman，UT Austin）
视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。
视觉隐私（VISPR）数据集 - 隐私多标签数据集（22k图像，68隐私属性）（Orekondy，Schiele，Fritz）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）

四、自动驾驶

AMUSE - 在多个测试驱动期间在真实交通场景中拍摄的汽车多传感器（AMUSE）数据集。（Philipp Koschorrek等）
自动驾驶 - 语义分割，行人检测，虚拟世界数据，远红外线，立体声，驾驶员监控。（CVC研究中心和UAB和UPC大学）
福特校园视觉和激光雷达数据集 - 来自专业（Applanix POS LV）和消费者（Xsens MTI-G）惯性测量单元（IMU），Velodyne 3D激光雷达扫描仪，两个推扫式前视Riegl激光雷达的时间注册数据，以及Point Grey Ladybug3全方位相机系统（Pandey，McBride，Eustice）
FRIDA（Foggy Road Image DAtabase）图像数据库 - 用于可见性和对比度恢复算法的性能评估的图像。FRIDA：18个城市道路场景的90幅合成图像。FRIDA2：330种不同道路场景的合成图像，其视点与车辆驾驶员的视点相近。（Tarel，Cord，Halmaoui，Gruyer，Hautiere）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了各种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
印度驾驶数据集（IDD） - 来自印度的非结构化驾驶条件，具有50,000帧（10,000个语义和40,000个粗略注释），用于训练自动驾驶汽车以查看使用对象检测，场景级和实例级语义分段（CVIT，IIIT Hyderabad和Intel ）
自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
LISA车辆检测数据集 - 在各种照明和交通条件下驾驶视频的第一人称色彩（Sivaraman，Trivedi）
失物招领数据集 - 失物招领数据集解决了自动驾驶应用中发现意外的小型道路危险（通常由货物丢失引起）的问题。（Sebastian Ramos，Peter Pinggera，Stefan Gehrig，Uwe Franke，Rudolf Mester，Carsten Rother）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
RESIDE（现实单图像去雾） - 目前最大规模的基准测试，包括合成和真实世界的模糊图像，用于图像去雾研究。RESIDE突出了各种数据源和图像内容，并提供各种培训或评估目的。（李博琪，任文琦，傅登攀，陶大成，丹峰，曾文君，王章阳）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
多车辆立体事件摄像机数据集 - 包含具有地面真实姿势，深度图和光流的立体对DAVIS 346b事件摄像机的多个序列。（lex Zihao Zhu，Dinesh Thakur，Tolga Ozaslan，Bernd Pfrommer，Vijay Kumar，Kostas Daniilidis）
图像和注释的SYNTHetic集合 - 在驾驶场景的背景下帮助语义分割和相关场景理解问题的目的。（计算机视觉中心，UAB）
TRoM：清华道路标记 - 这是一个有助于自动驾驶和ADAS道路标记分割领域的数据集。（刘晓龙，邓志东，曹乐乐，陆洪超）
密歇根大学北校区长期视野和激光雷达数据集 - 在15个月的时间内，在室内和室外，每周两次，每天不同的时间间隔，大约每两周一次。包括：移动障碍物（例如，行人，骑自行车和汽车），变化的照明，不同的观点，季节和天气变化（例如，落叶和雪），以及由施工引起的长期结构变化。包括地面真相姿势。（Carlevaris-Bianco，Ushani，Eustice）

五、生物/医药

2008年MICCAI MS病变分割挑战（美国国立卫生研究院神经科学研究蓝图）
ASU DR-AutoCC数据 - 糖尿病视网膜病变分类数据集的多实例学习特征空间（Ragav Venkatesan，Parag Chandakkar，Baoxin Li - 亚利桑那州立大学）
阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
用于椎体定位基准的带注释的脊柱CT数据库，125名患者，242次扫描（Ben Glockern）
BRATS - 脑多参数磁共振图像中肿瘤结构的识别和分割（TU Munchen等）
乳腺超声数据集B - 2D乳腺超声图像，53个恶性病变和110个良性病变。（UDIAT诊断中心，MH Yap，R。Marti）
Calgary-Campinas公共脑MR数据集：来自三个不同供应商（GE，飞利浦和西门子）的扫描仪和两个磁场强度（1.5 T和3 T）的359名受试者获得了T1加权脑MRI。扫描对应于较老的成人受试者。（Souza，Roberto，Oeslle Lucena，Julia Garrafa，David Gobbi，Marina Saluzzi，Simone Appenzeller，Leticia Rittner，Richard Frayne和Roberto Lotufo）
Cholec80：80个胆囊腹腔镜视频，注释了相位和工具信息。（Andru Putra Twinanda）
CRCHistoPhenotypes - 标记的细胞核数据 - 结肠直肠癌？组织学图像？由近30,000个点状核组成，超过22,000个细胞类型标记（Rajpoot + Sirinukunwattana）
Cavy Action Dataset - 16个序列，640 x 480分辨率，每秒7.5帧（fps），共有大约31621506帧（272 GB）相互作用的豚鼠（豚鼠）（Al-Raziqi和Denzler）
细胞跟踪挑战数据集 - 具有基本事实的2D / 3D延时视频序列（Ma等，Bioinformatics 30：1609-1617,2014）
计算机断层扫描肺气肿数据库（Lauge Sorensen）
COPD机器学习数据集 - 来自肺部计算机断层扫描（CT）图像的特征数据集的集合，可用于慢性阻塞性肺病（COPD）的诊断。该数据库中的图像被弱标记，即每个图像，给出诊断（COPD或无COPD），但不知道肺的哪些部分受到影响。此外，图像是在不同的站点和不同的扫描仪获得的。这些问题与机器学习中的两种学习场景有关，即多实例学习或弱监督学习，以及转移学习或领域适应。（Veronika Cheplygina，Isabel Pino Pena，Jesper Holst Pedersen，David A. Lynch，Lauge S.，Marleen de Bruijne）
CREMI：MICCAI 2016 Challenge - 神经组织，神经元和突触分割，突触伴侣注释的6卷电子显微镜。（Jan Funke，Stephan Saalfeld，Srini Turaga，Davi Bock，Eric Perlman）
CRIM13 Caltech Resident-Intruder Mouse数据集 - 237个10分钟视频（25 fps）注释动作（13个课程）（Burgos-Artizzu，Doll ?? r，Lin，Anderson和Perona）
DIADEM：轴突和树突状形态学竞赛的数字重建（艾伦脑科学研究所等）
DIARETDB1 - 标准糖尿病视网膜病变数据库（Lappeenranta Univ of Technology）
驱动：用于血管提取的数字视网膜图像（乌得勒支大学）
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
可变形图像配准实验室数据集 - 用于可变形图像配准（DIR）空间精度性能的客观和严格评估。（Richard Castillo等人）
DERMOFIT皮肤癌数据集 - 在相同的受控条件下捕获10个类别的1300个病灶。包括病变分割面罩（Fisher，Rees，Aldridge，Ballerini等）
皮肤镜检查图像（Eric Ehrsam）
EPT29。这个数据库包含4841个样本的2613个样本，包括29个分类的EPT Tom等）
EATMINT（用于中介INTeraction的情感意识工具）数据库 - EATMINT数据库包含协作设置中的情感和社交行为的多模态和多用户录制。（Guillaume Chanel，Gaelle Molinari，Thierry Pun，Mireille Betrancourt）
FIRE眼底图像注册数据集 - 134个视网膜图像对和注册真实性。（FORTH-ICS）
组织学图像采集库（HICL） - HICL是来自各种疾病（例如脑癌，乳腺癌和HPV（人乳头瘤病毒） - 宫颈癌）的3870个病理图像（迄今为止）的汇编。（医学图像和信号处理（MEDISP）实验室，西阿提卡大学工程学院生物医学工程系）
蜜蜂分割数据集 - 它是一个数据集，包含蜂巢的2D表面上数百只蜜蜂的位置和方向角。（Bozek K，Hebert L，Mikheyev AS，Stephesn GJ）
IIT MBADA鼠标 - 小鼠行为数据。FLIR A315，空间分辨率为320 ?? 240px，30fps，50x50cm开放式竞技场，两位专家为三只不同的小鼠对，小鼠身份。（意大利技术研究所，PAVIS实验室）
印度糖尿病视网膜病变图像数据集 - 该数据集包括在像素级注释的视网膜眼底图像，用于与糖尿病视网膜病变相关的病变。此外，它提供了糖尿病性视网膜病和糖尿病性黄斑水肿的疾病严重性。该数据集可用于开发和评估用于早期检测糖尿病性视网膜病变的图像分析算法。（Prasanna Porwal，Samiksha Pachade，Ravi Kamble，Manesh Kokare，Girish Deshmukh，Vivek Sahasrabuddhe，Fabrice Meriaudeau）
IRMA（医学应用中的图像检索） - 该系列编辑匿名射线照片（Deserno TM，Ott B）
KID - 用于医疗决策支持的胶囊内窥镜数据库（Anastasios Koulaouzidis和Dimitris Iakovidis）
叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）
LITS肝脏肿瘤分割 - 130个3D CT扫描，肝脏和肝脏肿瘤的分割。公共基准与Codalab.org的排行榜（Patrick Christ）
医学图像数据库 - 基于真实情况的乳房异常超声图像数据库。（Stanislav Makhanov教授，biomedsiit.com）
麻省理工学院CBCL自动鼠标行为识别数据集（Nicholas Edelman）
MUCIC：马萨里克大学细胞图像采集 - 用于基准测试的细胞/组织的2D / 3D合成图像（马萨里克大学）
迷你乳腺摄影数据库（乳腺图像分析学会）
蛾细粒度识别 - 675个类似的类，5344个图像（Erik Rodner等）
Mouse Embryo Tracking Database - 细胞分裂事件检测（Marcelo Cicconet，Kris Gunsalus）
OASIS - 开放获取系列成像研究 - 大脑的500多个MRI数据集（华盛顿大学，哈佛大学，生物医学信息学研究网络）
植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）
RatSI：大鼠社交互动数据集 - 9只完全注释（11级）视频（15分钟，25 FPS）的两只大鼠在笼子里进行社交互动（Malte Lorbach，Noldus Information Technology）
视网膜眼底图像 - 血管分叉和交叉的基本事实（格罗宁根大学）
SCORHE - 1,2和3个鼠标行为视频，9个行为，（Ghadi H. Salem，等，NIH）
视网膜的结构分析 - 描述（400+视网膜图像，具有地面真相分割和医学注释）
脊柱和心脏数据（伦敦安大略省数字成像组，硕力）
Stonefly9这个数据库包含772个石蝇（汤姆等）9个标本的3826张图像。
合成迁移细胞 -Six人工迁移细胞（中性粒细胞）超过98个时间帧，各种水平的高斯/泊松噪声和不同的路径特征与地面实况。（Constantino Carlos Reyes-Aldasoro博士等人）
UBFC-RPPG数据集 - 使用CMS50E透射式脉搏血氧仪（Bobbia，Macwan，Benezeth，Mansouri，Dubois）获取的远程光电容积描记图（rPPG）视频数据和地面实况
Uni Bremen Open，腹部手术RGB数据集 - 使用直接安装在患者上方的Kinect v2记录完整，开放式腹部手术，俯视患者和工作人员。（Joern Teuber，Gabriel Zachmann，不来梅大学）
佛罗里达中部大学 - DDSM：用于筛查乳腺摄影的数字数据库（佛罗里达中部大学）
VascuSynth - 具有基本事实的120个3D血管树状结构（Mengliu Zhao，Ghassan Hamarneh）
VascuSynth - 血管合成器以3D体积生成血管树。（Ghassan Hamarneh，Preet Jassi，Mengliu Zhao）
York心脏MRI数据集（Alexander Andreopoulos）

六、相机校准

折反射相机校准图像（Yalin Bastanlar）
GoPro-Gyro数据集 - 该数据集由许多广角滚动快门视频序列和相应的陀螺仪测量组成（Hannes等）
LO-RANSAC - 用于估计单应性和极线几何的LO-RANSAC库（K.Lebeda，J。Matas和O. Chum）

七、面部和眼睛/虹膜数据库

2D-3D人脸数据集 - 此数据集包括2D人脸图像对及其对应的具有几何细节的3D人脸几何模型。（郭玉东，张居勇，蔡剑飞，蒋博一，郑建民）
300个野外视频（300-VW） - 68个面部地标追踪（Chrysos，Antonakos，Zafeiriou，Snape，Shen，Kossaifi，Tzimiropoulos，Pantic）
3D面具攻击数据库（3DMAD） - 使用Kinect RGBD和眼睛位置的1765人中的76500帧（Sebastien Marcel）
3D面部表情 - 宾厄姆顿大学3D静态和动态面部表情数据库（Lijun Yin，Jeff Cohn和队友）
AginG Faces in the wild v2数据库描述：AGFW-v2由36,299个面部图像组成，分为11个年龄组，每组间隔5年。平均而言，每组有3,300张图像。AGFW-v2中的面部图像不是公众人物，不太可能有明显的化妆或面部修改，有助于在学习过程中嵌入准确的老化效果。（Chi Nhan Duong，Khoa Luu，Kha Gia Quach，Tien D. Bui）
用于面部和说话人识别的视听数据库（Mobile Biometry MOBIO http://www.mobioproject.org/）
BANCA面部和语音数据库（萨里大学）
Binghampton Univ 3D静态和动态面部表情数据库（Lijun Yin，Peter Gerhardstein和队友）
Binghamton-Pittsburgh 4D自发面部表情数据库 - 由2D自发面部表情视频和FACS代码组成。（Lijun Yin等人）
BioID人脸数据库（BioID组）
BioVid热痛数据库 - 该视频（和生物医学信号）数据集包含87名受试验诱导的热痛的研究参与者的面部和生理心理反应。（马格德堡大学（神经信息技术组）和乌尔姆大学（Emotion Lab））
生物识别数据库 - 与虹膜识别相关的生物识别数据库（Adam Czajka）
Biwi 3D视听语音情感语料库 - 1000个高质量，动态的面部3D扫描，同时发出一组英语句子。
博斯普鲁斯海峡3D / 2D数据库的FACS注释面部表情，头部姿势和面部遮挡（Bogazici大学）
漫画/ Photomates数据集 - 具有正面和相应的漫画线条图的数据集（Tayfun Akgul）
CASIA-IrisV3（中国科学院，TN Tan，Z。Sun）
CASIR Gaze Estimation数据库 - RGB和深度图像（来自Kinect V1.0）和面部特征的基础真值，对应于凝视估计基准的实验：（Filipe Ferreira等）
CMU面部表情数据库（CMU / MIT）
CMU Multi-PIE人脸数据库 - 超过750,000张337人的图像，在五个月内最多可记录四次。（杰夫科恩等人）
CMU姿势，照明和表达（PIE）数据库（Simon Baker）
CMU / MIT正面（CMU / MIT）
CMU / MIT正面（CMU / MIT）
CSSE面部的正面强度和范围图像（Ajmal Mian）
CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）
Cohn-Kanade AU编码表达数据库 - 100多个受试者的500+表达序列，由激活的行动单位编码（Affect Analysis Group，匹兹堡大学）
Cohn-Kanade AU编码表达数据库 - 用于自动面部图像分析和合成以及感知研究的研究（Jeff Cohn等）
哥伦比亚凝视数据集 - 5,880个图像，56人，5个头部姿势和21个凝视方向（Brian A. Smith，Qi Yin，Steven K. Feiner，Shree K. Nayar）
计算机视觉实验室人脸数据库（CVL人脸数据库） - 数据库包含798张114人的图像，每人7张图像，可免费用于研究目的。（Peter Peer等）
深远的未来凝视 - 该数据集由55个受试者执行的搜索和检索任务的57个序列组成。每个视频片段持续约15分钟，帧速率为10 fps，帧分辨率为480×640。每个主题被要求搜索22个项目（包括挂绳，笔记本电脑）的列表并将它们移动到包装位置（餐桌）。（新加坡国立大学信息通信研究所）
DISFA +：自发面部行动数据库的延伸丹佛强度 - DISFA（MH Mahoor）的扩展
DISFA：自发面部行动数据库的丹佛强度 - 一个非摆姿势的面部表情数据库，适用于那些有兴趣开发自动行动单元检测的计算机算法及其由FACS描述的强度的人。（MH Mahoor）
DHF1K - 1000个精心挑选的视频序列，带有17个观众的注视注释。（沉建兵教授）
EURECOM面部化妆品数据库 - 389张图片，50人有/无化妆，有关化妆量和位置的注释。（Jean-Luc DUGELAY等）
EURECOM Kinect人脸数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等）
EYEDIAP数据集 - EYEDIAP数据集用于训练和评估RGB和RGB-D数据的凝视估计算法。它包含多种参与者，头部姿势，凝视目标和感知条件。（Kenneth Funes和Jean-Marc Odobez）
Face2BMI数据集 Face2BMI数据集包含2103对面部，具有相应的性别，身高以及之前和当前的体重，允许训练可以从剖面图预测身体质量指数（BMI）的计算机视觉模型。（Enes Kocabey，Ferda Ofli，Yusuf Aytar，Javier Marin，Antonio Torralba，Ingmar Weber）
FDDB：人脸检测数据集和基准 - 研究无约束人脸检测（马萨诸塞大学计算机视觉实验室）
不同年龄人脸的FG-Net老龄化数据库（面部和手势识别研究网络）
人脸识别大挑战数据集（FRVT - 人脸识别供应商测试）
FMTV - 拉瓦尔脸部动作和延时视频数据库。238个热/视频科目，具有4年以上的各种姿势和面部表情（Ghiass，Bendada，Maldague）
面部超分辨率数据集 - 使用双摄像头设置（程超曲等）拍摄的地面真实HR-LR面部图像
FaceScrub - 拥有超过100,000人脸图像（530人）（50:50男性和女性）的数据集（H.-W. Ng，S。Winkler）
FaceTracer数据库 - 15,000张面孔（Neeraj Kumar，PN Belhumeur和SK Nayar）
面部表情数据集 - 该数据集由在现实世界条件下记录的242个面部视频（168,359帧）组成。（Daniel McDuff等人）
佛罗伦萨2D / 3D混合面数据集 - 弥合了2D，基于外观的识别技术和全3D方法之间的差距（Bagdanov，Del Bimbo和Masi）
面部识别技术（FERET）数据库（美国国家标准与技术研究院）
Gi4E数据库 - 眼睛跟踪数据库，使用标准网络摄像头拍摄1300多张图像，对应于不同的主体，注视屏幕上的不同点，包括地面真相2D虹膜和角点（Villanueva，Ponz，Sesma-Sanchez，Mikel Porta，和Cabeza）
谷歌面部表情比较数据集 - 一个大型的面部表情数据集，由面部图像三元组和人类注释组成，指定每个三元组中的哪两个面在面部表情方面形成最相似的对，这与主要关注的数据集不同离散情绪分类或行动单位检测（Vemulapalli，Agarwala）
Hannah和她的姐妹数据库 - 一个密集的视听人物导向的面部，语音片段，镜头边界的真实注释（Patrick Perez，Technicolor）
顶空数据集 - 顶空数据集是一组完整人体头部的3D图像，由1519名穿着紧身乳胶帽的受试者组成，以减少发型的影响。（Christian Duncan，Rachel Armstrong，Alder Hey Craniofacial Unit，英国利物浦）
香港脸部素描数据库
IDIAP头部姿势数据库（IHPD） - 该数据集包含一组会议视频以及各个参与者的主要基础（约128分钟）（Sileye Ba和Jean-Marc Odobez）
IMDB-WIKI - 500k +带有年龄和性别标签的脸部图像（Rasmus Rothe，Radu Timofte，Luc Van Gool）
印度电影人脸数据库（IMFDB） - 一个大型无约束的人脸数据库，包含来自100多个视频（Vijay Kumar和CV Jawahar）的100位印度演员的34512张图像
伊朗人脸数据库 - IFDB是中东地区第一个图像数据库，包含年龄，姿势和表情的彩色面部图像，其主题范围为2-85。（Mohammad Mahdi Dehshibi）
日本女性面部表情（JAFFE）数据库（Michael J. Lyons）
LFW：野性的标记面孔 - 不受约束的面部识别
LS3D-W - 一个大型3D人脸对齐数据集，注释68个点，包含在“野外”设置中捕获的面部。（Adrian Bulat，Georgios Tzimiropoulos）
MAFA：MAsked FAces - 30,811张图片，带有35,806张标记的MAsked FAces，每张蒙面的6个主要属性。（葛志明，贾莉，叶启庭，赵珞）
化妆诱导面部欺骗（MIFS） - 试图破坏目标身份的107次化妆变形。还有其他数据集。（Antitza Dantcheva）
Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）
麻省理工学院CBCL人脸识别数据库（生物学和计算机学习中心）
麻省理工学院面部数据库整理（Ethan Meyers）
麻省理工学院眼动追踪数据库（1003张图片）（Judd等）
MMI面部表情数据库 - 75个主题的2900个视频和高分辨率静止图像，注释为FACS AU。
MORPH（颅面纵向形态人脸数据库）（北卡罗来纳大学威尔明顿分校）
MPIIGaze数据集 - 213,659个样本，在不同照明条件和自然头部运动下具有眼睛图像和凝视目标，每天使用时从15名参与者及其笔记本电脑中收集。（张旭聪，Yuguke Sugano，Mario Fritz，Andreas Bulling。）
曼彻斯特注释说话面部视频数据集（Timothy Cootes）
MegaFace - 100万面临边界框（Kemelmacher-Shlizerman，Seitz，Nech，Miller，Brossard）
音乐视频数据集 - 来自YouTube的8个音乐视频，用于在不受约束的环境中开发多面部跟踪算法（张顺，黄佳斌，杨明轩）
NIST面部识别大挑战（FRGC）（NIST）
NIST照片识别数据库（美国国家标准与技术研究院）
NRC-IIT面部视频数据库 - 该数据库包含一对短视频片段，每个片段显示坐在显示器前面的计算机用户的面部，展示各种面部表情和方向（Dmitry Gorodnichy）
Notre Dame Iris Image Dataset（Patrick J. Flynn）
巴黎圣母院的脸，红外线脸，3D脸，表情，人群和眼睛生物识别数据集（巴黎圣母院）
ORL人脸数据库：40人，10人观看（ATT剑桥实验室）
OUI-Adience Faces - 针对性别和年龄分类以及3D面部（OUI）的未过滤面部
牛津：面孔，鲜花，多视图，建筑物，物体类别，运动分割，仿射协变区域，misc（Oxford Visual Geometry Group）
Pandora - POSEidon：面向驾驶员姿势的深度（Borghi，Venturelli，Vezzani，Cucchiara）
PubFig：Public Figures Face Database（Neeraj Kumar，Alexander C. Berg，Peter N. Belhumeur和Shree K. Nayar）
QMUL-SurvFace - 一个大型人脸识别基准，专门用于实际监控人脸分析和匹配。（QMUL计算机视觉组）
重新标记在野外的面孔 - 原始图像，但使用“深漏斗”方法对齐。（马萨诸塞大学阿默斯特分校）
RT-GENE：在自然环境中进行实时眼睛注视估计 122,531张图像，在自由观察条件和大型相机距离下，受试者的地面真实眼睛注视和头部姿势标签（Fischer，Chang，Demiris，伦敦帝国理工学院）
S3DFM - 爱丁堡语音驱动的3D面部运动数据库。77个人重复说10个密码：1秒500帧/秒600x600像素{IR强度视频，注册深度图像}加同步44.1 Khz音频。还有26人（10次重复）在说话时移动头部（张，费舍尔）
人类视觉输入的凝视对齐记录中的显着特征 - 人类凝视 - 临时数据的结核“在野外”（Frank Schumann等）
微型面部运动的SAMM数据集 - 该数据集包含来自13个不同种族的32名参与者的159次自发微型面部运动。（A.Davison，C.Lansley，N.Costen，K.Tan，MHYap）
SCface - 监控摄像头人脸数据库（Mislav Grgic，Kresimir Delac，Sonja Grgic，Bozidar Klimpak）
SiblingsDB - SiblingsDB包含两个数据集，描述与兄弟关系相关的个人图像。（Politecnico di Torino /计算机图形和视觉组）
使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）
[自发情绪多模式数据库（SEM-db）](http://staffnet.kingston.ac.uk/~ku43576/?page id=414) - 用HD RGB，面部深度和IR帧，EEG信号和眼睛注视数据记录的视觉刺激数据的非姿势反应（Fernandez。黑山，Gkelias，Argyriou）
UNBC-McMaster肩痛表达档案数据库 - 痛苦的数据：UNBC-McMaster肩痛表达档案数据库（Lucy等人）
约克3D耳朵数据集 - 约克3D耳朵数据集是一组500个3D耳朵图像，由详细的2D标记合成，并以Matlab格式（.mat）和PLY格式（.ply）提供。（Nick Pears，Hang Dai，Will Smith，约克大学）
特隆赫姆Kinect RGB-D人物重新识别数据集（Igor Barros Barbosa）
UB KinFace数据库 - 布法罗大学亲属验证和识别数据库
UBIRIS：嘈杂的可见波长虹膜图像数据库（贝拉大学）
UMDFaces - 来自22,000个视频和370,000个带注释静止图像的约370万个带注释的视频帧。（Ankan Bansal等人）
UPNA Head Pose数据库 - 头部姿势数据库，包含120个网络摄像头视频，包含引导移动序列和自由移动序列，包括地面真实头部姿势和自动注释的2D面部点。（亚利桑那州，Bengoechea，Villanueva，Cabeza）
UPNA合成头部姿势数据库 - UPNA头部姿势数据库的合成复制品，具有120个视频，其2D地面实况地标投影，相应的头部姿势基础事实，3D头部模型和相机参数。（Larumbe，Segura，Ariz，Bengoechea，Villanueva，Cabeza）
UTIRIS跨光谱虹膜图像数据库（Mahdi Hosseini）
VGGFace2 - VGGFace2是一个大型人脸识别数据集，涵盖了姿势，年龄，光照，种族和职业的巨大变化。（牛津视觉几何组）
VIPSL数据库 - VIPSL数据库用于面部素描 - 照片合成和识别的研究，包括200个科目（每个科目1张照片和5张草图）。（Nannan Wang）
视觉搜索零镜头数据库 - 在三个日益复杂的视觉搜索任务中收集人类眼睛跟踪数据：对象阵列，自然图像和Waldo图像。（Kreiman实验室）
VT-KFER：用于自发和非自发面部表情识别的基于Kinect的RGBD +时间数据集–3个主题，1,956个RGBD序列，3个姿势中的6个面部表情（Aly，Trubanova，Abbott，White和Youssef）
华盛顿面部表情数据库（FERG-DB） - 一个由6个程式化（Maya）角色组成的数据库，带有7个带注释的面部表情（Deepali Aneja，Alex Colburn，Gary Faigin，Linda Shapiro和Barbara Mones）
WebCaricature数据集 - WebCaricature数据集是一个大型的照片漫画数据集，由来自网络收集的252个人的6042幅漫画和5974张照片组成。（景火，李文斌，史英桓，杨高，胡钧军）
更广泛的脸部：人脸检测基准 - 32,203张图像，393,703张标记面，61个活动类（Shuo Yang，Ping Luo，Chen Change Loy，Xiaoou Tang）
XM2VTS Face视频序列（295）：扩展的M2VTS数据库（XM2VTS） -（萨里大学）
耶鲁人脸数据库 - 10人的11个表达（A. Georghaides）
耶鲁人脸数据库B - 576人观看条件10人（A. Georghaides）
约克大学眼动追踪数据集（120图像）（Neil Bruce）
YouTube Faces DB - 1,525个不同的人的3,425个视频。（Wolf，Hassner，Maoz）
苏黎世自然图像 - 用于在一系列眼动追踪研究中创建自然刺激的图像材料（Frey等人）

八、指纹

FVC指法验证竞赛2002年数据集（博洛尼亚大学）
FVC指法验证竞赛2004年数据集（博洛尼亚大学）
指纹手册Minutiae Marker（FM3）数据库： - 指纹手动细节标记（FM3）数据库（Mehmet Kayaoglu，Berkay Topcu和Umut Uludag）
NIST指纹数据库（美国国家标准与技术研究院）
SPD2010指纹奇点检测竞赛（SPD 2010委员会）

九、一般图像

用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物破坏的像素和强度对齐图像对。（J. Anaya，A。Barbu）
与Vincent van Gogh相关的绘画数据库 - 这是为“从印象派到表现主义：自动识别梵高的绘画”（Guilherme Folego和Otavio Gomes和Anderson Rocha）的论文建立的数据集VGDB-2016
AMOS：许多户外场景档案（20 + m）（Nathan Jacobs）
航拍图像使用不变的颜色特征和阴影信息从航拍图像构建检测。（Beril Sirmacek）
近似重叠误差数据集具有稀疏地面实况匹配集的图像对，用于评估局部图像描述符（Fabio Bellavia）
AutoDA（自动数据集扩充） - 自动构建的图像数据集，包括1250万张图像，其中包含1000种ILSVRC2012（Bai，Yang，Ma，Zhao）的相关文本信息
BGU自然场景高光谱图像数据库（Ohad Ben-Shahar和Boaz Arad）
布朗大学二元图像数据库（Ben Kimia）
Butterfly-200 - Butterfly-20是用于细粒度图像分类的图像数据集，其包含25,279个图像并且涵盖200种，116属，23个亚科和5个家族的四个级别类别。（陈天水）
CMP Facade数据库 - 包括来自不同地方的606个矫正图像，其中有12个建筑类别注释。（Radim Tylecek）
加州理工学院 - UCSD Birds-200-2011（Catherine Wah）
颜色校正数据集 - 基于Homography的注册图像，用于评估图像拼接的颜色校正算法。（法比奥贝拉维亚）
哥伦比亚多光谱图像数据库（F. Yasuma，T。Mitsunaga，D。Iso和SK Nayar）
DAQUAR（视觉图灵挑战） - 包含关于真实世界室内场景的问题和答案的数据集。（Mateusz Malinowski，Mario Fritz）
达姆施塔特噪声数据集 - 50对真实噪声图像和相应的地面实况图像（RAW和sRGB）（Tobias Plotz和Stefan Roth）
美国电影预告片2010-2014数据集 - 包含474个好莱坞电影预告片的链接以及相关的元数据（流派，预算，运行时，发布，MPAA评级，发布的屏幕，续集指标）（USC信号分析和解释实验室）
DIML Multimodal Benchmark - 评估光度和几何变化下的匹配性能，100张1200 x 800尺寸的图像。（延世大学）
DSLR照片增强数据集（DPED） - 由三个智能手机和一个数码单反相机在野外同步拍摄的22K照片，用于比较来自多个低质量图像（Ignatov，Kobyshev，Timofte，Vanhoey和Van Gool）的高质量图像。
Flickr风格 - 80K Flickr照片注释20个精选风格标签，85K绘画注释25个风格/流派标签（Sergey Karayev）
Forth Multispectral Imaging Datasets - 来自5幅绘画的23个光谱带的图像。图像用地面实况数据注释。（Karamaoynas Polykarpos等）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
GOPRO数据集 - 具有清晰图像基础事实的模糊图像数据集（Nah，Kim和Lee）
HIPR2图像不同类型图像的目录（Bob Fisher等）
HPatches - 手工和学习本地描述符的基准和评估（Balntas，Lenc，Vedaldi，Mikolajczyk）
用于自然场景中局部照明的空间分布的高光谱图像 - 用于嵌入用于局部照明估计的探测球体的自然场景的30个校准的高光谱辐射图像。（Nascimento，Amano和Foster）
自然场景的高光谱图像 - 2002（David H. Foster）
自然场景的高光谱图像 - 2004（David H. Foster）
ISPRS多平台摄影测量数据集 - 1：最低点和斜空间图像加2：无人机和地面图像组合（Francesco Nex和Markus Gerke）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
ImageNet大规模视觉识别挑战 - 目前有200个对象类和500 + K图像（Alex Berg，Jia Deng，Fei-Fei Li等）
ImageNet语言组织（WordNet）分层图像数据库 - 10E7图像，15K类别（李飞飞，贾登，郝素，李凯）
通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
LabelMeFacade数据库 - 945标记的建筑图像（Erik Rodner等）
局部照明高光谱辐射图像 - 用于局部照明估计的嵌入探测球体的自然场景的30个高光谱辐射图像（Sgio MC Nascimento，Kinjiro Amano，David H. Foster）
麦吉尔校准彩色图像数据库（Adriana Olmos和Fred Kingdom）
乘法失真图像数据库 - 用于评估多重失真图像上图像质量评估指标结果的数据库。（周飞）
NPRgeneral - 用于评估图像样式算法的标准化图像集合。（David Mold，Paul Rosin）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
NYU对称数据库 - 176个单对称和63个多对称图像（Marcelo Cicconet和Davi Geiger）
OceanDark数据集 - 来自东北太平洋水下站点的100个低照度水下图像。1400x1000像素，不同的照明和录制条件（Ocean Networks Canada）
OTCBVS Thermal Imagery基准数据集（俄亥俄州立大学队）
PAnorama Sparsely STructured Areas数据集 - 用于评估图像对齐的PASSTA数据集（Andreas Robinson）
QMUL-OpenLogo - 用于测试模型概括功能的徽标检测基准，用于检测自然场景中的各种徽标对象，其中大多数徽标类未标记。（QMUL计算机视觉组）
RESIDE（现实单图像去雾） - 目前最大规模的基准测试，包括合成和真实世界的模糊图像，用于图像去雾研究。RESIDE突出了各种数据源和图像内容，并提供各种培训或评估目的。（李博琪，任文琦，傅登攀，陶大成，丹峰，曾文君，王章阳）
Rijksmuseum Challenge 2014 - 它由来自rijksmuseum的100K艺术品组成，并附带描述每个物体的大量xml文件。（Thomas Mensink和Jan van Gemert）
在黑暗中看到 - 77 Gb的黑暗图像（Chen，Chen，Xu和Koltun）
智能手机图像去噪数据集（SIDD） - 智能手机图像去噪数据集（SIDD）包含大约30,000个噪声图像，在原始RGB和sRGB空间中具有相应的高质量地面实况，使用五个代表智能手机相机从10个具有不同光照条件的场景获得。（Abdelrahman Abdelhamed，Stephen Lin，Michael S. Brown）
斯坦福街景图像，姿势和3D城市数据集 - 街景图像（2500万图像和118个匹配图像对）的大规模数据集及其相对相机姿态，城市的3D模型和图像的3D元数据。（Zamir，Wekel，Agrawal，Malik，Savarese）
TESTIMAGES - 大量免费收集样本图像，用于不同类型显示器（即监视器，电视和数字电影放映机）的分析和质量评估以及图像处理技术。（Nicola Asuni）
康斯坦茨视觉质量数据库 - 用于开发和评估视觉质量评估算法的大型图像和视频数据库。（康斯坦茨大学MMSP小组）
自然场景的时间推移高光谱辐射图像 - 一天中拍摄的自然场景的7-9校准高光谱辐射图像的四个延时序列。（Foster，DH，Amano，K。，＆Nascimento，SMC）
延时高光谱辐射图像 - 自然场景的7-9校准高光谱图像的四个延时序列，间隔为10nm的光谱（David H. Foster，Kinjiro Amano，Sgio MC Nascimento）
Tiny Images数据集 7900万32x32彩色图像（Fergus，Torralba，Freeman）
TURBID数据集 - 降级图像的五个不同子集及其各自的地面实况。子集Milk和DeepBlue各有20张图像，子叶绿素有42张图像（Amanda Duarte）
UT Snap Angle 360°数据集 - 来自youtube的四个活动（迪士尼，游行，滑雪，音乐会）的360°视频列表（Kristen Grauman，UT Austin）
UT Snap Point数据集 - 人类对来自UT Egocentric数据集和新收集的移动机器人数据集的帧子集的捕捉点质量的判断（帧也包括在内）（Bo Xiong，Kristen Grauman，UT Austin）
视觉对话 - 在COCO图像上进行120k人 - 人对话，每对话10轮QA（Das，Kottur，Gupta，Singh，Yadav，Moura，Parikh，Batra）
视觉问题回答 - 254K imags，764K问题，基本事实（Agrawal，Lu，Antol，Mitchell，Zitnick，Batra，Parikh）
视觉问题生成 --15k图像（包括以物体为中心和以事件为中心的图像），75k自然问题询问可以引起进一步对话的图像（Nasrin Mostafazadeh，Ishan Misra，Jacob Devlin，Margaret Mitchell，Xiao Dong He，Lucy Vanderwende ）
VQA Human Attention - 用于视觉问答的60k人类注意力图，即人类选择回答图像问题的地方（Das，Agrawal，Zitnick，Parikh，Batra）
Wild Web篡改图像数据集 - 来自Web和社交媒体源的大量篡改图像，包括用于篡改本地化的地面实况注释掩码（Markos Zampoglou，Symeon Papadopoulos）
YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）

十、一般RGBD和深度数据集

注意：有3D数据集其他地方也是如此，例如在对象，场景和动作。

360D - 来自22096个独特视点的成对颜色和深度360球面全景图的数据集，用于评估全向密集深度估计方法。（Nikolaos Zioulis，Antonis Karakottas，Dimitrios Zarpalas，Petros Daras）
3D打印RGB-D对象数据集 - 具有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器进行记录。（西门子和TUM）
3DCOMET - 3DCOMET是用于测试3D数据压缩方法的数据集。（Miguel Cazorla，Javier Navarrete，Vicente Morell，Miguel Cazorla，Diego Viejo，Jose Garcia-Rodriguez，Sergio Orts。）
3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）
用于从RGB-D数据进行非刚性重建的数据集 - 用于从RGB-D数据重建非刚性几何的八个场景，每个场景包含数百帧以及我们的结果。（Matthias Innmann，Michael Zollhoefer，Matthias Niessner，Christian Theobalt，Marc Stamminger）
大型对象扫描数据集 - 9个casses中的392个对象，每个数百帧（Choi，Zhou，Miller，Koltun）
铰接式物体挑战 - 4个铰接物体，由一维旋转和棱柱关节连接的刚性部件组成，7000 + RGBD图像，带有6D姿态估计注释（Frank Michel，Alexander Krull，Eric Brachmann，Michael.Y.Yang，Stefan Gumhold，Carsten Rother ）
BigBIRD - 每个对象有100个对象，600个3D点云和600个高分辨率彩色图像，跨越所有视图（Singh，Sha，Narayan，Achim，Abbeel）
CAESAR美国民用和欧洲表面人体测量资源项目 - 4000个3D人体扫描（SAE International）
CIN 2D + 3D对象分类数据集 - 来自18种常见家庭和办公室对象的对象的分段颜色和深度图像（Bjorn Browatzki等）
CoRBS - RGB-D SLAM基准测试，提供真实深度和颜色数据的组合，以及相机的地面实况轨迹和场景的真实3D模型（Oliver Wasenmuller）
CSIRO综合变形人 - 用于评估非刚性三维重建的合成RGBD数据集：2个主体和4个摄像机轨迹（Elanattil和Moghadam）
CTU服装折叠照片数据集 - 服装折叠的各个阶段的颜色和深度图像。（Sushkov R.，Melkumov I.，Smutn y V.（布拉格捷克技术大学））
CTU Garment Sorting Dataset - 服装图像，详细立体图像，深度图像和重量的数据集。（Petrik V.，Wagner L.（布拉格捷克技术大学））
服装零件数据集 - 服装零件数据集包括图像和深度扫描，使用Kinect获取，服装放在桌子上，使用多边形面具有超过一千个部分注释（衣领，袖口，帽子等）。（Arnau Ramisa， Guillem Aleny，Francesc Moreno-Noguer和Carme Torras）
Cornell-RGBD-Dataset - 办公场景（Hema Koppula）
CVSSP动态RGBD建模2015 - 该数据集包含使用Kinect V1 / V2捕获的一般动态场景的八个RGBD序列以及两个合成序列。（Charles Malleson，萨里大学CVSSP）
可变形3D重建数据集 - 动态移动机械玩具的两个单流RGB-D序列以及规范静止姿势中的地面真实3D模型。（西门子，TUM）
代尔夫特风车内部和外部激光扫描点云（Beril Sirmacek）
Diabetes60 - 60种西式菜肴的RGB-D图像，自制。使用Microsoft Kinect V2记录数据。（Patrick Christ和Sebastian Schlecht）
ETH3D - 用于多视图立体声和3D重建的基准测试，涵盖各种室内和室外场景，通过高精度激光扫描仪获取地面实况。（Thomas Sch ?? ps，Johannes L. Sch ?? nberger，Silvano Galliani，Torsten Sattler，Konrad Schindler，Marc Pollefeys，Andreas Geiger）
EURECOM Kinect Face数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等人）
G4S元房间 - RGB-D数据150次扫描，每次扫描18个图像。（John Folkesson等人）
Georgiatech-Metz Symphony Lake数据集 - 来自121次湖岸调查的超过4年的500万RGBD户外图像。（格里菲斯和普拉迪利耶）
Goldfinch：GOogLe图像搜索数据集用于FINe粒度CHallenges - 用于细粒鸟（11K种），蝴蝶（14K种），飞机（409种）和狗（515种）识别的大型数据集。（Jonathan Krause，Benjamin Sapp， Andrew Howard，Howard Zhou，Alexander Toshev，Tom Duerig，James Philbin，Li Fei-Fei）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了各种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
IMPART多视图/多模式2D + 3D电影制作数据集 - 激光雷达，视频，3D模型，球形摄像机，RGBD，立体声，动作，面部表情等（萨里大学）
工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）
Kinect v2数据集 - 使用核密度估计的高效多频相位展开（Felix等）
KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）
McGill-Reparti人工感知数据库 - 来自四个摄像头的RGBD数据和两个人类受试者在车门上执行模拟装配任务的未过滤Vicon骨骼数据（Andrew Phan，Olivier St-Martin Cormier，Denis Ouellet，Frank P. Ferrie）。
元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）
METU多模立体声数据集 - 多模立体视觉的基准数据集??? - METU多模态立体声数据集包括用于多模态立体视觉的基准数据集，该数据集由两个数据集组成：（1）来自Middlebury立体评估数据集的综合改变立体图像对和（2）可见红外图像从Kinect设备捕获的对。（Mustafa Yaman博士，Sinan Kalkan博士）
MHT RGB-D - 由林肯大学每隔5分钟由机器人收集16天。（John Folkesson等人）
在RGB-D中移动INFants（MINI-RGBD） - 用于婴儿姿势估计的合成的，逼真的RGB-D数据集，其包含具有地面真实关节位置的12个移动婴儿序列。（N. Hesse，C。Bodensteiner，M。Arens，UG Hofmann，R。Weinberger，AS Schroeder）
用于物体识别的多传感器3D物体数据集，具有全姿态估计 - 用于物体识别和姿态估计的多传感器3D物体数据集（Alberto Garcia-Garcia，Sergio Orts-Escolano，Sergiu Oprea等）
NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
NYU Depth Dataset V2 - RGBD图像的室内分割和支持推断
奥克兰三维点云数据集（Nicolas Vandapel）
Pacman项目 - 来自20个类的400个对象的合成RGB-D图像。从3D网格模型生成（Vladislav Kramarev，Umit Rusen Aktas，Jeremy L. Wyatt。）
程序性人类行动视频 - 该数据集包含大约40,000个用于人类动作识别的视频，这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧，其可用于训练和评估模型，不仅是动作识别，而且还用于深度图估计，光流，实例分割，语义分割，3D和2D姿势估计以及属性学习的模型。（Cesar Roberto de Souza）
基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）
RGB-D Part Affordance数据集 - 用于105个厨房，工作室和园艺工具的RGB-D图像和地面真实可供选择标签，以及3个杂乱的场景（Myers，Teo，Fermuller，Aloimonos）
ScanNet：室内场景的富有注释的3D重建 --ScanNet是一个包含丰富注释的RGB-D扫描的数据集，包含超过1500次扫描的2.5M RGB-D图像，带有3D相机姿势，表面重建，和实例级语义分段。（Angela Dai，Angel X. Chang，Manolis Savva，Maciej Halber，Thomas Funkhouser，Matthias Niessner）
SceneNN：场景使用aNNotations网格化数据集 - 具有100多个室内场景的RGB-D场景数据集，标记为三角形网格，体素和像素。（Hua，Pham，Nguyen，Tran，Yu和Yeung）
Semantic-8：具有8个类的3D点云分类（苏黎世联邦理工学院）
小型办公室数据集 - 从2014年4月开始每5秒钟进行一次Kinect深度图像处理。（John Folkesson等人）
具有基础事实的立体声和ToF数据集 - 数据集包含使用飞行时间传感器和立体声设置采集的5个不同场景。还提供了地面实况信息。（Carlo Dal Mutto，Pietro Zanuttigh，Guido M. Cortelazzo）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
任务 - 超过450万个真实图像，每个图像具有25个语义，2D和3D任务的基础事实。（Zamir，Sax，Shen，Guibas，Malik，Savarese）
顶空数据集 - 顶空数据集是一组完整人体头部的3D图像，由1519名穿着紧身乳胶帽的受试者组成，以减少发型的影响。（Christian Duncan，Rachel Armstrong，Alder Hey Craniofacial Unit，英国利物浦）
约克3D耳朵数据集 - 约克3D耳朵数据集是一组500个3D耳朵图像，由详细的2D标记合成，并以Matlab格式（.mat）和PLY格式（.ply）提供。（Nick Pears，Hang Dai，Will Smith，约克大学）
THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是一个用于RGBD视频中动作识别的大型数据集，带有像素杠杆手部注释。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）
TUM RGB-D基准测试 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（Jorgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）
Uni Bremen Open，腹部手术RGB数据集 - 使用直接安装在患者上方的Kinect v2记录完整，开放式腹部手术，俯视患者和工作人员。（Joern Teuber，Gabriel Zachmann，不来梅大学）
USF范围图像数据库 - 400+激光测距仪和结构光照相机图像，其中许多具有地面真实分割（Adam等人）
华盛顿RGB-D对象数据集 - 300个常见的家庭用品和14个场景。（华盛顿大学和英特尔实验室西雅图）
Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）

十一、一般视频

AlignMNIST - MNIST手写数据集的人工扩展版本。（en Hauberg）
视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）
多模态语义自我中心视频（DoMSEV）的数据集 - 标记80小时的多模式语义自我中心视频（DoMSEV）数据集，涵盖广泛的活动，场景，记录器，照明和天气条件。（UFMG，Michel Silva，华盛顿Ramos，Jo ?? o Ferreira，Felipe Chamone，Mario Campos，Erickson R. Nascimento）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
GoPro-Gyro数据集 - 自我中心视频（林雪平计算机视觉实验室）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
大型YouTube视频数据集 - 从YouTube视频中抓取的156,823个视频（2,907,447个关键帧）（Yi Yang）
电影可记忆性数据集 - 令人难忘的电影剪辑和详细记忆的基本事实，从100部好莱坞式电影（Cohendet，Yadati，Duong和Demarty）中提取的660部短片摘录
MovieQA - 每台机器通过回答有关它们的问题来理解故事。15000多选QAs，400多部电影。（M。Tapaswi，Y。Zhu，R。Stiefelhagen，A。Torralba，R。Urtasun和S. Fidler）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）
近似重复的视频检索数据集 - 该数据库包含156,823个视频序列（2,907,447个关键帧），这些视频序列在2010年7月至2010年9月期间从YouTube中抓取。（Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，Richang Hong）
PHD2：个性化突出显示检测数据集 - PHD2是具有个性化突出显示信息的数据集，其允许在进行预测时训练使用关于用户的信息的突出显示检测模型。（Ana Garcia del Molino，Michael Gygli）
Sports-1M - 用于体育视频分类的数据集，包含487个课程和1.2M视频。（Andrej Karpathy和George Toderici以及Sanketh Shetty和Thomas Leung以及Rahul Sukthankar和Li Fei-Fei。）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
用于研究欧几里得升级的视频序列基于对相机的最小假设（Kenton McHenry）
视频堆叠数据集 - 用于智能手机上手持视频堆叠的虚拟三脚架（Erik Ringaby等）
YFCC100M视频 - YFCC100M视频子集的基准测试，包括视频，视频内容功能和最先进的视频内容引擎的API。（陆江）
YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）
YouTube-8M - 用于野外视频分类的数据集，包含8M视频和4800个类别的预先提取的帧级功能。（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）
YUP ++ /动态场景数据集 - 来自60个不同场景的20个室外场景类，每个都有60个彩色视频（每个5秒，480个像素宽，24-30个fps）。一半视频使用静态相机，一半使用移动相机（Feichtenhofer，Pinz，Wildes）

十二、手，手抓，手动和手势数据库

11k手 --1,1,076手图像（1600 x 1200像素）的190个主题，年龄介于18 - 75之间，具有元数据（身份，性别，年龄，肤色，手性，手，配件等）。（Mahmoud Afifi）
200亿-Jester - 密集标记的视频剪辑，显示人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势（Twenty Billion Neurons GmbH）
单深度图像三维关节手部姿态估计（Tang，Chang，Tejani，Kim，Yu）
人体操纵动作数据集 - 25个物体和6个动作的RGB-D（Alessandro Pieropan）
手势检测数据集（Javier Molina等）
A-STAR注释手深图像数据集及其性能评估 - 深度数据和数据手套数据，30个志愿者的29幅图像，中文数字计数和美国手语（徐和程）
博斯普鲁斯海峡手部几何数据库和手部静脉数据库（博阿齐奇大学）
DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
EgoGesture数据集 - 第一人称视图手势，包含83个课程，50个科目，6个场景，24161个RGB-D视频样本（Zhang，Cao，Cheng，Lu）
EgoHands - 一个拥有超过15,000个像素级分段指针的大型数据集，记录自人们以自我为中心的相机相互作用。（Sven Bambach）
EgoYouTubeHands数据集 - 以自我为中心的手部分割数据集由来自YouTube视频的1290个带注释的帧组成，这些帧是在无约束的真实世界设置中记录的。视频的环境，参与者数量和行动都有所不同。此数据集可用于研究无约束设置中的手部分割问题。（Aisha Urooj，A。Borji）
FORTH手部跟踪库（FORTH）
一般手：一般手部检测和姿势挑战 - 22个具有不同手势，活动和观点的序列（加州大学欧文分校）
掌握UNderstanding（GUN-71）数据集 - 使用71种细粒度抓取的分类法注释的12,000个对象操纵场景的第一人称RGB-D图像。（Rogez，Supancic和Ramanan）
手势和海洋剪影（Euripides GM Petrakis）
HandNet：由手部姿势的RealSense RGBD传感器捕获的手的铰接指针 214971的注释深度图像的注释深度图像。注释：每个像素类，6D指尖姿势，热图。火车：202198，测试：10000，验证：2773。记录在Technion的GIP Lab。
HandOverFace数据集 - 手部分割数据集由来自网络的300个带注释的框架组成，用于研究手部遮挡面问题。（Aisha Urooj，A。Borji）
IDIAP手姿势/手势数据集（Sebastien Marcel）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Leap Motion和Kinect设备获取的1400种不同手势（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Creative Senz3D相机采集的几种不同的静态手势。（A.Moono，L。Minto，P。Zanuttigh）
LISA CVRR-HANDS 3D - 由8名受试者作为汽车司机和乘客进行的19次手势（Ohn-Bar和Trivedi）
用于评估3D关节手部运动跟踪的MPI Dexter 1数据集 - Dexter 1：7个具有挑战性，慢速和快速手部运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）
MSR实时和强大的手部深度跟踪 - （Qian，Sun，Wei，Tang，Sun）
移动和网络摄像头手部图像数据库 - MOHI和WEHI - 200人，每个30张图像（Ahmad Hassanat）
NTU-Microsoft Kinect HandGesture数据集 - 这是手势的RGB-D数据集，10个主题x 10个手势x 10个变体。（周仁，袁俊松，孟晶晶，张正友）
NUIG_Palm1 - 使用消费者设备进行掌纹识别实验，在无约束条件下获取的掌纹图像数据库。（Adrian-Stefan Ungureanu）
NYU Hand Pose Dataset - 8252测试集和72757个训练集帧捕获的RGBD数据，具有真实的手势，3个视图（Tompson，Stein，Lecun，Perlin）
PRAXIS手势数据集 - 来自29个手势的RGB-D上身数据，64名志愿者，多次重复，许多志愿者有一些认知障碍（Farhood Negin，INRIA）
渲染手柄数据集 - 用于2D / 3D手势估计的合成数据集，具有RGB，深度，分割掩模和每手21个关键点（Christian Zimmermann和Thomas Brox）
Sahand动态手势数据库 - 该数据库包含11个动态手势，旨在向计算机传达鼠标和触摸屏的功能。（Behnam Maleki，Hossein Ebrahimnezhad）
谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（凌少）
UT Grasp数据集 - 4个主题掌握各种各样的掌握（Cai，Kitani，Sato）
耶鲁人类掌握数据集 - 27个小时的视频，带有来自两个管家和两个机械师（Bullock，Feix，Dollar）的标记抓取，对象和任务数据

十三、图像，视频和形状数据库检索

2D到3D可变形草图 - 可变形2D轮廓的集合，与同一类的可变形3D网格在点对应中; 提供了大约10个对象类，包括人类和动物。（拉纳，罗多拉）
杂波中的3D可变形对象 - 用于3D可变形物体杂波的数据集，具有跨越数百个场景并跨越多个类别（人类，动物）的逐点地面真实对应。（Cosmo，Rodola，Masci，Torsello，Bronstein）
ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）
布朗大学25/99/216形状数据库（Ben Kimia）
CIFAR-10 - 来自10个类的60K 32x32图像，带有512D GIST描述符（Alex Krizhevsky）
CLEF-IP 2011专利图像评估
DeepFashion - 大型时装数据库（刘紫薇，罗平，石秋，王小刚，王小鸥）
EMODB - picsearch图像搜索引擎中图像的缩略图以及picsearch情感关键字（Reiner Lenz等）
ETU10 Silhouette数据集 - 数据集包含720个10个对象的轮廓，每个对象有72个视图。（M.Akimaliev和MF Demirci）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fashion-MNIST - 类似MNIST的时尚产品数据库。（韩晓，Zalando Research）
鱼形数据库 - 它是一个鱼形数据库，具有100个2D点集形状。（阿德里安·彼得）
Flickr 30K - 图像，动作和字幕（Peter Young等）
Flickr15k - 基于草图的图像检索（SBIR）基准 - 包含33个对象类别的330个草图和15,024张照片的数据集，常用于评估基于草图的图像检索（SBIR）算法的基准数据集。（Hu和Collomosse，CVIU 2013）
动手动作（HIC）IJCV数据集 - 使用/ o 1对象跟踪1手或2手的数据（图像，模型，动作）。包括单视图RGB-D序列（1个主题，> 18个带注释的序列，4个对象，完整的RGB图像）和多视图RGB序列（1个主题，HD，8个视图，8个序列 - 1个带注释，2个对象）。（Dimitrios Tzionas，Luca Ballan，Abhilash Srikantha，Pablo Aponte，Marc Pollefeys，Juergen Gall）
IAPR TC-12图像基准（Michael Grubinger）
IAPR-TC12分段和注释图像基准（SAIAPR TC-12） Hugo Jair Escalante）
ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）
ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战
METU商标数据集 METU数据集由属于全球公司的900多个真实徽标组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）
McGill 3D Shape Benchmark（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
NIST SHREC - 2014年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC - 2013年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC 2010 - 非刚性3D模型的形状检索竞赛（美国国家标准与技术研究院）
NIST TREC视频检索评估数据库（美国国家标准与技术研究院）
NUS-WIDE - 带有81个概念标签的269K Flickr图像，包含为500D BoVW描述符（Chau等）
普林斯顿形状基准（普林斯顿形状检索和分析组）
PairedFrames - 评估3D姿势跟踪误差 - 合成和真实数据集，用于测试3D姿态跟踪/细化，姿势初始化接近/远离/来自最小值。建立难度越来越大的测试帧对，分别测量姿态估计误差，而不采用完整的跟踪流水线。（Dimitrios Tzionas，Juergen Gall）
昆士兰跨媒体数据集 - 用于“跨媒体”检索的数百万图像和文本文档（Yi Yang）
从RGB-D视频重建铰接式装配模型（RecArt-D） - 在操纵过程中变形的物体的数据集。包括4个RGB-D序列（RGB图像完整），每个对象的可变形跟踪结果，以及每个对象的3D网格和Ground-Truth 3D骨架。（Dimitrios Tzionas，Juergen Gall）
从手对象交互重建（R-HOI） - 一只手与未知对象交互的数据集。包括4个RGB-D序列，总共4个对象，RGB图像完整。包括对象的跟踪3D运动和Ground-Truth网格。（Dimitrios Tzionas，Juergen Gall）
重访牛津和巴黎（RevisitOP） - 着名的地标/建筑物检索数据集的改进且更具挑战性的版本（固定错误，新注释和评估协议，新查询图像）以及1M牵引器图像。（F. Radenovic，A。Iscen，G。Tolias，Y。Avrithis，O。Chum）
SHREC’16可变形部分形状匹配 - 大约400个3D可变形形状的集合，经历强烈的偏态变换，包括点对点地面真实对应。（Cosmo，Rodola，Bronstein，Torsello）
SHREC 2016 - 基于3D草图的3D形状检索 - 使用手绘3D草图查询数据集在通用3D模型数据集上评估不同基于3D草图的3D模型检索算法的性能的数据（Bo Li）
SHREC’17可变形部分形状检索 - 大约4000个可变形3D形状的集合，经历严重的偏态变换，形式为不规则缺失部分和距离数据; 提供了真实课程信息。（拉纳，罗多拉）
SHREC防水模型轨道（SHREC 2007） - 400个防水3D模型（Daniela Giorgi）
SHREC部分模型轨道（SHREC 2007） - 400个防水3D DB模型和30个减少的防水查询模型（Daniela Giorgi）
SBU Captions Dataset - 从Flickr（Ordonez，Kulkarni和Berg）收集的100万张图像的图像标题
草绘我的鞋子 - 在细粒度的设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。（Qian Yu，QMUL，T。Hospedales Edinburgh / QMUL）。
TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集。（谷歌公司）

十四、对象数据库

各种物体和场景的2.5D / 3D数据集（Ajmal Mian）
3D对象识别立体数据集此数据集由9个对象和80个测试图像组成。（Akash Kushal和Jean Ponce）
3D摄影数据集我们实验室捕获的十个多视图数据集（Yasutaka Furukawa和Jean Ponce）
3D打印RGB-D对象数据集 - 带有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器记录（Siemens＆TUM）
3DNet数据集 - 3DNet数据集是用于对象类识别和点云数据的6DOF姿态估计的免费资源。（John Folkesson等人）
对齐各种对象的2.5D / 3D数据集 - 从单个深度视图进行对象重建的合成和真实数据集。（Bo Yang，Stefano Rosa，Andrew Markham，Niki Trigoni，Hongkai Wen）
阿姆斯特丹物体图像库（ALOI）：1K物体的100K视图（阿姆斯特丹大学/智能感官信息系统）
具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）
ASU Office-Home数据集 - 用于域适应的日常对象的对象识别数据集（Venkateswara，Eusebio，Chakraborty，Panchanathan）
B3DO：伯克利三维物体数据集 - 家庭物体检测（Janoch等）
Bristol Egocentric Object Interactions数据集 - 与同步凝视相关的自我中心对象（Dima Damen）
CORE图像数据集 - 帮助学习更详细的模型，并探索对象识别中的跨类别泛化。（Ali Farhadi，Ian Endres，Derek Hoiem和David A. Forsyth）
CTU颜色和深度图像数据集的传播服装 - 带有注释角落的传播服装的图像。（Wagner，L.，Krejov D.和Smutn V.（布拉格捷克技术大学））
Caltech 101（现256）类别物体识别数据库（李飞飞，Marco Andreeto，Marc’Aurelio Ranzato）
卡塔尼亚鱼类物种识别 - 15种鱼类，约20,000个样本训练图像和其他测试图像（Concetto Spampinato）
COCO-Stuff数据集 - 标有“东西”和“东西”的164K图像（Caesar，Uijlings，Ferrari）
哥伦比亚COIL-100 3D对象多视图（哥伦比亚大学）
更深入，更广泛和更艺术的领域泛化 - 领域泛化任务数据集。（Da Li，QMUL）
密集采样的对象视图：2个对象的2500个视图，例如用于基于视图的识别和建模（Gabriele Peters，Universiteit Dortmund）
爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
EDUB-Obj - 用于对象定位和分割的以自我为中心的数据集。（MarcBolaños和Petia Radeva。）
椭圆查找数据集（Dilip K. Prasad等）
FIN-Benthic - 这是一个用于底栖大型无脊椎动物自动细粒度分类的数据集。共有来自64个类别的15074张图片。每个类别的图像数量从577到7不等。（Jenni Raitoharju，Ekaterina Riabchenko，Iftikhar Ahmad，Alexandros Iosifidis，Moncef Gabbouj，Serkan Kiranyaz，Ville Tirronen，Johanna Arje）
GERMS - 我们用于GERMS数据收集的对象集由136个不同微生物的填充玩具组成。玩具分为7个较小的类别，通过玩具微生物的语义划分形成。将对象划分为较小类别的动机是提供具有不同难度的基准。（Malmir M，Sikka K，Forster D，Movellan JR，Cottrell G.）
GDXray：用于X射线测试和计算机视觉的X射线图像 - GDXray包括五组图像：铸件，焊接*，行李，性质和设置。（智利天主教大学Domingo Mery）
GMU Kitchens Dataset - 来自9个不同厨房的BigBird数据集的11种常见家用产品的实例级注释（George Mason University）
抓住野外 - 自然日常生活对象的以自我为中心的视频数据集。7个厨房中的16个物体。（Benois-Pineau，Larrousse，de Rugy）
GRAZ-02数据库（自行车，汽车，人）（A。Pinz）
GREYC 3D - GREYC 3D彩色网格数据库是一组15个真实物体，具有使用3D彩色激光扫描仪采集的不同颜色，几何形状和纹理。（Anass Nouri，Christophe Charrier，Olivier Lezoray）
GTSDB：德国交通标志检测基准（Ruhr-Universitat Bochum）
ICubWorld - iCubWorld数据集是通过iCub类人机器人的摄像机记录获取的图像集合，同时观察日常物体。（Giulia Pasquale，Carlo Ciliberto，Giorgio Metta，Lorenzo Natale，Francesca Odone和Lorenzo Rosasco。）
工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）
Instagram Food Dataset - 一个包含800,000个食物图像和相关元数据的数据库，在6周内发布到Instagram上。支持食物类型识别和社交网络分析。（T. Hospedales。爱丁堡/ QMUL）
Keypoint-5数据集 - 五种家具及其2D关键点标签的数据集（Jiajun Wu，Tianfan Xue，Joseph Lim，Yuandong Tian，Josh Tenenbaum，Antonio Torralba，Bill Freeman）
KTH-3D-TOTAL - RGB-D数据，桌面上的对象带注释。20个书桌，每天3次，超过19天。（John Folkesson等人）
LISA红绿灯数据集 - 在各种照明条件下的6种轻型课程（Jensen，Philipsen，Mogelmose，Moeslund和Trivedi）
LISA交通标志数据集 - 在6610帧（Mogelmose，Trivedi和Moeslund）上有47种美国标志类型和7855个注释的视频
Linkoping 3D物体姿态估算数据库（Fredrik Viksten和Per-Erik Forssen）
Linkoping交通标志数据集 - 20K图像中的3488个交通标志（Larsson和Felsberg）
Longterm Labeled - 此数据集包含来自长期数据集（上面的长期数据集）的观察的子集。（John Folkesson等人）
主要产品检测数据集 - 包含时尚产品及其图像的文本元数据，包含主要产品的边界框（文本引用的边框）。（A. Rubio，L。Yu，E。Simo-Serra和F. Moreno-Noguer）
MCIndoor20000 - 来自三种不同室内物体类别的20,000个数字图像：门，楼梯和医院标志。（Bashiri，LaRose，Peissig和Tafti）
Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）
麻省理工学院CBCL汽车数据（生物和计算学习中心）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
Microsoft COCO - 语境中的常见对象（Tsung-Yi Lin等）
Microsoft Object Class Recognition图像数据库（Antonio Criminisi，Pushmeet Kohli，Tom Minka，Carsten Rother，Toby Sharp，Jamie Shotton，John Winn）
Microsoft显着对象数据库（用边框标注）（刘，孙铮，唐，沉）
移动Labled - 此数据集扩展了长期数据集，在KTH的同一办公环境中有更多位置。（John Folkesson等人）
NABirds数据集 - 在北美常见的400种鸟类的70,000张注释照片（Grant Van Horn）
NEC玩具动物对象识别或分类数据库（Hossein Mobahi）
NORB 50玩具图像数据库（NYU）
NTU-VOI：NTU视频对象实例数据集 - 具有对象实例的帧级边界框注释的视频剪辑，用于评估大型视频中的对象实例搜索和本地化。（Jingjing Meng，et al。）
物体姿态估算数据库 - 该数据库包含16个物体，每个物体沿两个旋转轴以5度角增量采样（F. Viksten等）
物体识别数据库该数据库包含八个物体的建模镜头和包含多个物体的51个杂乱的测试镜头。（Fred Rothganger，Svetlana Lazebnik，Cordelia Schmid和Jean Ponce。）
打开图像数据集V4 15,440,132个盒子，600个类别，30,113,078个图像级别标签，19,794个类别。（法拉利，杜里格，戈麦斯）
开放式博物馆识别挑战（开放式MIC）开放式MIC包含在几个博物馆的10个不同展览空间（绘画，雕塑，珠宝等）中捕获的展品照片以及适应领域和少数学习问题的协议。（P. Koniusz，Y。Tas，H。Zhang，M。Harandi，F。Porikli，R。Zhang）
Osnabrück合成可伸缩立方体数据集 - 从12个不同观点捕获的830000个不同立方体用于ANN训练（Schöning，Behrens，Faion，Kheiri，Heidemann和Krumnack）
普林斯顿模型网 - 127,915个CAD模型，662个对象类别，10个带注释方向的类别（吴，宋，科斯拉，俞，张，唐，萧）
PacMan数据集 - 可抓取的炊具和陶器的RGB和3D合成和真实数据（Jeremy Wyatt）
PACS（Photo Art Cartoon Sketch） - 用于测试域概括的对象类别识别数据集数据集：在一个域中训练对象图像的分类器能够识别另一个域中的对象吗？（Da Li QMUL，T。Hospedales。爱丁堡/ QMUL）
PASCAL 2007 Challange图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL 2008 Challange图像数据库（PASCAL联盟）
PASCAL 2009 Challange图像数据库（PASCAL联盟）
PASCAL 2010 Challange图像数据库（PASCAL联盟）
PASCAL 2011 Challange图像数据库（PASCAL联盟）
PASCAL 2012 Challange图像数据库类别分类，检测和分割，以及静止图像动作分类（PASCAL Consortium）
PASCAL图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL零件数据集 - PASCAL VOC，带有对象语义部分的分段注释（Alan Yuille）
PASCAL-Context数据集 - 另外400多个类别的注释（Alan Yuille）
PASCAL 3D /超越PASCAL：野外3D物体检测的基准 - 12类，3000多张图像，每张都带有3D注释（Yu Xiang，Roozbeh Mottaghi，Silvio Savarese）
物理101数据集 - 五种不同场景下101个物体的视频数据集（Jiajun Wu，Joseph Lim，Hongyi Zhang，Josh Tenenbaum，Bill Freeman）
植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）
雨滴检测 - 使用具有场景上下文隔离的组合形状和显着性描述符改进雨滴检测 - 评估数据集（Breckon，Toby P.，Webster，Dereck D.）
ReferIt数据集（IAPRTC-12和MS-COCO） - 来自IAPRTC-12和MS-COCO数据集（Kazemzadeh，Matten，Ordonez和Berg）的图像中对象的引用表达式
ShapeNet - 55种常见对象类别的3D模型，具有约51K独特的3D模型。此外12K型号超过270个类别。（普林斯顿，斯坦福和TTIC）
SHORT-100数据集 - 在典型购物清单中找到的100类产品。它旨在对用于识别手持对象的算法性能进行基准测试，这些手持对象来自使用手持或可穿戴相机获取的快照或视频。（Jose Rivera-Rubio，Saad Idrees，Anil A. Bharath）
SOR3D - SOR3D数据集包含超过20k个人 - 对象交互实例，14个对象类型和13个对象可供性。（pyridon Thermos）
斯坦福犬数据集 - 斯坦福犬数据集包含来自世界各地的120种犬种的图像。该数据集是使用ImageNet中的图像和注释构建的，用于细粒度图像分类的任务。（Aditya Khosla，Nityananda Jayadevaprakash，Bangpeng Yao，Li Fei-fei，斯坦福大学）
SVHN：Street View House Numbers数据集 - 就像MNIST一样，但是标记数据的数量超过了一个数量级（超过600,000个数字图像），并且来自一个更加困难，未解决的现实世界问题（识别自然场景图像中的数字和数字）。（Netzer，Wang，Coates，Bissacco，Wu，Ng）
瑞典叶数据集 - 这些图像包含15个树类的叶子（Oskar JO S？derkvist）
T-LESS - 用于6D姿势估计无纹理对象的RGB-D数据集。（Tomas Hodan，Pavel Haluza，Stepan Obdrzalek，Jiri Matas，Manolis Lourakis，Xenophon Zabulis）
淘宝商品数据集 - TCD包含800个商品图片（礼服，牛仔裤，T恤，鞋子和帽子），用于从淘宝网站上的商店进行图像显着对象检测。（Keze Wang，Keyang Shi，Liang Lin，Chenglong Li）
Laval 6 DOF对象跟踪数据集 - 具有11个对象的297个RGB-D序列的数据集，用于6个DOF对象跟踪。（Mathieu Garon，Denis Laurendeau，Jean-Francois Lalonde）
ToolArtec点云 - 来自Artec EVA扫描仪的50个厨房工具3D扫描（帘布层）。另请参阅ToolKinect - 使用Kinect 2和ToolWeb进行 13次扫描- 116点合成家用工具云，具有5个任务的质量和可供性基础。（Paulo Abelha）
TUW对象实例识别数据集 - 从各种视点观察到的杂乱室内场景的对象实例及其6DoF姿势的注释，表示为Kinect RGB-D点云（Thomas，A。Aldoma，M。Zillich，M。Vincze）
TUW数据集 - 来自TUW的几个RGB-D地面实况和注释数据集。（John Folkesson等人）
UAH交通标志数据集（阿罗约等）
UIUC汽车图像数据库（UIUC）
UIUC 3D对象类别数据集（S. Savarese和L. Fei-Fei）
VAIS - VAIS同时包含从码头获得的船舶的未注册的热量和可见图像，它是为了促进自主船舶开发而创建的。（Mabel Zhang，Jean Choi，Michael Wolf，Kostas Daniilidis，Christopher Kanan）
Venezia 3D杂波识别与分割（Emanuele Rodola）
视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。
Visual Hull数据设置视觉船体数据集的集合（Svetlana Lazebnik，Yasutaka Furukawa和Jean Ponce）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十五、人（静态和动态），人体姿势

3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）
BUFF数据集 - 大约10K扫描衣服的人和下面人的估计身体形状。扫描包含纹理，因此很容易生成合成视频/图像。（Zhang，Pujades，Black和Pons-Moll）
动态Dyna - 超过40K 4D 60fps高分辨率扫描和模型的人非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Pons-Moll，Romero，Mahmood和Black）
动态浮士德 - 超过40K 4D 60fps高分辨率扫描人员非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。（Bogo，Romero，Pons-Moll和Black）
扩展的Chictopia数据集 - 14K图像具有附加处理注释（面部）和SMPL身体模型的Chictopia数据集适合图像。（Lassner，Pons-Moll和Gehler）
电影中标记的帧（FLIC） - 标有人体姿势的20928帧（Sapp，Taskar）
KIDS数据集 - 由30个高分辨率3D形状组成的集合，经历近乎等长和非等长的变形，具有点对点的地面实况以及从左到右的双边对称的基础事实。（Rodola，Rota Bulo，Windheuser，Vestner，Cremers）
Kinect2人体姿势数据集（K2HPD） - Kinect2人体姿势数据集（K2HPD）包括在具有挑战性的情况下具有各种人体姿势的约100K深度图像。（Keze Wang，Liang Lin，Shengfu Zhai，Dengke Dong）
利兹体育姿势数据集 - 2000年构成了大多数体育人士的注释图像（约翰逊，Everingham）
查看Person数据集 - 50,000个图像，带有精心设计的像素注释，带有19个语义人体部分标签和带有16个关键点的2D hposes。（龚，梁，张，沉，林）
通过RGB网络摄像头的人体模型床内姿势数据集 - 这种床内姿势数据集通过东北大学模拟医院室内的常规网络摄像头收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
Mannequin IRS床内数据集 - 这种床内姿势数据集通过我们的红外选择（IRS）系统在东北大学的模拟医院室收集。（Shuangjun Liu和Sarah Ostadabbas，ACLab）
MoPoTS-3D - 基于单眼RGB方法的多人3D身体姿势基准，在室内和室外设置中有20个序列（MPI For Informatics）
MPI-INF-3DHP - 单人3D身体姿势数据集和评估基准，在广泛的活动范围内具有广泛的姿势覆盖范围，以及广泛的外观增强范围。多视图RGB帧可用于训练集，而单眼视图帧可用于测试集。（信息学MPI）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括11个受试者的39个4D序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
MPII人体姿势数据集 - 25K图像，包含超过40,000人注释的身体关节，410人类活动{Andriluka，Pishchulin，Gehler，Schiele）
MPII人体姿势数据集 - MPII人体姿势数据集是用于评估关节人体姿势估计的事实上的标准基准。（Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，Bernt Schiele）
MuCo-3DHP - 从MPI-INF-3DHP数据集（MPI for Informatics）生成的具有3D姿势注释的合成多人RGB图像的大规模数据集
相册中的人物 - 社交媒体照片数据集，包含来自Flickr的图像，以及人头及其身份的手动注释。（张宁和Manohar Paluri以及Yaniv Taigman，Rob Fergus和Lubomir Bourdev）
人物快照数据集 - 24个主体在固定摄像机前旋转的单目视频。提供了分割和2D关节位置形式的注释。（Alldieck，Magnor，Xu，Theobalt，Pons-Moll）
个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
指向’04 ICPR工作室头部姿势图像数据库
姿态估计 - 此数据集共有155,530个图像。这些图像是通过4次会议记录CIDIS成员获得的。总共获得10个视频，每个视频持续时间为4分钟。要求参与者携带不同的衣服，以使图像变得多样化。在此之后，视频的帧以每秒5帧的速率分离。所有这些图像都是从顶视图中捕获的。原始图像的分辨率为1280x720像素。（CIDIS）
SHREC’16拓扑KIDS - 由40个高分辨率和低分辨率3D形状组成的集合，除了强大的拓扑伪影，自触点和网格粘合外，还具有近点等长的变形，具有点对点的地面真实性。（拉纳，罗多拉）
SURREAL - 在形状，纹理，视点和姿势方面有很大差异的人们的60,000个合成视频。（Varol，Romero，Martin，Mahmood，Black，Laptev，Schmid）
TNT 15数据集 - 由四个佩戴在四肢的10个惯性传感器（IMU）同步的几个视频序列。（von Marcard，Pons-Moll和Rosenhahn）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）
United People（UP）数据集 - 具有关键点和前景分割注释的~8,000个图像以及3D身体模型拟合。（Lassner，Romero，Kiefel，Bogo，Black，Gehler）
VGG人体姿势估计数据集，包括BBC Pose（20个带有重叠手语翻译的视频），扩展BBC姿势（72个额外的培训视频），短BBC姿势（5个带有手语签名者的视频）和ChaLearn Pose（23小时） Kinect数据显示27个人表演20个意大利手势）。（Charles，Everingham，Pfister，Magee，Hogg，Simonyan，Zisserman）
VRLF：视觉唇读可行性 - 用西班牙语录制的24个扬声器的视听语料库（Fernandez-Lopez，Martinez和Sukno）

十六、人员检测和跟踪数据库

3D KINECT性别步行数据库（L. Igual，A。Lapedriza，R。Borr＆agrave; s来自UB，CVC和UOC，西班牙）
AGORASET：人群视频分析数据集（Nicolas Courty等）
[CASIA步态数据库](http://www.cbsr.ia.ac.cn/english/Gait Databases.asp)（中国科学院）
具有跟踪和行为基础事实的CAVIAR项目视频序列（CAVIAR团队/爱丁堡大学 - EC项目IST-2001-37540）
CMU Panoptic Studio数据集 - 由500多个同步摄像机捕获的多人社交互动数据集，具有3D全身骨架和校准数据。（H. Joo，T。Simon，Y。Sheikh）
CUHK Crowd Dataset - 来自215个拥挤场景的474个视频片段（Shao，Loy和Wang）
CUHK01数据集：人员重新识别数据集，包含3,884个 972名行人图像（Rui Zhao等）
CUHK02数据集：人员重新识别具有五个摄像机视图设置的数据集。（Rui Zhao等）
CUHK03数据集：人员重新识别数据集，包含1,316名行人的13,164张图像（Rui Zhao等）
加州理工学院行人数据集（P. Dollar，C。Wojek，B。Schiele和P. Perona）
戴姆勒行人检测基准 21790图像与56492行人加空场景。（DM Gavrila等）
用于Fusion的数据集（颜色和红外线）在不同环境条件下从并行双摄像头设置捕获的彩色和红外系列图像。（Juan Serrano-Cuerda，Antonio Fernandez-Caballero，Maria T. Lopez）
驾驶员监控视频数据集（RobeSafe + Jesus Nuevo-Chiquero）
DukeMTMC：Duke多目标多镜头跟踪数据集 - 8个摄像头，85分钟，2米镜头，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
爱丁堡头顶摄像机人跟踪数据集（Bob Fisher，Bashia Majecka，Gurkirt Singh，Rowland Sillito）
GVVPerfcapEva - 人体形状和性能捕获数据的存储库，包括全身骨骼，手部跟踪，体形，面部表现，交互（Christian Theobalt）
拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）
Immediacy Dataset - 此数据集专为估计个人关系而设计。（肖楚等人）
INRIA穿着运动基准人体 -基准包含不同的主体，运动，和服装样式，允许定量地测量身体形状估计（金龙羊，让- Sbastien佛朗哥，弗兰克H = E9troy轮车的精度三维运动序列，和Stefanie Wuhrer）
INRIA人数据集（Navneet Dalal）
IU ShareView - IU ShareView数据集由九组同步（两个第一人称）视频组成，共有1,227个像素级地面真实分割图，共2,654个带注释的人物实例。（徐明泽，范晨佑，王雨辰，Michael S. Ryoo，David J. Crandall）
Izmir - 用于人体和汽车检测的全方位和全景图像数据集（带注释）（Yalin Bastanlar）
自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
MAHNOB：MHI-Mimicry数据库 - 一个2人，多摄像头和麦克风数据库，用于研究人与人交互场景中的模仿。（Sun，Lichtenauer，Valstar，Nijholt和Pantic）
麻省理工学院CBCL行人数据（生物和计算学习中心）
MPI DYNA - 动态人体动态模型（Max Planck Tubingen）
MPI FAUST Dataset一个包含300个真实，高分辨率人体扫描的数据集，具有自动计算的地面实况对应关系（Max Planck Tubingen）
MPI JHMDB数据集 - 联合注释的人体运动数据库 - 21个动作，928个剪辑，33183帧（Jhuang，Gall，Zuffi，Schmid和Black）
MPI MOSH标记的运动和形状捕获。MOCAP数据，3D形状网格，3D高分辨率扫描。（Max Planck Tubingen）
MVHAUS-PI - 多视图人类交互识别数据集（Saeid等）
市场 -1501 数据集 - 32,668个带有1,501个身份的边界框，最多6个摄像头（梁正等）
摩德纳和雷焦艾米利亚第一人称头像运动视频（摩德纳大学和雷焦艾米利亚大学）
日常生活的多式联运活动 - 包括视频，音频，生理，睡眠，运动和插头传感器。（Alexia Briasouli）
多目标跟踪基准 - 具有基本事实的数据集的集合，以及性能排行表（ETHZ，U。Adelaide，TU Darmstadt）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
纽约大学多目标跟踪基准（Konrad Schindler等）
封闭的关节人体数据集 - 遮挡下的身体姿势提取和跟踪，总共有3个RGB-D序列（3500帧），具有一个，两个和三个用户，基于标记的地面实况数据。（Markos Sigalas，Maria Pateraki，Panos Trahanias）
OxUva - 一个大型长期跟踪数据集，由总共约14小时的366个长视频组成，具有单独的开发（公共注释）和测试集（隐藏注释），具有目标对象消失和连续属性。（Jack Valmadre，Luca Bertinetto，Joao F. Henriques，Ran Tao，Andrea Vedaldi，Arnold Smeulders，Philip Torr，Efstratios Gavves）
OU-ISIR步态数据库 - 六个基于视频的步态数据集，两个基于惯性传感器的步态数据集，以及一个步态相关的生物识别分数数据集。（Yasushi Makihara）
PARSE数据集附加数据 - 面部表情，注视方向和性别（Antol，Zitnick，Parikh）
PARSE数据集的铰接体 - 300张人类和马匹图像（Ramanan）
PathTrack数据集：大型MOT数据集 - PathTrack是720个序列中超过15,000个人轨迹的大规模多目标跟踪数据集。（Santiago Manen，Michael Gygli，戴登新，Luc Van Gool）
PDbm：人员检测基准库 - 现实序列，手动注释人检测基础事实和完整的评估框架（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PDds：人员检测数据集 - 几个不同复杂程度的注释监控序列（Garc ?? a-Mart ?? n，Mart ?? nez，Besc ?? s）
PETS 2009 Crowd Challange数据集（Reading University和James Ferryman）
PETS Winter 2009研讨会数据（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆James Ferryman）
PETS：2015年跟踪和监督绩效评估（Reading University＆Luis Patino）
PETS 2016数据集 - 多摄像机（包括热像仪）在静止车辆和船周围的人类行为视频记录（Thomas Cane）
PIROPO - 带有透视和全向摄像头的室内人群，拥有超过100,000个带注释的框架（GTI-UPM，西班牙）
人物艺术 - 一个包含照片和艺术品标签的数据库（齐武和蔡洪平）
Photo-Art-50 - 一个包含照片和艺术品的50个对象类的数据库（Qi Wu和Hongping Cai）
基于像素的变化检测基准数据集（Goyette等）
岌岌可危的数据集 - 不寻常的人物检测数据集（黄）
RAiD - 室内 - 室外数据集重新识别：43人，4台摄像机，6920张图像（Abir Das等）
RPIfield - 包含带有时间戳的4108个人图像的人员重新识别数据集。（孟铮，Srikrishna Karanam，Richard J. Radke）
新加坡海事数据集 - 可见范围视频和红外视频。（Dilip K. Prasad）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
Shinpuhkan 2014 - 人物重新识别数据集，包含由16个摄像机捕获的24个人的22,000张图像。（Yasutomo Kawanishi等人）
斯坦福结构化组发现数据集 - 发现图像中的人群（W. Choi等）
TrackingNet - 用于在野外跟踪的大规模数据集：超过30k个用于训练的注释序列，500多个用于测试的评估序列，评估服务器和用于公平排名的排行榜。（Matthias Muller，Adel Bibi，Silvio Giancola，Salman Al-Subaihi和Bernard Ghanem）
瞬态生物识别指甲数据集V01（Igor Barros Barbosa）
Temple Color 128 - 颜色跟踪基准 - 编码视觉跟踪的颜色信息（P. Liang，E。Blasch，H。Ling）
来自音频，图像和深度（GAID）数据库的TUM Gait - 包含305个主题的跟踪RGB视频，跟踪深度视频和音频（Babaee，Hofmann，Geiger，Bachmann，Schuller，Rigoll）
TVPR（顶视图人员重新识别）数据集 - 在顶视图配置中使用RGB-D摄像机进行人员重新识别：室内23次，100人，8天（Liciotti，Paolanti，Frontoni，Mancini和Zingaretti）
加州大学洛杉矶分校空中事件数据集 - 航空视频中的人类活动，包括人物，物体，社会团体，活动和角色的注释（Shu，Xie，Rothrock，Todorovic和Zhu）
佛罗里达中部大学 - 人群数据集（Saad Ali）
佛罗里达中部大学 - 人群流分段数据集（Saad Ali）
VIPeR：观点不变行人识别 - 在不同光照条件下从任意视点拍摄的632个行人图像对。（Gray，Brennan和Tao）
视觉对象跟踪挑战数据集 - VOT数据集是在单目标短期视觉对象跟踪挑战中使用的完全注释的可视对象跟踪数据集的集合。（VOT委员会）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）
WUds：轮椅使用者数据集 - 轮椅使用者检测数据，扩展人员检测，提供更通用的解决方案，以检测独立和辅助生活，医院，医疗中心和高级住宅等环境中的人（Mart ?? n-Nieto，Garc？？a-Mart ?? n，Mart ?? nez）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

十七、遥感

用于屋顶分割的空中图像（AIRS） - 457平方公里的正射校正航空影像覆盖范围，超过220,000个建筑物用于屋顶分割。（王磊，陈琦）
巴西Cerrado-Savanna场景数据集 - 由RapidEye传感器拍摄的IR-RG场景的组成，用于巴西Cerrado-Savanna的植被分类。（K. Nogueira，JA dos Santos，T。Fornazari，TS Freire，LP Morellato，R。da S. Torres）
巴西咖啡场景数据集 - 由SPOT传感器拍摄的IR-RG场景的组成，用于识别巴西山区的咖啡作物。（OAB Penatti，K。Nogueira，JA dos Santos。）
建筑物检测基准 -14从IKONOS（1米）和QuickBird（60厘米）（Ali Ozgun Ok和Caglar Senaras）获得的图像
CBERS-2B，Landsat 5 TM，Geoeye，Ikonos-2 MS和ALOS-PALSAR - 使用光学图像进行土地覆盖分类（D.Osaku等人）
数据融合竞赛2015（Zeebruges） - 该数据集在Zeebruges市（比利时）的港口上提供RGB天线数据集（5cm）和激光雷达点云（65pts / m2）。它还提供了一个源自点云的DSM和七个10000 x 10000像素图块中五个的语义分割基础事实。评估服务器用于评估其他两个磁贴上的结果。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
2017年数据融合竞赛 - 该数据集为全球九个城市提供卫星（Landsat，Sentinel 2）和矢量GIS层（例如建筑物和道路足迹）。任务是根据不同分辨率和特征类型的数据，预测在100米预测网格中对气候模型有用的土地利用类别。5个城市带有标签，其他4个城市被隐藏起来，用于评估服务器上的评分。（图像分析和数据融合技术委员会，IEEE地球科学，遥感学会）
deepGlobe挑战 - 该数据集包括三个挑战，道路提取，建筑物检测和土地覆盖的语义分割。提供了来自Digital Globe（RGB，50 cm分辨率）的一系列卫星图像以及全球多个国家/地区的标签。结果在2018年CVPR的DeepGlobe研讨会上公布。（Facebook，Digital Globe）
DeepGlobe卫星图像了解挑战 - 卫星图像上三个深度学习任务的数据集和评估平台：道路提取，建筑物检测和土地类型分类。（Demir，Ilke和Koperski，Krzysztof和Lindenbaum，David和Pang，Guan和Huang，Jing和Basu，Saikat和Hughes，Forest和Tuia，Devis和Raskar，Ramesh）
FORTH多光谱成像（MSI）数据集 - 用于多光谱成像（MSI）的5个数据集，附有地面实况数据（Polykarpos Karamaoynas）
Furnas和Tiete - 沉积物产量分类（Pisani等）
ISPRS 2D语义标记 - 在德国波茨坦市（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）准备了地面采样距离为5cm的高度模型和真正的正射影像。
ISPRS 3D语义标记 - 九级机载激光扫描数据（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）
Inria航空影像标签数据集 - 美国和奥地利城市的9000平方公里彩色航空影像。（Emmanuel Maggiori，Yuliya Tarabalka，Guillaume Charpiat，Pierre Alliez。）
兰伯特的频谱图分析 - 从时间序列数据得到的无源声纳频谱图像，这些频谱图是从水下海洋记录中螺旋桨和发动机机械辐射的声能记录产生的。（托马斯兰伯特）
Linkoping Thermal InfraRed数据集 - LTIR数据集是用于评估短期单目标（STSO）跟踪的热红外数据集（林雪平大学）
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
MUUFL格尔夫波特高光谱和激光雷达数据集 - 在南密西西比海湾公园校园内共同登记的航空高光谱和激光雷达数据包含几个亚像素目标。（Gader，Zare，Close，Aitken，Tuell）
NWPU-RESISC45 - 用于遥感图像场景分类的大型基准数据集，包含由45个场景类别覆盖的31500个图像。（龚成，韩俊伟，陆小强）
RIT-18 - 用于语义分割的高分辨率多光谱数据集。（Ronald Kemker，Carl Salvaggio，Christopher Kanan）
语义无人机数据集 - 从地面5至30米处获得最低点（鸟瞰）视图的20个房屋。400x公共和200个私人高分辨率图像6000x4000px（24Mpx）。
UC Merced Land使用数据集 21级土地利用图像数据集，每类100幅图像，主要是城市，256x256分辨率，1英尺像素（Yang和Newsam）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
苏黎世夏季数据集 - t用于城市场景的高分辨率卫星图像的语义分割，具有不完整的基本事实（Michele Volpi和Vitto Ferrari。）
苏黎世城市微型飞行器数据集 - 苏黎世2公里的时间同步航空高分辨率图像，以及相关的其他数据（Majdik，Till，Scaramuzza）

十八、机器人

爱丁堡厨房用具数据库 - 8种原始和二进制图像的20类厨房用具，培训未来的家庭援助机器人（D. Fullerton，A。Goel，RB Fisher）
通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
JTL Stereo为机器人追踪数据集 - 11个不同的室内和室外场所，用于机器人跟踪人员在具有挑战性的情况下的任务（Chen，Sahdev，Tsotsos）
元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
机器人3D扫描库 - 来自场景机器人实验的3D点云（Osnabruck和Jacobs大学）
使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）
事件相机数据集 - 这是世界上第一个带有基于事件的高速机器人相机数据集的集合（E. Mueggler，H。Rebecq，G。Gallego，T。Delbruck，D。Scaramuzza）
ViDRILO - ViDRILO是一个数据集，包含5个带注释的RGB-D图像序列，这些图像是在具有挑战性的光照条件下在两座办公楼中用移动机器人获取的。（Miguel Cazorla，J。Martinez-Gomez，M。Cazorla，I。Garcia-Varea和V莫雷尔。）
Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）

十九、场景或场所，场景分割或分类

巴塞罗那 - 15,150张图片，巴塞罗那（Tighe和Lazebnik）的城市景观
跨模式地标识别基准 - 在不同天气条件下采取的Dandmark识别基准，包括在几种天气条件下拍摄的17幅地标图像，例如晴天，阴天，雪和日落。（延世大学）
CMU可视化本地化数据集 - 使用配备有IMU，GPS，INS，激光雷达和摄像机的Navlab 11在一年内收集的数据集。（Hernan Badino，Daniel Huber和Takeo Kanade）
冷（舒适的本地化数据库） - 放置本地化（Ullah，Pronobis，Caputo，Luo和Jensfelt）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
EDUB-Seg - 用于事件分割的以自我为中心的数据集。（Mariella Dimiccoli，MarcBolaños，Estefania Talavera，Maedeh Aghaei，Stavri G. Nikolov和Petia Radeva。）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）
十五个场景类别 - 十五个自然场景类别的数据集。（李飞飞和奥德奥利瓦）
FIGRIM（细粒度图像可记忆性数据集） - 来自SUN数据库的图像子集，用于人类记忆实验，并提供记忆性分数。（Bylinskii，Isola，Bainbridge，Torralba，Oliva）
几何上下文 - 场景解释图像（Derek Hoiem）
HyKo：用于场景理解的光谱数据集 - 使用紧凑，低成本的快照马赛克（SSM）成像相机拍摄HyKo数据集，该相机能够捕获从移动车辆记录的一次拍摄中的整个光谱立方体，从而实现高光谱场景分析用于道路场景的理解。（科布伦茨 - 兰道大学Active Vision Group）
用于移动机器人本地化的室内场所识别数据集 - 该数据集包含由2个不同机器人（virtualMe和先驱者）构建的17个不同位置（Raghavender Sahdev，John K. Tsotsos。）
室内场景识别 - 67个室内类别，15620个图像（Quattoni和Torralba）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
LM + SUN - 45,676张图片，主要是城市或人类相关的场景（Tighe和Lazebnik）
可见光和红外光谱中的海事图像 - VAIS同时包含从码头（Zhang，Choi，Daniilidis，Wolf和Kanan）获得的船舶的未注册热图像和可见图像
MASATI：MAritime SATellite图像数据集 - MASATI是一个由光学航空图像组成的数据集，其中6212个样本是从Microsoft Bing Maps获得的。它们被标记并分为7类海洋场景：陆地，海岸，海洋，海岸船舶，海船，海洋与多船，海船详细。（阿利坎特大学）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
MIT内在图像 - 20个物体（Roger Grosse，Micah K. Johnson，Edward H. Adelson和William T. Freeman）
NYU V2混合曼哈顿框架数据集 - 我们在Silberman等人的完整纽约深度数据集V2上提供曼哈顿框架（MMF）分割和MF旋转的混合。（Straub，Julian和Rosman，Guy和Freifeld，Oren和Leonard，John J.和Fisher III，John W.）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
牛津视听分段数据集 - 牛津视听分段数据集与牛津视听分段数据集，包括被击中物体的录音（Arnab，Sapienza，Golodetz，Miksik和Torr）
Thermal Road Dataset - 我们的热路数据集提供了大约6000个在道路场景中捕获的热红外图像，并带有手动注释的地面实况。（3500：一般道路，1500：复杂道路，1000：越野道路）。（Jae Shin Yoon）
场景2场景识别数据库 -365场景类别和800万图像（周，Khosla，Lapedriza，Torralba和Oliva）
场景识别数据库 - 205个场景类别和250万个图像（Zhou，Lapedriza，Xiao，Torralba和Oliva）
RGB-NIR场景数据集 - 以RGB和近红外（NIR）（棕色和Susstrunk）捕获的9个类别中的477个图像
RMS2017 - 重建符合语义室外数据集 - 500个语义注释图像，带有来自真实花园的姿势和点云（Tylecek，Sattler）
RMS2018 - 重建符合语义虚拟数据集 - 带有来自6个虚拟花园的姿势和点云的30k语义注释图像（An，Tylecek）
Southampton-York Natural Scenes数据集 90个场景，25个室内和室外场景类别，具有球形LiDAR，HDR强度，立体声强度全景。（Adams，Elder，Graf，Leyland，Lugtigheid，Muryy）
SUN 2012 - 16,873用于场景分类的完全注释的场景图像（Xiao等）
SUN 397 - 397场景分类场景类别（Xiao等）
SUN RGB-D：RGB-D场景理解基准套件 - 10,000个RGB-D图像，146,617个2D多边形和58,657个3D边界框（Song，Lichtenberg和Xiao）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
Sift Flow（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
斯坦福背景数据集 - 包含至少一个前景物体的室外场景的715张图像（Gould等人）
表面检测 - 通过颜色空间融合和时间分析进行实时可穿越表面检测 - 评估数据集（Breckon，Toby P.，Katramados，Ioannis）
任务 - 超过450万个真实图像，每个图像具有25个语义，2D和3D任务的基础事实。（Zamir，Sax，Shen，Guibas，Malik，Savarese）
iNaturalist物种分类和检测数据集 - iNaturalist 2017物种分类和检测数据集已由公民科学家收集和注释，包含来自5,000多种不同植物和动物的859,000张图像。（加州理工学院）
ViDRILO - ViDRILO是一个数据集，包含5个带注释的RGB-D图像序列，这些图像是在具有挑战性的光照条件下在两座办公楼中用移动机器人获取的。（Miguel Cazorla，J。Martinez-Gomez，M。Cazorla，I。Garcia-Varea和V莫雷尔。）
线框数据集 - 人造场景的一组RGB图像用连接点和线条注释，描述了场景的大规模几何形状。（Huang et al。）

二十、细分（一般）

用于天空分割的数据集 - 描述它的句子：使用由Juraj Kostolansky提出的基于超像素的天空分割方法，使用此Sky数据集来评估IFT-SLIC和其他超像素算法的方法。它包含60张图像的集合，这些图像基于R. Fergus的Caltech Airplanes Side数据集，具有天空分割的基本事实。（Eduardo B. Alexandre，Paulo AV Miranda，R。Fergus）
阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
ADE20K - 22 + K层次分割和标记的场景图像（900个场景类别，3 + K类和子类）（Zhou，Zhao，Puig，Fidler，Barriuso，Torralba）
Alpert等。分段评估数据库（Sharon Alpert，Meirav Galun，Ronen Basri，Achi Brandt）
BMC（背景模型挑战） - 用于比较背景减法算法的数据集，由真实视频和合成视频组成（Antoine）
伯克利分段数据集和基准（David Martin和Charless Fowlkes）
CAD 120可供性数据集 - 人类背景下的Pixelwise可供性注释（Sawatzky，Srikantha，Gall）
COLT - 数据集包含40个图像网类别，其中包含手动注释的每像素对象蒙版。（贾莉）
CO-SKEL数据集 - 此数据集由分类骨架和分段掩码组成，用于评估共同骨架化方法。（Koteswar Rao Jerripothula，Jianfei Cai，Jiangbo Lu，Junsong Yuan）
二维路面图像的裂缝检测 - 五组路面图像包含与手工地面真相相关的裂缝和使用现有方法获得的5个自动分割（Sylvie Chambon）
CTU颜色和深度图像数据集的传播服装 - 带有注释角落的传播服装的图像。（Wagner，L.，Krejov D.和Smutn V.（布拉格捷克技术大学））
CTU服装折叠照片数据集 - 服装折叠的各个阶段的颜色和深度图像。（Sushkov R.，Melkumov I.，Smutn y V.（布拉格捷克技术大学））
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
GrabCut图像数据库（C. Rother，V。Kolmogorov，A。Blake，M。Brown）
组织学图像采集库（HICL） - HICL是来自各种疾病（例如脑癌，乳腺癌和HPV（人乳头瘤病毒） - 宫颈癌）的3870个病理图像（迄今为止）的汇编。（医学图像和信号处理（MEDISP）实验室，西阿提卡大学工程学院生物医学工程系）
ICDAR’15智能手机文档捕获和OCR竞赛 - 挑战1 - 用户使用智能手机拍摄的文档视频，用于模拟移动文档捕获，以及文档角落的地面实况坐标以进行检测。（Burie，Chazalon，Coustaty，Eskenazi，Luqman，Mehri，Nayef，Ogier，Prum和Rusinol）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
LabelMe图像数据库和在线注释工具（Bryan Russell，Antonio Torralba，Kevin Murphy，William Freeman）
LITS肝脏肿瘤分割 - 130个3D CT扫描，肝脏和肝脏肿瘤的分割。公共基准与Codalab.org的排行榜（Patrick Christ）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
多物种果实花朵检测 - 该数据集由四组花卉图像组成，来自三种不同的树种：苹果，桃子和梨，以及伴随的地面真实图像。（Philipe A. Dias，Amy Tabb，Henry Medeiros）
具有细长部分的对象 - 用于评估我们的方法的三个数据集带有连接约束的定向图像林变换，其包含具有细长部分的对象。这些数据库由280个具有基本事实的鸟类和昆虫的公共图像组成。（Lucy AC Mansilla（IME-USP），Paulo AV Miranda）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
Osnabrück凝视跟踪数据 - 来自几个不同凝视跟踪数据集的318个视频序列，具有基于多边形的对象注释。（Schöning，Faion，Heidemann，Krumnack，Gert，Açik，Kietzmann，Heidemann＆König）
PASCAL-Scribble数据集 - 我们的PASCAL-Scribble数据集为59个对象/填充类别提供了涂鸦注释。（迪林）
PetroSurf3D - 26种高分辨率（亚毫米精度）的岩画3D扫描，用像素标记的岩画进行分割。（Poier，Seidl，Zeppelzauer，Reinbacher，Schaich，Bellandi，Marretta，Bischof）
阴影检测/纹理分割计算机视觉数据集 - 基于视频的阴影检测/抑制序列，具有基础事实（Newey，C.，Jones，O。，＆Dee，HM）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
石溪大学阴影数据集（SBU-Shadow5k） - 来自各种场景和照片类型的大型阴影检测数据集，带有人类注释（Tomas FY Vicente，Le Hou，Chen-Ping Yu，Minh Hoai，Dimitris Samaras）
TRoM：清华道路标记 - 这是一个有助于自动驾驶和ADAS道路标记分割领域的数据集。（刘晓龙，邓志东，曹乐乐，陆洪超）
VOS - 具有200个互联网视频的数据集，用于基于视频的显着对象检测和分割。（贾莉，夏长群）
XPIE - 包含10000个图像的图像数据集，其中包含手动注释的显着对象，8596个图像不包含显着对象。（贾莉，夏长群）

二十一、同时定位和映射

协作SLAM数据集（CSD） - 数据集由四个不同的子集组成 - Flat，House，Priory和Lab–每个子集包含几个RGB-D序列，这些序列可以重建并成功相互重新定位以形成组合的3D模型。使用Asus ZenFone AR捕获每个序列，并为数据集中的每个RGB-D帧提供精确的局部6D姿势。我们还提供深度和颜色传感器的校准参数，每个子集中序列的优化全局姿势，以及每个序列的预构建网格。（Golodetz，Cavallari，Lord，Prisacariu，Murray，Torr）
用于姿态估计，视觉测距和SLAM的事件相机数据数据还包括来自运动捕捉系统的强度图像，惯性测量和地面实况。（ETH）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了各种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
具有下视摄像头的Quadrotor室内数据集 - 该数据集包含原始图像的记录，IMU测量以及在办公室大小环境中飞行圆形轨迹的四旋翼飞行器的地面真实姿势。（苏黎世联邦理工大学Scaramuzza，苏黎世大学）
InLoc - 评估6DoF视觉定位算法在具有挑战性的室内场景中的准确性的基准。（Hajime Taira，Masatoshi Okutomi，Torsten Sattler，Mircea Cimpoi，Marc Pollefeys，Josef Sivic，Tomas Pajdla，Akihiko Torii）
长期视觉定位 - 用于评估各种照明和季节条件下的视觉定位和绘图算法的TBenchmark。（Torsten Sattler，Will Maddern，Carl Toft，Akihiko Torii，Lars Hammarstrand，Erik Stenborg，Daniel Safari，Masatoshi Okutomi，Marc Pollefeys，Josef Sivic，Fredrik Kahl，Tomas Pajdla）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
RAWSEEDS SLAM基准数据集（Rawseeds项目）
Rijksmuseum Challenge 2014 - 它由来自rijksmuseum的100K艺术品组成，并附带描述每个物体的大量xml文件。（Thomas Mensink和Jan van Gemert）
Visual Paths的RSM数据集 - 室内空间的可视化数据集，用于基准定位/导航方法。它包括1.5公里的走廊和室内空间，每个框架都有地面实况，测量距起点的厘米距离。包括合成生成的基准走廊。（Jose Rivera-Rubio，Ioannis Alexiou，Anil A. Bharath）
多车辆立体事件摄像机数据集 - 包含具有地面真实姿势，深度图和光流的立体对DAVIS 346b事件摄像机的多个序列。（lex Zihao Zhu，Dinesh Thakur，Tolga Ozaslan，Bernd Pfrommer，Vijay Kumar，Kostas Daniilidis）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
TUM VI基准测试 - 28个序列，室内和室外，来自立体摄像机和IMU的传感器数据，开始和结束段的准确基础事实。（David Schubert，Thore Goll，Nikolaus Demmel，Vladyslav Usenko，Joerg Stueckler，Daniel Cremers）
视觉测距/ SLAM评估 - 测距基准由22个立体声序列组成（Andreas Geiger和Philip Lenz以及Raquel Urtasun）
具有全光和立体数据的视觉测距数据集 - 该数据集包含由手持平台记录的11个序列，该平台由全光相机和一对立体相机组成。该序列包括不同的室内和室外序列，轨迹长度范围从25米到几百米。记录的序列显示移动物体以及改变照明条件。（Niclas Zeller和Franz Quint，卡尔斯鲁厄卡尔斯鲁厄大学应用科学大学）

二十二、监督和跟踪

一系列具有挑战性的运动分割基准数据集 - 这些数据集包含真实的长短序列，每个序列的运动和帧数增加，以及缺失数据的实际失真。在所有序列的所有帧上提供了基本事实。（Muhammad Habib Mahmood，Yago Diez，Joaquim Salvi，Xavier Llado）
ATOMIC GROUP ACTIONS数据集 - （Ricky J. Sethi等）
AVSS07：基于视频和信号的高级Surveillance 2007数据集（Andrea Cavallaro）
活动建模和异常检测数据集 - 数据集包含45分钟的带有注释异常的视频。（Jagan Varadarajan和Jean-Marc Odobez）
背景减法 - 关于背景减法的数据集列表（Thierry BOUWMANS）
CAMO-UOW数据集 - 在真实场景中拍摄的10个高分辨率视频，用于伪装背景减法（李帅和李万青）
CCTV-Fights - 1000个视频，描绘现实世界的战斗，从CCTV或移动摄像机录制，并在帧级暂时注释。（南洋理工大学ROSE实验室Mauricio Perez）
CMUSRD：监视研究数据集 - 用于室内监控场景的多摄像机视频（K. Hattori，H。Hattori，et al）
DukeMTMC：Duke多目标多镜头跟踪数据集 - 8个摄像头，85分钟，2米镜头，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
DukeMTMC-reID - 用于基于图像的人重新识别的DukeMTMC的子集（8个摄像头，其中702个身份的16,522个训练图像，其他702个身份的2,228个查询图像和17,661个图库图像。）（郑，郑和杨）
ETISEO视频监控下载数据集（INRIA Orion团队和其他人）
FMO数据集 - FMO数据集包含带有快速移动对象的带注释的视频序列 - 在一帧中移动的投影距离大于其大小的对象。（Denys Rozumnyi，Jan Kotera，Lukas Novotny，Ales Hrabalik，Filip Sroubek，Jiri Matas）
HDA +多摄像机监控数据集 - 来自18个异构摄像机（不同分辨率和帧速率）的网络视频，分布在一个研究机构的3个楼层，有13个完全标记的序列，85个人和64028个边界框。（D. Figueira，M。Taiana，A。Nambiar，J。Nascimento和A. Bernardino）
人工点击数据 - 人工点击20K跟踪目标（包括点击错误）（Zhu和Porikli）
Immediacy Dataset - 此数据集专为估计个人关系而设计。（肖楚等人）
MAHNOB数据库 - 包括笑声数据库，HCI标记数据库，MHI模拟数据库（M. Pantic等）
在RGB-D中移动INFants（MINI-RGBD） - 用于婴儿姿势估计的合成的，逼真的RGB-D数据集，其包含具有地面真实关节位置的12个移动婴儿序列。（N. Hesse，C。Bodensteiner，M。Arens，UG Hofmann，R。Weinberger，AS Schroeder）
MSMT17 - 人员重新识别数据集。180小时的视频，12个室外摄像机，3个室内摄像机和12个时隙。（魏龙辉，张世良，高文，田琦）
MVHAUS-PI - 多视图人类交互识别数据集（Saeid等）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
Openvisor - 视频监控在线信息库（摩德纳大学和雷焦艾米利亚大学）
停车场数据集 - 停车场数据集是一个汽车数据集，专注于停车场场景中汽车的中度和严重遮挡。（B.Li，TF Wu和SC Zhu）
色情数据库 - 色情数据库是一个色情检测数据集，包含从色情网站和Youtube中提取的近400小时的400个色情和400个非色情视频。（Avila，Thome，Cord，Valle，de Araujo）
普林斯顿跟踪基准 - 100个RGBD跟踪数据集（宋和肖）
QMUL Junction数据集1和2 - 繁忙的道路交叉点的视频。支持异常检测任务。（T. Hospedales Edinburgh / QMUL）
玛丽女王多摄像机分布式交通场景数据集（QMDTS） - QMDTS从城市监控环境中收集，用于研究分布式场景中的监控行为。（徐旭博士。邵刚教授和Timothy Hospedales博士）
道路异常检测 - 22公里，11辆车，正常+4个缺陷类别（Hameed，Mazhar，Hassan）
SALSA：协同社会场景分析 - 一种用于多模态群体行为分析的新数据集（Xavier Alameda-Pineda等）
SBMnet（Scene Background Modeling.NET） - 用于测试背景估计算法的数据集（Jodoin，Maddalena和Petrosino）
SBM-RGBD数据集 - 35个Kinect室内RGBD视频，用于评估和比较用于移动物体检测的场景背景建模方法（Camplani，Maddalena，Moy ?? Alcover，Petrosino，Salgado）
SCOUTER - 视频监控地面实况（移动视角，不同的设置/照明条件，主题的大变化）。30个视频和大约36,000个手动标记的帧。（Catalin Mitrea）
SJTU-BEST一个监控指定的数据集平台，具有逼真的，使用相机拍摄的各种监控图像和视频（上海交通大学）
SPEVI：监督绩效评估倡议（伦敦玛丽女王大学）
Shinpuhkan 2014 - 人物重新识别数据集，包含由16个摄像机捕获的24个人的22,000张图像。（Yasutomo Kawanishi等人）
斯坦福无人机数据集 - 各种类型的代理商（不仅仅是行人，还有骑自行车的人，滑板运动员，汽车，公共汽车和高尔夫球车）的60幅图像和视频，可以在现实世界的室外环境中进行导航，例如大学校园（Robicquet，Sadeghian， Alahi，Savarese）
S-Hock数据集 - 观众人群分析的新基准。（Francesco Setti，Davide Conigliaro，Paolo Rota，Chiara Bassetti，Nicola Conci，Nicu Sebe，Marco Cristani）
在极其杂乱的场景中跟踪 - 这个单一对象跟踪数据集有28个高度混乱的序列，每帧注释（Jingjing Xiao，Linbo Qiao，Rustam Stolkin，Ale Leonardis）
TrackingNet - 用于在野外跟踪的大规模数据集：超过30k个用于训练的注释序列，500多个用于测试的评估序列，评估服务器和用于公平排名的排行榜。（Matthias Muller，Adel Bibi，Silvio Giancola，Salman Al-Subaihi和Bernard Ghanem）
UCF-犯罪数据集：监控视频中的真实异常检测 - 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频（128小时），包括13个现实异常，如战斗，交通事故，入室盗窃，抢劫等，以及正常活动。（中佛罗里达大学计算机视觉研究中心）
加州大学洛杉矶分校空中事件数据集 - 航空视频中的人类活动，包括人物，物体，社会团体，活动和角色的注释（Shu，Xie，Rothrock，Todorovic和Zhu）
UCSD异常检测数据集 - 安装在海拔高度的固定摄像机，俯瞰行人通道，具有不寻常的行人或非行人运动。
UCSD轨迹聚类和分析数据集 - （Morris和Trivedi）
USC信息科学研究所的ATOMIC PAIR ACTIONS数据集 - （Ricky J. Sethi等）
基于Udine轨迹的异常事件检测数据集 - 具有异常值的合成轨迹数据集（Udine人工视觉和实时系统实验室大学）
视觉跟踪器基准测试 - 100个对象跟踪序列，具有基本事实和Visual Tracker Benchmark评估，包括跟踪来自多个跟踪器的结果（Wu，Lim，Yang）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，有13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）

二十三、纹理

Brodatz纹理，标准化Brodatz纹理，彩色Brodatz纹理，多波段Brodatz纹理 154个新图像加上112个具有各种变换的原始图像（A. Safia，D。He）
按类别划分颜色纹理图像（textures.forrest.cz）
哥伦比亚 - 乌得勒支反射与纹理数据库（哥伦比亚大学和乌得勒支大学）
DynTex：动态纹理数据库（Renaud Piteri，Mark Huiskes和Sandor Fazekas）
房屋数据集 - 房屋价格的基准数据集，包含有关535间房屋的视觉和文本信息。（艾哈迈德，艾曼和穆斯塔法，穆罕默德）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
KTH TIPS＆TIPS2纹理 - 姿势/照明/比例变化（Eric Hayman）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
奥卢纹理数据库（奥卢大学）
牛津可描述纹理数据集 - 47种类别的5640张图像（M.Cimpoi，S。Maji，I。Kokkinos，S。Mohamed，A。Vedaldi）
布拉格纹理分割数据生成器和基准（Mikes，Haindl）
萨尔茨堡纹理图像数据库（STex） - 在奥地利萨尔茨堡周围捕获的476种颜色纹理图像的大集合。（Roland Kwitt和Peter Meerwald）
合成SVBRDF和渲染 - 数据集包含20000个与Cook-Torrance模型中的地面实况表示相关联的20000种不同材质的渲染。仅在研究下分发，非商业使用许可。（“GraphDeco”团队，Inria）
纹理数据库纹理数据库具有25个纹理类，每个40个样本（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
表面和材料的乌普萨拉纹理数据集 - 织物，谷物等
视觉纹理（MIT媒体实验室）

二十四、城市数据集

巴塞罗那 - 15,150张图片，巴塞罗那（Tighe和Lazebnik）的城市景观
城市风景 - 一个大型数据集，包含从50个不同城市的街景中记录的各种立体视频序列，除了更大的20.000个弱注释帧之外，还具有5.000帧的高质量像素级注释。（Cityscpes团队）
CMP Facade数据库 - 包括来自不同地方的606个矫正图像，其中有12个建筑类别注释。（Radim Tylecek）
DeepGlobe卫星图像了解挑战 - 卫星图像上三个深度学习任务的数据集和评估平台：道路提取，建筑物检测和土地类型分类。（Demir，Ilke和Koperski，Krzysztof和Lindenbaum，David和Pang，Guan和Huang，Jing和Basu，Saikat和Hughes，Forest和Tuia，Devis和Raskar，Ramesh）
DroNet：通过驾驶学习驾驶 - 带有标记碰撞数据的自行车视频，用于学习预测车辆的潜在危险情况。（Loquercio，Maqueda，Del Blanco，Scaramuzza）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
房屋数据集 - 房屋价格的基准数据集，包含有关535间房屋的视觉和文本信息。（艾哈迈德，艾曼和穆斯塔法，穆罕默德）
LM + SUN - 45,676张图片，主要是城市或人类相关的场景（Tighe和Lazebnik）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
玛丽女王多摄像机分布式交通场景数据集（QMDTS） - QMDTS从城市监控环境中收集，用于研究分布式场景中的监控行为。（徐旭博士。邵刚教授和Timothy Hospedales博士）
使用1DSfM进行稳健的全局翻译，描述每个数据集的运动问题的全局结构的数值数据（Kyle Wilson和Noah Snavely）
Sift Flow（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
使用反卷积网络进行街景变化检测 - 具有来自街景图像的对齐图像对的数据库，包括结构，照明，天气和季节变化。（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
SydneyHouse - 街景房屋图像，具有精确的3D房屋形状，立面物体标签，密集点对应和注释工具箱。（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
交通标志数据集 - 从超过350公里的瑞典高速公路和城市道路记录序列（Fredrik Larsson）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）

二十五、视觉与自然语言

INRIA BL-数据库 - 视听语音语料库多模态自动语音识别，音频/视频同步或语音驱动的唇动画系统（Benezeth，Bachman，Lejan，Souviraa-Labastie，Bimbot）
CrisisMMD：来自自然灾害的多模式Twitter数据集 - CrisisMMD多模式Twitter数据集包含数千个手动注释的推文和图像，这些推文和图像是在2017年发生的七次重大自然灾害中收集的，包括地震，飓风，野火和洪水。世界。（Firoj Alam，Ferda Ofli，Muhammad Imran）
DAQUAR - 关于图像的人类问题答案对的数据集，它体现了我们对视觉图灵测试的愿景。（Mateusz Malinowski，Mario Fritz）
结构化查询和空间关系的数据集 - 关于图像的结构化查询的数据集，强调空间关系。（Mateusz Malinowski，Mario Fritz）
DVQA：通过问题回答理解数据可视化 - 关于条形图的VQA数据集：3种类型的问题，300,000个图像，3,487,194个问答对，详细的元数据（Kafle，Cohen，Price，Kanan）
FigureQA - 关于条形图和饼图的VQA数据集，以及数字图：100,000个图像，1,327,368个问答对，100种颜色和图形元素名称，15种问题类型（Kahou，Michalski，Atkinson，Kadar，Trischler，Bengio）
Hannah和她的姐妹数据库 - 一个密集的视听人物导向的面部，语音片段，镜头边界的真实注释（Patrick Perez，Technicolor）
大规模电影描述挑战（LSMDC） - 电影描述的大规模数据集和挑战，包括超过128K的视频 - 句子对，主要来自音频描述（也称为DVS）。（Rohrbach，Torabi，Rohrbach，Tandon，Pal，Larochelle，Courville和Schiele）
MPII数据集 - 基于视频纠正不准确句子的数据集。（Amir Mazaheri）
MPI电影描述数据集 - 文本和视频 - 与源自电影脚本和音频描述的自然语言描述相关联的影片剪辑的数据集。（Rohrbach，Rohrbach，Tandon和Schiele）
Recipe1M - 用于学习烹饪食谱和食物图像的跨模式嵌入的数据集 - Recipe1M是一种新的大规模，结构化的语料库，包含超过一百万个烹饪食谱和1300万个食物图像。作为最大的公开可用的配方数据集合，Recipe1M提供了在对齐的多模态数据上训练大容量模型的能力。（Javier Marin，Aritro Biswas，Ferda Ofli，Nicholas Hynes，Amaia Salvador，Yusuf Aytar，Ingmar Weber，Antonio Torralba）
SemArt数据集 - 用于语义艺术理解的数据集，包括21,384个具有属性和艺术评论的精美绘画图像。（Noa Garcia，George Vogiatzis）
TACoS多级语料库 - 在三个详细级别（长，短和单句）中与自然语言描述相关的烹饪视频数据集。（Rohrbach，Rohrbach，Qiu，Friedrich，Pinkal和Schiele）
TallyQA - 截至2018年的最大开放式计数数据集，它包括评估简单和更高级功能的测试集。（Manoj Acharya，Kushal Kafle，Christopher Kanan）
TDIUC（任务驱动的图像理解） - 截至2018年，这是最大的VQA数据集，它有助于分析12种问题。（Kushal Kafle，Christopher Kanan）
来自Tumblr的TGIF - 100K动画GIF和120K自然语言描述。（Li，Song，Cao，Tetreault，Goldberg，Jaimes，Luo）
多伦多COCO-QA数据集 - 从图像标题自动生成。123287图像78736火车问题38948测试题4种问题：对象，数字，颜色，位置答案都是单字。（Menye Ren，Ryan Kiros，Richard Zemel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
Twitter for Sentiment Analysis（T4SA） - 根据文本的情感极性标记约100万条推文（文本和相关图像）; 数据可以用于情绪分析以及野外的其他分析，因为推文是从所有全球制作的推文流中随机抽样的推文。（Lucia Vadicamo，Fabio Carrara，Andrea Cimino，Stefano Cresci，Felice Dell’Orletta，Fabrizio Falchi，Maurizio Tesconi）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
视觉基因组：使用众包密集图像注释连接语言和视觉 - 视觉基因组是一个数据集，一个知识库，一个将结构化图像概念连接到语言的持续努力。（Ranjay Krishna，Yuke Zhu，Oliver Groth，Justin Johnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，李佳丽，David Ayman Shamma，Michael Bernstrein，李飞飞）
使用语言Priors进行视觉关系检测 - 5000个图像，37,993,000个关系，100个对象类别，70个谓词类别（Lu，Krishna，Bernstein，Fei-Fei）
VQA：Visual Question Answering - 一个包含有关图像的开放式问题的新数据集。这些问题需要理解愿景，语言和常识才能回答。（Yash Goyal，Tejas Khot，佐治亚理工学院，陆军研究实验室，弗吉尼亚理工大学）
VQA v1 - VQA：视觉问题回答 - 对于每个图像，我们收集了3个自由形式的自然语言问题，每个问题有10个简明的开放式答案。我们提供两种格式的VQA任务。（Stanislaw Antol，Aishwarya Agrawal，Jiasen Lu）
YouCook2 - 2000长YouTube播放视频，其中每个食谱步骤都是暂时本地化的，并由命令式英语句子描述。边界框注释可用于验证和测试拆分。（周洛威，陈晨亮和Jason Corso）
YouTube电影摘要 - 来自YouTube的电影摘要视频，使用视频片段与句子级别和短语级别的电影简介文本之间的对应关系进行注释。（Pelin Dogan，Boyang Li，Leonid Sigal，Markus Gross）

二十六、其他收藏

4D光场数据集 - 具有9x9x512x512x3输入图像，深度和视差真实性，相机参数和评估掩模的24个合成场景。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
AMADI_LontarSet - 巴厘岛棕榈叶手稿图像数据集，用于二值化，逐个查询单词识别和巴厘岛脚本的孤立字符识别。（AMADI项目等）
带注释的网络耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网图像中剪切耳朵获得的。（Ziga Emersic，Vitomir Struc和Peter Peer）
生物识别技术评估和测试 - 识别技术评估，包括生物识别技术（欧洲计算电子基础设施）
CALVIN研究组数据集 - 用眼睛跟踪的物体检测，图像网络边界框，同步活动，火柴人和身体姿势，youtube对象，面部，马，玩具，视觉属性，形状类（CALVIN组）
CANTATA视频和图像数据库索引站点（Multitel）
香港中文大学数据集 - 人脸素描，人脸对齐，图像搜索，公共广场观察，遮挡，中心站，麻省理工学院单一和多个摄像机轨迹，人员重新识别（多媒体实验室）
Computer Vision首页测试图像数据库列表（Carnegie Mellon Univ）
计算机视觉实验室OCR数据库（CVL OCR DB） - CVL OCR DB是自然场景中120个二进制注释的文本图像的公共注释图像数据集。（Andrej Ikica和Peter Peer。）
ETHZ各种数据集 - 包括ETH 3D头部姿势，BIWI视听数据，ETHZ形状类，BIWI步行行人，行人，建筑物，4D MRI，个人事件，肝脏无声，食物101.（苏黎世联邦理工学院，计算机视觉实验室）
手指静脉USM（FV-USM）数据库 - 红外手指图像数据库由手指静脉和手指几何信息组成。（Bakhtiar Affendi Rosdi，Universiti Sains Malaysia）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
GPDS孟加拉语和梵文合成签名数据库 - 孟加拉语和梵文签名的双离线和在线签名数据库。（Miguel A. Ferrer，GPDS，ULPGC）
GPDS Synthetic OnLine和OffLine签名数据库 - 双离线和在线拉丁签名数据库。（Miguel A. Ferrer，GPDS，ULPGC）
HKU-IS - 带有像素标记的4447图像用于显着物体检测。（Guanbin Li，Yizhou Yu）
高分辨率3D模型 - 它包括这些数据集的高分辨率渲染。（休伯特等）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee，DA Shamma，G。Friedland等人）
国际协会。模式识别技术委员会关于阅读系统的TC11 关于文档文本阅读的数据集索引
IDIAP数据集集 - 26种不同的数据集 - 多模式，攻击，生物识别，草书字符，话语，眼睛凝视，海报，玛雅人手抄本，MOBIO，面部欺骗，游戏，手指静脉，youtube-个性特征（IDIAP团队）
Kinect v2数据集 - 用于评估kinect2深度解码中展开的数据集（Felix等）
Laval HDR天空数据库 - 该数据库包含800张半球形，全天空的HDR照片，可用于户外照明分析。（Jean-Francois Lalonde等人）
Leibe的人/车/对象数据库集（Bastian Leibe）
莲花山图像数据库收藏与真相（Sealeen Ren，Benjamin Yao，Michael Yang）
麻省理工学院Saliency Benchmark数据集 - 集合（指向23个数据集）（Bylinskii，Judd，Borji，Itti，Durand，Oliva，Torralba）
Michael Firman的RGBD数据集列表
Msspoof：2D多光谱面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主题和欺骗数据主题的样本，用纸张执行到NIR和VIS相机（Idiap研究所）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
牛津杂项，包括巴菲，鲜花，电视人物，建筑物等（牛津视觉几何组）
PEIPA图像数据库摘要（欧洲图像处理档案库）
PalmVein欺骗 - 使用纸张（Idiap研究所）对来自欺骗数据主体（对应于VERA Palmvein）的样本进行演示攻击（欺骗）数据集
RSBA数据集 - 用于评估卷帘门调整的序列（Per-Erik等）
重播攻击：2D面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主体和欺骗数据主体的样本，使用纸张，照片和视频从移动设备到笔记本电脑进行。（Idiap研究所）
重播移动：2D面部欺骗 - 演示攻击（欺骗）数据集，包括来自真实数据主体和欺骗数据主体的样本，使用纸张，照片和视频进出移动设备。（Idiap research institute）
合成序列发生器 - 合成序列发生器（G. Hamarneh）
事件相机数据集 - 这是世界上第一个带有基于事件的高速机器人相机数据集的集合（E. Mueggler，H。Rebecq，G。Gallego，T。Delbruck，D。Scaramuzza）
从猫的角度看世界 - 从自由行为的猫头上录下的视频（Belinda Y. Betsch，Wolfgang Einh？用户）
USC Annotated Computer Vision Bibliography数据库出版物摘要（Keith Price）
USC-SIPI图像数据库：纹理，天线，收藏夹（例如Lena）（南加州大学信号与图像处理研究所）
伯尔尼大学数据库手写，在线文档，字符串编辑和图形匹配（伯尔尼大学，计算机视觉和人工智能）
VERA Fingervein欺骗 - 使用纸张（Idiap研究所）对来自欺骗数据主体（对应于VERA Fingervein）的样本进行演示攻击（欺骗）数据集
VERA Fingervein - 使用开放式指纹传感器（Idiap研究所）记录数据主题的Fingervein数据集
VERA PalmVein：PalmVein - 使用开放式palmvein传感器记录数据主题的Palmvein数据集（Idiap研究所）
航空影像中的车辆检测 - VEDAI是航空影像中车辆检测的数据集，作为在无约束环境中对自动目标识别算法进行基准测试的工具。（Sebastien Razakarivony和Frederic Jurie）
视频堆叠数据集 - 用于在手机上评估视频堆叠的数据集（Erik Ringaby等）
腕上摄像机视频数据集 - 从安装在腕式摄像机和头戴式摄像机拍摄的日常生活视频（Katsunori Ohnishi，Atsushi Kanehira，Asako Kanezaki，Tatsuya Harada）
Yummly-1k数据集 - 目标是了解人类的感知，在这种情况下，食物味道相似。（SE（3）Cornell Tech的计算机视觉小组）

二十七、其他

3D网格水印基准数据集（Guillaume Lavoue）
4D光场数据集 - 具有9x9x512x512x3输入图像，深度和视差真实性，相机参数和评估掩模的24个合成场景。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物破坏的像素和强度对齐图像对。（J. Anaya，A。Barbu）
AF 4D数据集 - 根据我们的观察，我们确定了10个代表性场景，分为三种类型：（1）不包含面部的场景（NF），（2）在前景中具有面部的场景（FF），以及（3））背景中的面部场景（FB）。对于这些场景中的每一个，我们允许在纹理背景方面进行不同的安排，无论相机是否移动，以及场景中有多少类型的物体改变它们的方向（称为运动开关）。（约克大学Abdullah Abuolaim）
AMADI_LontarSet - 巴厘岛棕榈叶手稿图像数据集，用于二值化，逐个查询单词识别和巴厘岛脚本的孤立字符识别。（AMADI项目等）
主动外观模型数据集（Mikkel B. Stegmann）
飞机追踪（Ajmal Mian）
带注释的网络耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网图像中剪切耳朵获得的。（Ziga Emersic，Vitomir Struc和Peter Peer）
CITIUS视频数据库 - 包含眼动追踪数据的72个视频数据库，用于评估动态显着性视觉模型。（Xose）
CrowdFlow - 用于人群分析的光流数据集和基准（Gregory Schroeder，Tobias Senst，Erik Bochinski，Thomas Sikora）
CVSSP 3D数据存储库 - 数据集旨在评估一般的多视图重建算法。（Armin Mustafa，Hansung Kim，Jean-Yves Guillemaut和Adrian Hilton）
California-ND - 来自个人照片集的701张照片，包括许多具有挑战性的现实生活中不相同的近似重复照片（Vassilios Vonikakis）
基于剑桥运动的分割和识别数据集（Brostow，Shotton，Fauqueur，Cipolla）
折反射相机校准图像（Yalin Bastanlar）
Chars74K数据集 - 74个英语和卡纳达语字符（Teo de Campos - [email protected]）
硬币图像数据集 - 硬币图像数据集是60类罗马共和党硬币的数据集（Sebastian Zambanini，Klaus Vondrovec）
哥伦比亚相机响应功能：数据库（DoRF）和模型（EMOR）（MD Grossberg和SK Nayar）
哥伦比亚污染物模式和散射参数数据库（Jinwei Gu，Ravi Ramamoorthi，Peter Belhumeur，Shree Nayar）
覆盖 - 复制 - 移动伪造（CMFD）图像及其原件与类似但真实的对象（SGO），突出和解决流行方法的篡改检测模糊性，由自然图像中的自相似性引起（Wen，Zhu，Subramanian，Ng，沉和温克勒）
犯罪现场鞋类印象数据库 - 犯罪现场和参考foorware印象图像（Adam Kortylewski）
用于自动评分系统的曲线跟踪数据库。 - 70个公共图像的地面实况数据库，用于评估我们的方法Bandeirantes和自动分级系统中的其他曲线追踪方法。（Marcos A. Tejada Condori，Paulo AV Miranda）
D-HAZY - 评估定量排序算法的数据集（Cosmin Ancuti等）
DR（eye）VE - 驾驶员注意力数据集（摩德纳大学和雷焦艾米利亚大学）
DTU控制的运动和照明图像数据集（135K图像）（Henrik Aanaes）
视觉眼动的数据库（DOVES） - 从29名人类观察者收集的一组眼睛运动，他们查看101个自然校准图像。（van der Linde，I.，Rajashekar，U.，Bovik，AC等）
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
密集的室外通信地面实况数据集，用于光流和本地关键点评估（Christoph Strecha）
EISATS：.enpeda …图像序列分析测试站点（奥克兰大学多媒体成像组）
无特征对象跟踪 - 此数据集包含几个纹理有限的视频序列，用于视觉跟踪，包括手动注释的每帧姿势。（Lebeda，Hadfield，Matas，Bowden）
FlickrLogos-32 - 8240图像的32个产品标识（Stefan Romberg）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
Geometry2view - 此数据集包含用于2视图几何计算的图像对，包括手动注释的点坐标。（Lebeda，Matas，Chum）
汉诺威地区探测器评估数据集 - 多种图像分辨率的特征探测器评估序列，从1.5到800万像素（Kai Cordes）
Hillclimb和CubicGlobe数据集 - 一个拉力赛车的视频，分成几个独立的镜头（用于视觉跟踪和建模）。（Lebeda，Hadfield，Bowden）
休斯顿多式联运分散驾驶数据集 - 68名志愿者在四种不同条件下驾驶同一模拟高速公路（Dcosta，Buddharaju，Khatri和Pavlidis）
高光谱显着物体检测数据集（HS-SOD数据集） - 高光谱（可见光谱）图像数据，用于对显着物体检测进行基准测试，收集60个高光谱图像及其各自的地面实况二值图像和代表性渲染彩色图像（以sRGB渲染）。（Nevrez Imamoglu，Yu Oishi，Zhang Xiaoqiang Zhang，Guanqun Ding，Yuming Fang，Toru Kouyama，Ryosuke Nakamura）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee，DA Shamma，G。Friedland等人）
ICDAR’15智能手机文档捕获和OCR竞赛 - 挑战2 - 在各种透视，照明等条件下使用智能手机拍摄的文档图片。基本事实是应该提取的文本内容。（Burie，Chazalon，Coustaty，Eskenazi，Luqman，Mehri，Nayef，Ogier，Prum和Rusinol）
I- HAZE - 具有真实朦胧和无雾的室内图像的去雾基准。（ETHZ）
野外的内在图像（IIW） - 野外的内在图像，是用于评估室内场景的内在图像分解的大型公共数据集（Sean Bell，Kavita Bala，Noah Snavely）
IISc - 孤立对象之间的差异（IISc-DIO） - 使用具有各种对象的可视化搜索任务，数据集在269个人类对象上进行了总共26,675个感知的不相似度测量。（RT Pramod＆SP Arun，IISc）
INRIA特征检测器评估序列（Krystian Mikolajczyk）
图像/视频质量评估数据库摘要（Stefan Winkler）
INRIA的PERCEPTION的图像和视频数据库，通过几个同步和校准的相机（INRIA Rhone-Alpes）收集
用于立体声，光流和视觉测距的KITTI数据集（Geiger，Lenz，Urtasun）
LabelMe图像数据库和在线注释工具（Bryan Russell，Antonio Torralba，Kevin Murphy，William Freeman）
来自地面LiDAR扫描的大规模3D点云数据（Andreas Nuechter）
用于学习相对属性的LFW-10数据集 - 10,000对面部图像的数据集，具有10个属性的实例级注释。（CVIT，IIIT Hyderabad。）
光场材料数据集 - 使用Lytro ILLUM相机拍摄的12种材料类别的1.2k注释图像（Ting-Chun Wang，Jun-Yan Zhu，Ebi Hiroaki，Manmohan Chandraker，Alexei Efros，Ravi Ramamoorthi）
Linkoping滚动快门整流数据集（Per-Erik Forssen和Erik Ringaby）
LIRIS-ACCEDE数据集 - 一系列视频摘录，具有大量内容多样性，并按照情感维度进行注释（Technicolor）
MARIS Portofino数据集 - 描述圆柱形管道对象的水下立体图像数据集，用于测试物体检测和姿态估计算法。（帕尔马大学RIMLab（机器人和智能机器实验室）。）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces之上，但包含数百万个材质标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
MASSVIS（大规模可视化数据集） - 来自各种来源的超过5K种不同的信息可视化，其中一部分已被分类，分段，并带有可记忆性和眼动追踪记录。（Borkin，Bylinskii，Kim，Oliva，Pfister）
MPI Sintel Flow Dataset用于评估源自开源3D动画短片Sintel的光流的数据集。它已经扩展到立体声和视差，深度和相机运动以及分割。（Max Planck Tubingen）
MPI-Sintel光流评估数据集（Michael Black）
MSR-VTT - 200K +视频剪辑/句子对的视频到文本数据库
米德尔伯里学院立体视觉研究数据集（Daniel Scharstein和Richard Szeliski）
使用椭圆建模2D形状 - 他的数据集包含标准和家庭构建数据集中包含的4,526个2D形状。（Costas Panagiotakis和Antonis Argyros）
Multi-FoV - 照片般逼真的视频序列，可以对摄像机的视场（FoV）对各种视觉任务的影响进行基准测试。（Zhang，Rebecq，Forster，Scaramuzza）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
基于激光的 groundtruth 多视图立体图像（ESAT-PSI / VISICS，FGAN-FOM，EPFL / IC / ISIM / CVLab）
NCI癌症图像档案 - 前列腺图像（国家癌症研究所）
NIST 3D兴趣点检测（Helin Dutagaci，Afzal Godil）
NRCS自然资源/农业图像数据库（USDA自然资源保护局）
O- HAZE - 具有真实朦胧和无雾的户外图像的去雾基准。（ETHZ）
用于域适应的对象识别数据集 - 由来自4个不同域的图像组成：艺术图像，剪贴画，产品图像和真实世界图像。对于每个域，数据集包含通常在Office和Home设置中找到的65个对象类别的图像。（Venkateswara Hemanth，Eusebio Jose，Chakraborty Shayok，Panchanathan Sethuraman）
物体去除 - 使用合成光流进行基于密集立体视觉的场景映射的广义动态物体去除 - 评估数据集（Hamilton，OK，Breckon，Toby P.）
闭塞检测测试数据（Andrew Stein）
OpenSurfaces - OpenSurfaces包含数万个从内部消费者照片中分割出来的表面示例，并使用材料参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
OSIE - 对象和语义图像以及眼动追踪 - 700幅图像，5551个分割对象，眼动追踪数据（Xu，Jiang，Wang，Kankanhalli，Zhao）
Osnabrück凝视跟踪数据 - 来自几个不同凝视跟踪数据集的318个视频序列，基于多边形的对象注释（Schöning，Faion，Heidemann，Krumnack，Gert，Açik，Kietzmann，Heidemann＆König）
OTIS：开放湍流图像集 - 通过湍流大气进行长距离成像的几个序列（静态或动态）（Jerome Gilles，Nicholas B. Ferrante）
PanoNavi数据集 - 用于机器人导航的全景数据集，由5个视频组成，持续约1小时。（凌燕然）
PetroSurf3D - 26种高分辨率（亚毫米精度）岩石艺术3D扫描，用像素标记的岩画进行分割（Poier，Seidl，Zeppelzauer，Reinbacher，Schaich，Bellandi，Marretta，Bischof）
PHOS（照明不变数据集） - 在不同照明条件下拍摄的15个场景* 15张图像（Vassilios Vonikakis）
PIRM - 超分辨率基准的感知质量（Blau，Y.，Mechrez，R.，Timofte，R.，Michaeli，T.，Zelnik-Manor，L）
PittsStereo-RGBNIR - 在匹兹堡收集的具有挑战性材料的大型RGB-NIR立体声数据集。（Tiancheng Zhi，Bernardo R. Pires，Martial Hebert和Srinivasa G. Narasimha）
PRINTART：着名绘画版画的艺术图像，包括细节注释。ECCV发布了该数据库自动注释和检索任务的基准。（Nuno Miguel Pinho da Silva）
Pics’n’Trails - 连续存档的GPS和数码照片数据集（Gamhewage Chaminda de Silva）
Pitt图像和视频广告理解 - 丰富的注释包含广告的主题和情感，问题和答案描述了观众被提示采取的行动以及广告用来说服观众的推理（Hussain，Zhang，Zhang，Ye， Thomas，Agha，Ong，Kovashka（匹兹堡大学）>
RAWSEEDS SLAM基准数据集（Rawseeds项目）
ROMA（ROad MArkings）：用于评估道路标记提取算法的图像数据库（Jean-Philippe Tarel，et al）
机器人3D扫描库 - 来自场景机器人实验的3D点云（Osnabruck和Jacobs大学）
滚动快门校正数据集 - 从手持设备中校正滚动快门视频（Per-Erik等）
SALICON - 上下文中的显着性眼动追踪数据集c。在80个图像类别中具有眼睛跟踪数据的1000个图像。（江，黄，段，赵）
Scripps浮游生物相机系统 - 成千上万的c图像。50类浮游生物和其他小型海洋物体（Jaffe等）
ScriptNet：ICDAR2017历史文献作者识别竞赛（历史 - 威斯康星） - 该数据集由超过1100名作家撰写的4782个手写页面组成，其历史可以追溯到13世纪至20世纪。（Fiel Stefan，Kleber Florian，Diem Markus，Christlein Vincent，Louloudis Georgios，Stamatopoulos Nikos，Gatos Basili）
Seam雕刻JPEG图像数据库 - 我们的基于缝纫雕刻的伪造数据库包含500个未触摸的JPEG图像和500个JPEG图像，这些图像通过缝纫处理，均质量为75（Qingzhong Liu）
SIDIRE：用于照明稳健性评估的合成图像数据集 - SIDIRE是一个免费提供的图像数据集，提供合成生成的图像，可以研究照明变化对物体外观的影响（Sebastian Zambanini）
智能手机文档捕获和OCR 2015 - 质量评估 - 在各种条件下使用智能手机拍摄的文档图片视角，照明等。它还具有文本基础事实和OCR准确性，用于培训和测试文档图像质量评估系统。（Nayef，Luqman，Prum，Eskenazi，Chazalon和Ogier）
智能手机文档捕获和OCR 2017 - 移动视频捕获 - 文档的视频录制，以及使用视频流重建的参考地面实况图像。（Chazalon，Gomez-Kr ?? mer，Burie，Coustaty，Eskenazi，Luqman，Nayef，Rusi ?? ol，Sid ?? re和Ogier）
Stony Brook Univeristy真实世界杂波数据集（SBU-RwC90） - 由人类排名的不同杂乱程度的图像（Yu-Ping Yu，Dimitris Samaras，Gregory Zelinsky）
使用反卷积网络进行街景变化检测 - 具有来自街景图像的对齐图像对的数据库，包括结构，照明，天气和季节变化。（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
SydneyHouse - 街景房屋图像，具有精确的3D房屋形状，立面物体标签，密集点对应和注释工具箱。（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
石溪大学阴影数据集（SBU-Shadow5k） - 来自各种场景和照片类型的大型阴影检测数据集，带有人类注释（Tomas FY Vicente，Le Hou，Chen-Ping Yu，Minh Hoai，Dimitris Samaras）
Technicolor Interestingness Dataset - 基于有趣和无趣样本分类的电影摘录和关键帧及其相应的地面实况文件的集合（Technicolor）
Technicolor Hannah Dataset - 来自电影“汉娜和她的姐妹”的153,825帧，注释了几种类型的音频和视觉信息（Technicolor）
Technicolor HR-EEG4EMO数据集 - 在观看中性和情感视频期间收集的40名受试者的脑电图和其他生理记录（Technicolor）
Technicolor VSD Violent Scenes数据集 - 基于电影中暴力事件提取的地面实况文件集合（Technicolor）
冲突升级解决方案（CONFER）数据库 - 120个视听剧集（约142分钟）来自电视政治辩论的自然主义互动，在实际价值冲突强度方面逐帧注释。（Christos Georgakis，Yannis Panagakis，Stefanos Zafeiriou，Maja Pantic）
开放视频项目（Gary Marchionini，Barbara M. Wildemuth，Gary Geisler，Yaxiao Song）
图卢兹消失点数据集 - 用于消失点估计的曼哈顿场景数据集，它还为每个图像提供相机方向的IMU数据。（Vincent Angladon和Simone Gasparini）
TMAGIC数据集 - 视觉跟踪的几个视频序列，包含强大的平面外旋转（Lebeda，Hadfield，Bowden）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
UCL地面真相光流数据集（Oisin Mac Aodha）
水下单图像颜色恢复 - 前瞻性水下图像的数据集，可使用立体成像使用不同距离和地面真实距离的彩色图表定量评估颜色恢复。（Berman，Levy，Avidan，Treibitz）
热那亚大学数据集用于差异和光流评估（Manuela Chessa）
神经网络系统的验证和验证（Francesco Vivarelli）
非常长的基线干涉测量图像重建数据集（MIT CSAIL）
虚拟KITTI - 从五个不同的虚拟世界生成的40个高分辨率视频（17,008帧），用于：对象检测和多对象跟踪，场景级和实例级语义分割，光流和深度估计（Gaidon，Wang， Cabon，Vig）
视觉对象跟踪挑战 - 这一挑战每年作为ICCV / ECCV研讨会举行，每年都有一个新的数据集和一个更新的评估工具包。（Kristan等人）
WHOI-Plankton - 103个类别的300万张微观海洋浮游生物图像（Olson，Sosik）
WILD：天气和Illumunation数据库（S. Narasimhan，C。Wang.S。Nayar，D。Stolyarov，K。Garg，Y。Schechner，H。Peri）
YACCLAB数据集 - YACCLAB数据集包括合成和真实二进制图像（Grana，Costantino; Bolelli，Federico; Baraldi，Lorenzo; Vezzani，Roberto）
YtLongTrack - 此数据集包含两个视频序列，其中包括低质量，极端长度和完全遮挡等挑战，包括手动注释的每帧姿势。（Lebeda，Hadfield，Matas，Bowden）

Image数据集

一、行动数据库

二、农业

三、属性识别

四、自动驾驶

五、生物/医药

六、相机校准

七、面部和眼睛/虹膜数据库

八、指纹

九、一般图像

十、一般RGBD和深度数据集

十一、一般视频

十二、手，手抓，手动和手势数据库

十三、图像，视频和形状数据库检索

十四、对象数据库

十五、人（静态和动态），人体姿势

十六、人员检测和跟踪数据库

十七、遥感

十八、机器人

十九、场景或场所，场景分割或分类

二十、细分（一般）

二十一、同时定位和映射

二十二、监督和跟踪

二十三、纹理

二十四、城市数据集

二十五、视觉与自然语言

二十六、其他收藏

二十七、其他

你可能感兴趣的:(Image数据集)