Horcham

搬运: CVonline: 图像数据库(一) (更新于20190821)

原文链接： http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm

CVonline：图像数据库

这是一个整理的图像和视频数据库列表，人们发现这些数据库对计算机视觉研究和算法评估很有用。

一篇重要文章我的测试数据有多好？介绍计算机视觉的安全分析（由Zendel，Murschitz，Humenberger和Herzner介绍）介绍了一种方法，用于确保您的数据集具有足够的多样性，数据集上的算法结果代表了在实际环境中可以预期的结果。特别是，该团队制作了可能导致算法出现问题的潜在危险清单（成像情况）。理想情况下，测试数据集应该包含相关危害的示例。

按主题索引

行动数据库

农业

属性识别

自动驾驶

生物/医药

相机校准

面部和眼睛/虹膜数据库

指纹

一般图像

一般RGBD和深度数据集

一般视频

手，手抓，手动和手势数据库

图像，视频和形状数据库检索

对象数据库

人（静态和动态），人体姿势

人员检测和跟踪数据库（另请参阅监视）

遥感

机器人

场景或场所，场景分割或分类

分割

同时定位和映射

监督和跟踪（另见人）

纹理

城市数据集

视觉与自然语言

其他收藏页面

杂项主题

其他有用的网站是：

学术种子 - 计算机视觉 - 以BitTorrent形式提供的30多个大型数据集
机器学习数据集 - 请参见CV选项卡
YACVID - 某些计算机视觉数据集的标记索引

行动数据库

另请参阅： Action Recognition的数据集摘要与联赛表（Gall，Kuehne，Bhattarai）。

20bn-Something-Something - 密集标记的视频剪辑，显示人类使用日常物品执行预定义的基本动作（Twenty Billion Neurons GmbH）

3D在线行动数据集 - 有七个行动类别（微软和南洋理工大学）

50沙拉 - 完整注释的4.5小时RGB-D视频+加速度计数据数据集，捕获25人准备两个混合沙拉（邓迪大学，塞巴斯蒂安斯坦）

办公活动的第一人称视觉数据集（FPVO） - FPVO包含使用12名参与者收集的办公活动的第一人称视频片段。（G. Abebe，A。Catala，A。Cavallaro）

ActivityNet - 人类活动理解的大型视频基准（200个课程，每班100个视频，648个视频小时）（Heilbron，Escorcia，Ghanem和Niebles）

视频中的动作检测 - MERL购物数据集由106个视频组成，每个视频的序列长约2分钟（Michael Jones，Tim Marks）

演员和动作数据集 - 3782个视频，七个类别的演员表演八种不同的动作（Xu，Hsieh，Xiong，Corso）

用于行动识别的各种标记视频数据集的分析整理（Kevin Murphy）

ASLAN动作相似性标记挑战数据库（Orit Kliper-Gross）

用于理解非结构化社交活动的属性学习 - 包含10种非结构化社交事件类别的视频数据库，以及69个属性的注释。（Y. Fu Fudan / QMUL，T。Hospedales Edinburgh / QMUL）

视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）

AVA：原子视觉动作的视频数据集 - 430个15分钟电影剪辑中的80个原子视觉动作。（谷歌机器感知研究小组）

BBDB - 棒球数据库（BBDB）是一个大型棒球视频数据集，包含4200小时的完整棒球比赛视频，有400,000个临时注释的活动片段。（Shim，Minho，Young Hwi，Kyungmin，Kim，Seon Joo）

使用标记来交互人物视频数据（Scott Blunsden，Bob Fisher，Aroosha Laghaee）

BU动作数据集 - 三个图像动作数据集（BU101，BU101未过滤，BU203未过滤），与视频数据集UCF101和ActivityNet的类别1：1对应。（S. Ma，SA Bargal，J。Zhang，L。Sigal，S。Sclaroff。）

伯克利MHAD：综合多模人类行动数据库（Ferda Ofli）

伯克利多模人类行动数据库 - 扩展应用领域的五种不同模式（加州大学伯克利分校和约翰霍普金斯大学）

早餐数据集 - 这是一个包含1712个视频剪辑的数据集，显示10个厨房活动，这些活动被手工分割成48个原子动作类。（H. Kuehne，AB Arslan和T. Serre）

Bristol Egocentric Object Interactions数据集 - 包含从第一人称（以自我为中心）观点拍摄的视频，其中3-5个用户在六个不同的位置执行任务（Dima Damen，Teesid Leelaswassuk和Walterio Mayol-Cuevas，布里斯托尔大学）

布朗早餐行动数据集 - 70个小时，10个不同的早餐准备活动400万帧（Kuehne，Arslan和Serre）

CAD-120数据集 - 侧重于高级活动和对象交互（康奈尔大学）

CAD-60数据集 - CAD-60和CAD-120数据集包含人类活动的RGB-D视频序列（康奈尔大学）

CVBASE06：带注释的体育视频（Janez Pers）

Charades数据集 - 来自267名志愿者的10,000个视频，每个视频都注释了多个活动，字幕，对象和时间本地化。（Sigurdsson，Varol，Wang，Laptev，Farhadi，Gupta）

可组合活动数据集 - 26个原子动作的不同组合形成16个活动类别，由14个科目和注释提供（智利大学和智利大学）

人类跌倒的连续多模态多视图数据集 - 数据集包括正常日常活动和模拟跌倒，用于评估人体跌倒检测。（Thanh-Hai Tran）

康奈尔活动数据集CAD 60，CAD 120（康奈尔机器人学习实验室）

DMLSmartActions数据集 - 十六名受试者以自然的方式进行了12种不同的行动。（不列颠哥伦比亚大学）

DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）

包含深度的人类行动视频数据集 - 它包含23种不同的行动（中央研究院的CITI）

DogCentric活动数据集 - 从安装在*狗*上的相机拍摄的第一人称视频*（Michael Ryoo）

爱丁堡ceilidh头顶视频数据 - 从头顶上看到的16个地面舞蹈，10个舞者遵循结构化的舞蹈模式（2种不同的舞蹈）。该数据集对于高度结构化的行为理解非常有用（Aizeboje，Fisher）

EPIC-KITCHENS - 由32名参与者在其原生厨房环境中记录的以自我为中心的视频，非脚本日常活动，11.5M帧，39.6K帧级动作片段和454.2K物体边界框（Damen，Doughty，Fidler等）

EPFL绉纱烹饪视频 - 分析1920x1080分辨率的6种结构化烹饪活动（12）视频（Lee，Ognibene，Chang，Kim和Demiris）

ETS曲棍球比赛事件数据集 - 此数据集包含使用固定摄像头拍摄的两个曲棍球比赛的镜头。（M.-A. Carbonneau，AJ Raymond，E。Granger和G. Gagnon）

FCVID：复旦 - 哥伦比亚视频数据集 - 根据239个类别手动注释的91,223个网络视频（江，吴，王，薛，张）

SoccerNet - 用于在足球视频中进行动作发现的可扩展数据集：500个足球游戏，完全注释主要动作（目标，牌，潜艇）和超过13K的足球比赛，注释500K注释事件字幕和游戏摘要。（Silvio Giancola，Mohieddine Amine，Tarek Dghaily，Bernard Ghanem）

G3D - 使用Microsoft Kinect（Victoria Bloom）捕获的20个游戏动作的同步视频，深度和骨架数据

G3Di - 此数据集包含12个科目，分为6对（金斯顿大学）

游戏3D数据集 - 游戏场景中的实时动作识别（金斯顿大学）

佐治亚理工学院自我中心活动 - 凝视（+） - 人们观看的视频和他们的凝视位置（Fathi，Li，Rehg）

HMDB：大型人体运动数据库（Serre Lab）

好莱坞三维数据集 - 涵盖14个动作类（哈德菲尔德和鲍登）的650个3D视频剪辑

人类行动和场景数据集（Marcin Marszalek，Ivan Laptev，Cordelia Schmid）

人体搜索搜索人类注释器的序列，其任务是在AVA和THUMOS14数据集中发现动作。（Alwassel，H.，Caba Heilbron，F.，Ghanem，B。）

Hollywood Extended - 937个视频剪辑，总共787720帧，包含来自69部好莱坞电影的16种不同动作的序列。（Bojanowski，Lajugie，Bach，Laptev，Ponce，Schmid和Sivic）

HumanEva：用于评估关节人体运动的同步视频和运动捕捉数据集（布朗大学）

I-LIDS视频事件图像数据集（用于智能检测系统的图像库）（Paul Hosner）

I3DPost多视图人类行动数据集（Hansung Kim）

IAS-lab Action数据集 - 包含足够多的操作和执行操作的人数（帕多瓦大学的IAS实验室）

ICS-FORTH MHAD101行动共同分割 - 共享一个或多个共同动作共同分割的 101对长期动作序列，包含三维骨架和视频相关的基于帧的特征（克里特岛大学和FORTH-ICS， K. Papoutsakis）

IIIT极限运动 - 来自YouTube的160个第一人称（自我中心）体育视频，帧级注释为18个动作类。（Suriya Singh，Chetan Arora和CV Jawahar。轨迹对齐）

INRIA Xmas运动采集序列（IXMAS）（INRIA）

InfAR数据集 - 不同时间神经计算的红外动作识别（陈强强，杜银河，刘江，吕静，杨鲁宇，孟德玉，Alexander G. Hauptmann）

JHMDB：基于来自HMDB51的928个剪辑的HMDB数据集（J-HMDB）的关节，包括21个动作类别（Jhuang，Gall，Zuffi，Schmid和Black）

JPL第一人称互动数据集 - 从第一人称角度拍摄的7种人类活动视频（Michael S. Ryoo，JPL）

耶拿行动识别数据集 - 爱宝犬行动（Korner和Denzler）

K3Da - Kinect 3D主动数据集 - K3Da（Kinect 3D主动）是一个真实的临床相关人类动作数据集，包含骨架，深度数据和相关参与者信息（D. Leightley，MH Yap，J。Coulson，Y。Barnouin和JS McPhee）

动力学人类动作视频数据集 - 300,000个视频剪辑，400个人类动作classe，10秒剪辑，每个剪辑单个动作（Kay，Carreira，et al）

KIT Robo-Kitchen活动数据集 - 由17人组成的540张剪辑，进行12项复杂的厨房活动。（L。Rybok，S。Friedberger，UD Hanebeck，R。Stiefelhagen）

KTH人类行动识别数据库（KTH CVAP实验室）

卡尔斯鲁厄运动，意图和活动数据集（MINTA） - 7种类型的日常生活活动，包括完全运动的原始部分。（D。Gehrig，P。Krauthausen，L。Rybok，H。Kuehne，UD Hanebeck，T。Schultz， R. Stiefelhagen）

LIRIS人类活动数据集 - 包含（灰色/ rgb /深度）视频，显示人们进行各种活动（Christian Wolf等，法国国家科学研究中心）

MEXaction2动作检测和本地化数据集 - 支持开发和评估在相对较大的视频数据库中“发现”短行动实例的方法：77小时，117个视频（Michel Crucianu和Jenny Benois-Pineau）

MLB-YouTube - 棒球视频中的活动识别数据集（AJ Piergiovanni，Michael Ryoo）

时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）

MPII烹饪活动数据集用于细粒度烹饪活动识别，其中还包括连续姿势估计挑战（Rohrbach，Amin，Andriluka和Schiele）

MPII Cooking 2数据集 - 细粒度烹饪活动的大型数据集，是MPII烹饪活动数据集的延伸。（Rohrbach，Rohrbach，Regneri，Amin，Andriluka，Pinkal，Schiele）

MSR-Action3D - 基准RGB-D动作数据集（Microsoft Research Redmond和University of Wollongong）

MSRActionPair数据集 - ：深度序列中活动识别的定向4D法线直方图（中佛罗里达大学和微软）

MSRC-12 Kinect手势数据集 - 来自执行12个手势的人的594个序列和719,359个帧（Microsoft Research Cambridge）

MSRC-12数据集 - 人体运动的序列，表示为身体部位，以及相关的姿势（Microsoft Research Cambridge and Cambridge of Cambridge）

MSRDailyActivity3D数据集 - 有16项活动（微软和西北大学）

ManiAc RGB-D动作数据集：不同的操纵动作，15种不同的版本，30种不同的操纵对象，20种长而复杂的链式操作序列（Eren Aksoy）

Mivia数据集 - 它由14个主题执行的7个高级动作组成。（Salemo大学的Mivia Lab）

MuHAVi - Multicamera人类行动视频数据（Hossein Ragheb）

多模态动作检测（MAD）数据集 - 它包含由20个主题执行的35个连续动作。（卡内基·梅隆大学）

多视图3D事件数据集 - 此数据集包括8个主题（加州大学洛杉矶分校）执行的8类事件

名古屋大学极低分辨率FIR图像动作数据集 - 由16x16低分辨率FIR传感器捕获的动作识别数据集。（名古屋大学）

NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）

西北 - 加州大学洛杉矶分校Multiview Action 3D - 有10个行动类别:(西北大学和加州大学洛杉矶分校）

Office活动数据集 - 它由Kinect 2.0从执行常见办公活动的不同主体获取的骨架数据组成。（A. Franco，A。Magnani，D。Maiop）

牛津电视人体互动（牛津视觉几何组）

PA-HMDB51 - 具有潜在隐私泄漏属性的人类动作视频（592）数据集注释：肤色，性别，面部，裸露和关系（Wang，Wu，Wang，Wang，Jin）

议会 - 议会数据集是228个视频序列的集合，描绘了希腊议会的政治演讲。（Michalis Vrigkas，Christophoros Nikou，Ioannins A. kakadiaris）

程序性人类行动视频 - 该数据集包含大约40,000个用于人类动作识别的视频，这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧，其可用于训练和评估模型，不仅是动作识别，而且还用于深度图估计，光流，实例分割，语义分割，3D和2D姿势估计以及属性学习的模型。（Cesar Roberto de Souza）

RGB-D活动数据集 - 数据集中的每个视频包含2-7个涉及与不同对象交互的操作。（康奈尔大学和斯坦福大学）

RGBD-Action-Completion-2016 - 该数据集包括414个完整/不完整的对象交互序列，跨越六个动作并呈现RGB，深度和骨架数据。（Farnoosh Heidarivincheh，Majid Mirmehdi，Dima Damen）

基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）

RGBD-SAR数据集 - RGBD-SAR数据集（中国电子科技大学和微软）

罗切斯特日常生活活动数据集（Ross Messing）

SBU Kinect交互数据集 - 它包含八种类型的交互（Stony Brook大学）

SBU-Kinect-Interaction数据集v2.0 - 它包含进行交互活动的人类RGB-D视频序列（Kiwon Yun等）

SDHA 2010年人类活动语义描述 - 人类互动（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）

SDHA人类活动语义描述2010年比赛 - 空中观点（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）

SFU排球小组活动识别 - 排球视频的2级注释数据集（9个玩家的动作和8个场景的活动）。（M.Ibrahim，S。Muralidharan，Z。Deng，A。Vahdat和G. Mori / Simon Fraser大学）

SYSU 3D人 - 对象交互数据集 - 40个科目进行12项不同的活动（中山大学）

ShakeFive数据集 - 仅包含两个动作，即握手和高五。（Universitit Utrecht）

ShakeFive2 - 153个高清视频中8个类别的肢体水平注释的二元人体交互数据集（Coert van Gemeren，Ronald Poppe，Remco Veltkamp）

野外体育视频（SVW） - SVW由Coach Eye智能手机用户使用智能手机拍摄的4200个视频，这是TechSmith公司开发的体育培训的领先应用程序。（Seyed Morteza Safdarnejad，Xiaoming Liu）

斯坦福体育赛事数据集（贾莉）

利兹活动数据集 - 早餐（LAD - 早餐） - 由15个带注释的视频组成，代表五个不同的人吃早餐或其他简单的一餐; （John Folkesson等人）

THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是用于RGBD视频中具有像素层手部注释的动作识别的大型数据集。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）

THUMOS - 在时间上未修剪的视频中的动作识别！ - 430小时的视频数据和4500万帧（Gorban，Idrees，Jiang，Zamir，Laptev Shah，Sukthanka）

TUM厨房数据集的日常操作活动（Moritz Tenorth，Jan Bandouch）

电视人体互动数据集（Alonso Patron-Perez）

下降检测数据集 - 两个场景中的六个主题连续执行了一系列操作（德克萨斯大学）

TJU数据集 - 包含在两个不同环境中由20个主题执行的22个动作; 共有1760个序列。（天津大学）

UCF-iPhone数据集 - 使用Apple iPhone 4智能手机上的惯性测量单元（IMU）从（6-9）个科目记录了9个有氧运动。（Corey McCall，Kishore Reddy和Mubarak Shah）

UPCV动作数据集 - 数据集由20个受试者两次执行的10个动作组成。（帕特雷大学）

UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，通过Xsens的MVN Suit和Microsoft Kinect RGB以及深度图像采集。（葡萄牙科英布拉系统与机器人研究所）

UCF 101动作数据集 101动作类，超过13k片段和27小时视频数据（佛罗里达中部大学）

UCF-犯罪数据集：监控视频中的真实异常检测 - 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频（128小时），包括13个现实异常，如战斗，交通事故，入室盗窃，抢劫等，以及正常活动。（中佛罗里达大学计算机视觉研究中心）

UCFKinect - 数据集由16个动作组成（中佛罗里达大学奥兰多分校）

加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn1 - RGB-D视频中的人机交互（Shu，Ryoo和Zhu）

加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn2 - RGB-D视频中的人机交互（第2版）（Shu，Gao，Ryoo和Zhu）

UCR Videoweb多摄像机广域活动数据集（Amit K. Roy-Chowdhury）

UTD-MHAD - 八名受试者进行了四次27次动作。（德克萨斯大学达拉斯分校）

UTKinect数据集 - 10个受试者（德克萨斯大学）进行了两次人类行为的十种类型

UWA3D多视图活动数据集 - 由10个人（西澳大利亚大学）进行了30项活动

佛罗里达中部大学 - 现实视频中的50个动作类别识别（3 GB）（Kishore Reddy）

佛罗里达中部大学 - ARG航空相机，屋顶摄像机和地面摄像机（UCF计算机视觉实验室）

佛罗里达中部大学 - 长片动作数据集（佛罗里达中部大学）

佛罗里达中部大学 - 体育行动数据集（佛罗里达中部大学）

佛罗里达中部大学 - YouTube动作数据集（体育）（佛罗里达中部大学）

未分类体育新闻视频 - 74个体育新闻视频数据库，标记有10类体育。旨在测试多标签视频标记。（T. Hospedales，爱丁堡/ QMUL）

乌得勒支多人运动基准（UMPM）。 - 基于动作捕捉数据的人物视频录像和基础事实的集合。（NP van der Aa，X。Luo，GJ Giezeman，RT Tan，RC Veltkamp。）

VIRAT视频数据集 - 从涉及人类和车辆的两大类活动（单一对象和双对象）中识别事件。（Sangmin Oh等）

维罗纳社交互动数据集（Marco Cristani）

ViHASi：虚拟人体动作剪影数据（用户ID：VIHASI密码：虚拟$虚拟）（Hossein Ragheb，金斯顿大学）

Videoweb（multicamera）活动数据集（B. Bhanu，G。Denina，C。Ding，A。Ivers，A。Kamal，C。Ravishankar，A。Roy-Chowdhury，B。Varda）

WVU多视图动作识别数据集（西弗吉尼亚大学）

WorkoutSU-10用于锻炼动作的Kinect数据集（Ceyhun Akgul）

WorkoutSU-10数据集 - 包含由专业培训师为治疗目的选择的锻炼行动。（萨班哲大学）

腕上摄像机视频数据集 - 对象操作（Ohnishi，Kanehira，Kanezaki，Harada）

YouCook - 带有注释的88个开源YouTube烹饪视频（Jason Corso）

YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集（Google Inc.）

农业

阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）

Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）

KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）

叶子计数数据集 - 估算小型植物生长阶段的数据集。（奥胡斯大学）

叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）

多物种果实花朵检测 - 该数据集由四组花卉图像组成，来自三种不同的树种：苹果，桃子和梨，以及伴随的地面真实图像。（Philipe A. Dias，Amy Tabb，Henry Medeiros）

植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）

植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）

属性识别

具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）

鸟类这个数据库包含6个不同类别的鸟类的600张图像（每个100个样本）。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）

蝴蝶这个数据库包含719种不同类型蝴蝶的619张图像。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）

CALVIN研究组数据集 - 使用眼动追踪，图像网络边界框，同步活动，火柴人和身体姿势，youtube对象，面部，马，玩具，视觉属性，形状类（CALVIN ggroup）进行对象检测

CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）

DukeMTMC属性 - DukeMTMC-reID的23个行人属性（Lin，Zheng，Zheng，Wu和Yang）

EMOTIC（情境中的情绪） - 嵌入其自然环境中的人物（34357）的图像，用2种不同的情感表示进行注释。（Ronak kosti，Agata Lapedriza，Jose Alvarez，Adria Recasens）

拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）

用于学习相对属性的LFW-10数据集 - 10,000对面部图像的数据集，具有10个属性的实例级注释。（CVIT，IIIT Hyderabad。）

市场-1501属性 - 1501名购物者的27个视觉属性。（林，郑，郑，吴，杨）

多级天气数据集 - 我们的多级基准数据集包含来自6个常见类别的65,000张图像，适用于晴天，阴天，下雨，下雪，阴霾和雷电天气。该数据集有益于天气分类和属性识别。（迪林）

个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）

UT-Zappos50K Shoes - 大型鞋类数据集，包含50,000个目录图像和超过50,000个成对相对属性标签，共11个细粒度属性（Aron Yu，Mark Stephenson，Kristen Grauman，UT Austin）

视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。

视觉隐私（VISPR）数据集 - 隐私多标签数据集（22k图像，68隐私属性）（Orekondy，Schiele，Fritz）

WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）

自动驾驶

AMUSE - 在多个测试驱动期间在真实交通场景中拍摄的汽车多传感器（AMUSE）数据集。（Philipp Koschorrek等）

自动驾驶 - 语义分割，行人检测，虚拟世界数据，远红外线，立体声，驾驶员监控。（CVC研究中心和UAB和UPC大学）

博世小交通灯数据集（BSTLD） - 用于交通灯检测，跟踪和分类的数据集。

DrivingStereo - 自动驾驶场景中立体匹配的大型数据集。涵盖多种驾驶场景的180k立体图像（杨，宋，黄，邓，石，周）

Boxy车辆检测数据集 - 一种车辆检测数据集，在200,000张图像中拥有199万个带注释的车辆。它包含AABB和关键点标签。

福特校园视觉和激光雷达数据集 - 来自专业（Applanix POS LV）和消费者（Xsens MTI-G）惯性测量单元（IMU），Velodyne 3D激光雷达扫描仪，两个推扫式前视Riegl激光雷达的时间注册数据，以及Point Grey Ladybug3全方位相机系统（Pandey，McBride，Eustice）

FRIDA（Foggy Road Image DAtabase）图像数据库 - 用于可见性和对比度恢复算法的性能评估的图像。FRIDA：18个城市道路场景的90幅合成图像。FRIDA2：330种不同道路场景的合成图像，其视点与车辆驾驶员的视点相近。（Tarel，Cord，Halmaoui，Gruyer，Hautiere）

House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了多种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）

印度驾驶数据集（IDD） - 来自印度的非结构化驾驶条件，具有50,000帧（10,000个语义和40,000个粗略注释），用于训练自动驾驶汽车以查看使用对象检测，场景级和实例级语义分段（CVIT，IIIT Hyderabad和Intel ）

自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自主驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）

LISA车辆检测数据集 - 在各种照明和交通条件下驾驶视频的第一人称色彩（Sivaraman，Trivedi）

LLAMAS无监督数据集 - 具有3d线，像素级虚线标记和各个线的曲线的100,000个图像的车道标记检测和分割数据集。

失物招领数据集 - 失物招领数据集解决了自动驾驶应用中发现意外的小型道路危险（通常由货物丢失引起）的问题。（Sebastian Ramos，Peter Pinggera，Stefan Gehrig，Uwe Franke，Rudolf Mester，Carsten Rother）

nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）

RESIDE（现实单图像去雾） - 目前最大规模的基准测试，包括合成和真实世界的模糊图像，用于图像去雾研究。RESIDE突出了各种数据源和图像内容，并提供各种培训或评估目的。（李博琪，任文琦，傅登攀，陶大成，丹峰，曾文君，王章阳）

SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）

多车辆立体事件摄像机数据集 - 包含具有地面真实姿势，深度图和光流的立体对DAVIS 346b事件摄像机的多个序列。（lex Zihao Zhu，Dinesh Thakur，Tolga Ozaslan，Bernd Pfrommer，Vijay Kumar，Kostas Daniilidis）

图像和注释的SYNTHetic集合 - 在驾驶场景的背景下帮助语义分割和相关场景理解问题的目的。（计算机视觉中心，UAB）

TRoM：清华道路标记 - 这是一个有助于自动驾驶和ADAS道路标记分割领域的数据集。（刘晓龙，邓志东，曹乐乐，陆洪超）

密歇根大学北校区长期视野和激光雷达数据集 - 在15个月的时间内，在室内和室外，每周两次，每天不同的时间间隔，大约每两周一次。包括：移动障碍物（例如，行人，骑自行车和汽车），变化的照明，不同的观点，季节和天气变化（例如，落叶和雪），以及由施工引起的长期结构变化。包括地面真相姿势。（Carlevaris-Bianco，Ushani，Eustice）

UZH-FPV无人机赛车数据集 - 用于视觉惯性测距和SLAM。28个真实世界第一人称视角序列，包括室内和室外，包括图像，IMU，事件和地面实况（Delmerico，Cieslewski，Rebecq，Faessler，Scaramuzza）

生物/医药

2008年MICCAI MS病变分割挑战（美国国立卫生研究院神经科学研究蓝图）

ASU DR-AutoCC数据 - 糖尿病视网膜病变分类数据集的多实例学习特征空间（Ragav Venkatesan，Parag Chandakkar，Baoxin Li - 亚利桑那州立大学）

阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）

用于椎体定位基准的带注释的脊柱CT数据库，125名患者，242次扫描（Ben Glockern）

BRATS - 脑多参数磁共振图像中肿瘤结构的识别和分割（TU Munchen等）

乳腺超声数据集B - 2D乳腺超声图像，53个恶性病变和110个良性病变。（UDIAT诊断中心，MH Yap，R。Marti）

Calgary-Campinas公共脑MR数据集：来自三个不同供应商（GE，飞利浦和西门子）的扫描仪和两个磁场强度（1.5 T和3 T）的359名受试者获得了T1加权脑MRI。扫描对应于较老的成人受试者。（Souza，Roberto，Oeslle Lucena，Julia Garrafa，David Gobbi，Marina Saluzzi，Simone Appenzeller，Leticia Rittner，Richard Frayne和Roberto Lotufo）

CheXpert - 胸部X射线的大型数据集和自动胸部X射线解释的竞争，具有不确定性标签和放射科医师标记的参考标准评估集（Irvin，Rajpurkar等）

Cholec80：80个胆囊腹腔镜视频，注释了相位和工具信息。（Andru Putra Twinanda）

CRCHistoPhenotypes - 标记的细胞核数据 - 结肠直肠癌？组织学图像？由近30,000个点状核组成，超过22,000个细胞类型标记（Rajpoot + Sirinukunwattana）

Cavy Action Dataset - 16个序列，640 x 480分辨率，每秒7.5帧（fps），共有大约31621506帧（272 GB）相互作用的豚鼠（豚鼠）（Al-Raziqi和Denzler）

细胞跟踪挑战数据集 - 具有基本事实的2D / 3D延时视频序列（Ma等，Bioinformatics 30：1609-1617,2014）

计算机断层扫描肺气肿数据库（Lauge Sorensen）

COPD机器学习数据集 - 来自肺部计算机断层扫描（CT）图像的特征数据集的集合，可用于慢性阻塞性肺病（COPD）的诊断。该数据库中的图像被弱标记，即每个图像，给出诊断（COPD或无COPD），但不知道肺的哪些部分受到影响。此外，图像是在不同的站点和不同的扫描仪获得的。这些问题与机器学习中的两种学习场景有关，即多实例学习或弱监督学习，以及转移学习或领域适应。（Veronika Cheplygina，Isabel Pino Pena，Jesper Holst Pedersen，David A. Lynch，Lauge S.，Marleen de Bruijne）

CREMI：MICCAI 2016 Challenge - 神经组织，神经元和突触分割，突触伴侣注释的6卷电子显微镜。（Jan Funke，Stephan Saalfeld，Srini Turaga，Davi Bock，Eric Perlman）

CRIM13 Caltech Resident-Intruder Mouse数据集 - 237个10分钟视频（25 fps）注释动作（13个班级）（Burgos-Artizzu，Dollar，Lin，Anderson和Perona）

CVC冒号DB - 结肠镜检查视频的注释视频序列。它包含15个短的结肠镜检查序列，来自15个不同的研究。在每个序列中显示了一个息肉。（Bernal，Sanchez，Vilarino）

DIADEM：轴突和树突形态学竞赛的数字重建（艾伦脑科学研究所等）

DIARETDB1 - 标准糖尿病视网膜病变数据库（Lappeenranta Univ of Technology）

驱动：用于血管提取的数字视网膜图像（乌得勒支大学）

DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像

可变形图像配准实验室数据集 - 用于可变形图像配准（DIR）空间精度性能的客观和严格评估。（Richard Castillo等人）

DERMOFIT皮肤癌数据集 - 在相同的受控条件下捕获10个类别的1300个病灶。包括病变分割面罩（Fisher，Rees，Aldridge，Ballerini等）

皮肤镜检查图像（Eric Ehrsam）

EATMINT（用于中介INTeraction的情感意识工具）数据库 - EATMINT数据库包含协作设置中的情感和社交行为的多模态和多用户录制。（Guillaume Chanel，Gaelle Molinari，Thierry Pun，Mireille Betrancourt）

EPT29。这个数据库包含4841个样本的2613个样本，包括29个分类的EPT :( Tom等）

EyePACS - 视网膜图像数据库由300多万不同人群的视网膜图像组成，具有不同程度的糖尿病视网膜病变（EyePACS）

FIRE眼底图像注册数据集 - 134个视网膜图像对和注册真实性。（FORTH-ICS）

FMD - 荧光显微镜去噪数据集 --12,000个真实荧光显微镜图像（Zhang，Zhu，Nichols，Wang，Zhang，Smith，Howard）

组织学图像采集库（HICL） - HICL是来自各种疾病（例如脑癌，乳腺癌和HPV（人乳头瘤病毒） - 宫颈癌）的3870个病理图像（迄今为止）的汇编。（医学图像和信号处理（MEDISP）实验室，西阿提卡大学工程学院生物医学工程系）

蜜蜂分割数据集 - 它是一个数据集，包含蜂巢的2D表面上数百只蜜蜂的位置和方向角。（Bozek K，Hebert L，Mikheyev AS，Stephesn GJ）

IIT MBADA鼠标 - 小鼠行为数据。FLIR A315，空间分辨率为320 ?? 240px，30fps，50x50cm开放式竞技场，两位专家为三只不同的小鼠对，小鼠身份。（意大利技术研究所，PAVIS实验室）

印度糖尿病视网膜病变图像数据集 - 该数据集包括在像素级注释的视网膜眼底图像，用于与糖尿病视网膜病变相关的病变。此外，它提供了糖尿病性视网膜病和糖尿病性黄斑水肿的疾病严重性。该数据集可用于开发和评估用于早期检测糖尿病性视网膜病变的图像分析算法。（Prasanna Porwal，Samiksha Pachade，Ravi Kamble，Manesh Kokare，Girish Deshmukh，Vivek Sahasrabuddhe，Fabrice Meriaudeau）

IRMA（医学应用中的图像检索） - 该系列编辑匿名射线照片（Deserno TM，Ott B）

IVDM3Seg - 24个下颌骨至少7个IVD的 3D多模态MRI数据集，从12个不同阶段的受试者中收集（Zheng，Li，Belavy）

KID - 用于医疗决策支持的胶囊内窥镜数据库（Anastasios Koulaouzidis和Dimitris Iakovidis）

叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）

LIDC-IDRI - 肺部图像数据库联盟图像采集（LIDC-IDRI）包括诊断和肺癌筛查胸部计算机断层扫描（CT）扫描，带有标记的注释病变。

LITS肝脏肿瘤分割 - 130个3D CT扫描，肝脏和肝脏肿瘤的分割。公共基准与Codalab.org的排行榜（Patrick Christ）

乳房X线摄影图像分析主页 - 数据库链接的集合

医学图像数据库 - 基于真实情况的乳房异常超声图像数据库。（Stanislav Makhanov教授，biomedsiit.com）

迷你乳腺摄影数据库（乳腺图像分析学会）

麻省理工学院CBCL自动鼠标行为识别数据集（Nicholas Edelman）

蛾细粒度识别 - 675个类似的类，5344个图像（Erik Rodner等）

Mouse Embryo Tracking Database - 细胞分裂事件检测（Marcelo Cicconet，Kris Gunsalus）

MUCIC：马萨里克大学细胞图像采集 - 用于基准测试的细胞/组织的2D / 3D合成图像（马萨里克大学）

NIH胸部X射线数据集 - 112,120张X射线图像，疾病标签来自30,805名独特患者。（NIH）

OASIS - 开放获取系列成像研究 - 大脑的500多个MRI数据集（华盛顿大学，哈佛大学，生物医学信息学研究网络）

植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）

RatSI：大鼠社交互动数据集 - 9只完全注释（11级）视频（15分钟，25 FPS）的两只大鼠在笼子里进行社交互动（Malte Lorbach，Noldus Information Technology）

视网膜眼底图像 - 血管分叉和交叉的基本事实（格罗宁根大学）

SCORHE - 1,2和3个鼠标行为视频，9个行为，（Ghadi H. Salem，等，NIH）

SNEMI3D - EM图像中神经突的3D分割

视网膜的结构分析 - 描述（400+视网膜图像，具有地面真相分割和医学注释）

脊柱和心脏数据（伦敦安大略省数字成像组，硕力）

Stonefly9这个数据库包含772个石蝇（汤姆等）9个标本的3826张图像。

合成迁移细胞 -Six人工迁移细胞（中性粒细胞）超过98个时间帧，各种水平的高斯/泊松噪声和不同的路径特征与地面实况。（Constantino Carlos Reyes-Aldasoro博士等人）

UBFC-RPPG数据集 - 使用CMS50E透射式脉搏血氧仪（Bobbia，Macwan，Benezeth，Mansouri，Dubois）获取的远程光电容积描记图（rPPG）视频数据和地面实况

Uni Bremen Open，腹部手术RGB数据集 - 使用直接安装在患者上方的Kinect v2记录完整，开放式腹部手术，俯视患者和工作人员。（Joern Teuber，Gabriel Zachmann，不来梅大学）

佛罗里达中部大学 - DDSM：用于筛查乳腺摄影的数字数据库（佛罗里达中部大学）

VascuSynth - 具有基本事实的120个3D血管树状结构（Mengliu Zhao，Ghassan Hamarneh）

VascuSynth - 血管合成器以3D体积生成血管树。（Ghassan Hamarneh，Preet Jassi，Mengliu Zhao）

York心脏MRI数据集（Alexander Andreopoulos）

相机校准

折反射相机校准图像（Yalin Bastanlar）

GoPro-Gyro数据集 - 该数据集由许多广角滚动快门视频序列和相应的陀螺仪测量组成（Hannes等）

LO-RANSAC - 用于估计单应性和极线几何的LO-RANSAC库（K.Lebeda，J。Matas和O. Chum）

面部和眼睛/虹膜数据库

2D-3D人脸数据集 - 此数据集包括2D人脸图像对及其对应的具有几何细节的3D人脸几何模型。（郭玉东，张居勇，蔡剑飞，蒋博一，郑建民）

300个野外视频（300-VW） - 68个面部地标追踪（Chrysos，Antonakos，Zafeiriou，Snape，Shen，Kossaifi，Tzimiropoulos，Pantic）

3D面具攻击数据库（3DMAD） - 使用Kinect RGBD和眼睛位置的1765人中的76500帧（Sebastien Marcel）

3D面部表情 - 宾厄姆顿大学3D静态和动态面部表情数据库（Lijun Yin，Jeff Cohn和队友）

AginG Faces in the wild v2数据库描述：AGFW-v2由36,299个面部图像组成，分为11个年龄组，每组间隔5年。平均而言，每组有3,300张图像。AGFW-v2中的面部图像不是公众人物，不太可能有明显的化妆或面部修改，有助于在学习过程中嵌入准确的老化效果。（Chi Nhan Duong，Khoa Luu，Kha Gia Quach，Tien D. Bui）

用于面部和说话人识别的视听数据库（Mobile Biometry MOBIO http://www.mobioproject.org/）

BANCA面部和语音数据库（萨里大学）

Binghampton Univ 3D静态和动态面部表情数据库（Lijun Yin，Peter Gerhardstein和队友）

Binghamton-Pittsburgh 4D自发面部表情数据库 - 由2D自发面部表情视频和FACS代码组成。（Lijun Yin等人）

BioID人脸数据库（BioID组）

BioVid热痛数据库 - 该视频（和生物医学信号）数据集包含87名受试验诱导的热痛的研究参与者的面部和生理心理反应。（马格德堡大学（神经信息技术组）和乌尔姆大学（Emotion Lab））

生物识别数据库 - 与虹膜识别相关的生物识别数据库（Adam Czajka）

Biwi 3D视听语音情感语料库 - 1000个高质量，动态的面部3D扫描，同时发出一组英语句子。

博斯普鲁斯海峡3D / 2D数据库的FACS注释面部表情，头部姿势和面部遮挡（Bogazici大学）

漫画/ Photomates数据集 - 具有正面和相应的漫画线条图的数据集（Tayfun Akgul）

CASIA-IrisV3（中国科学院，TN Tan，Z。Sun）

CASIR Gaze Estimation数据库 - RGB和深度图像（来自Kinect V1.0）和面部特征的基础真值，对应于凝视估计基准的实验：（Filipe Ferreira等）

CMU面部表情数据库（CMU / MIT）

CMU Multi-PIE人脸数据库 - 超过750,000张337人的图像，在五个月内最多可记录四次。（杰夫科恩等人）

CMU姿势，照明和表达（PIE）数据库（Simon Baker）

CMU / MIT正面（CMU / MIT）

CSSE面部的正面强度和范围图像（Ajmal Mian）

CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）

Front--Profile in the Wild中的名人 - 500多张名人在正面和侧面视图中的图像（Sengupta，Cheng，Castillo，Patel，Chellappa，Jacobs）

Cohn-Kanade AU编码表达数据库 - 100多个受试者的500+表达序列，由激活的行动单位编码（Affect Analysis Group，匹兹堡大学）

Cohn-Kanade AU编码表达数据库 - 用于自动面部图像分析和合成以及感知研究的研究（Jeff Cohn等）

哥伦比亚凝视数据集 - 5,880个图像，56人，5个头部姿势和21个凝视方向（Brian A. Smith，Qi Yin，Steven K. Feiner，Shree K. Nayar）

计算机视觉实验室人脸数据库（CVL人脸数据库） - 数据库包含798张114人的图像，每人7张图像，可免费用于研究目的。（Peter Peer等）

深远的未来凝视 - 该数据集由55个受试者执行的搜索和检索任务的57个序列组成。每个视频片段持续约15分钟，帧速率为10 fps，帧分辨率为480×640。每个主题被要求搜索22个项目（包括挂绳，笔记本电脑）的列表并将它们移动到包装位置（餐桌）。（新加坡国立大学信息通信研究所）

DISFA +：自发面部行动数据库的延伸丹佛强度 - DISFA（MH Mahoor）的扩展

DISFA：自发面部行动数据库的丹佛强度 - 一个非摆姿势的面部表情数据库，适用于那些有兴趣开发自动行动单元检测的计算机算法及其由FACS描述的强度的人。（MH Mahoor）

DHF1K - 1000个精心挑选的视频序列，带有17个观众的注视注释。（沉建兵教授）

EURECOM面部化妆品数据库 - 389张图片，50人有/无化妆，有关化妆量和位置的注释。（Jean-Luc DUGELAY等）

EURECOM Kinect人脸数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等）

EYEDIAP数据集 - EYEDIAP数据集旨在训练和评估RGB和RGB-D数据的凝视估计算法。它包含多种参与者，头部姿势，凝视目标和感知条件。（Kenneth Funes和Jean-Marc Odobez）

Face2BMI数据集 Face2BMI数据集包含2103对面部，具有相应的性别，身高以及之前和当前的体重，允许训练可以从剖面图预测身体质量指数（BMI）的计算机视觉模型。（Enes Kocabey，Ferda Ofli，Yusuf Aytar，Javier Marin，Antonio Torralba，Ingmar Weber）

FDDB：人脸检测数据集和基准 - 研究无约束人脸检测（马萨诸塞大学计算机视觉实验室）

不同年龄人脸的FG-Net老龄化数据库（面部和手势识别研究网络）

人脸识别大挑战数据集（FRVT - 人脸识别供应商测试）

FMTV - 拉瓦尔脸部动作和延时视频数据库。238个热/视频科目，具有4年以上的各种姿势和面部表情（Ghiass，Bendada，Maldague）

面部超分辨率数据集 - 使用双摄像头设置（程超曲等）拍摄的地面真实HR-LR面部图像

FaceScrub - 拥有超过100,000人脸图像（530人）（50:50男性和女性）的数据集（H.-W. Ng，S。Winkler）

FaceTracer数据库 - 15,000张面孔（Neeraj Kumar，PN Belhumeur和SK Nayar）

面部表情数据集 - 该数据集由在现实世界条件下记录的242个面部视频（168,359帧）组成。（Daniel McDuff等人）

佛罗伦萨2D / 3D混合面数据集 - 弥合了2D，基于外观的识别技术和全3D方法之间的差距（Bagdanov，Del Bimbo和Masi）

面部识别技术（FERET）数据库（美国国家标准与技术研究院）

Gi4E数据库 - 眼睛跟踪数据库，使用标准网络摄像头拍摄1300多张图像，对应于不同的主体，注视屏幕上的不同点，包括地面真相2D虹膜和角点（Villanueva，Ponz，Sesma-Sanchez，Mikel Porta，和Cabeza）

谷歌面部表情比较数据集 - 一个大型的面部表情数据集，由面部图像三元组和人类注释组成，指定每个三元组中的哪两个面在面部表情方面形成最相似的对，这与主要关注的数据集不同离散情绪分类或行动单位检测（Vemulapalli，Agarwala）

Hannah和她的姐妹数据库 - 一个密集的视听人物导向的面部，语音片段，镜头边界的真实注释（Patrick Perez，Technicolor）

顶空数据集 - 顶空数据集是一组完整人体头部的3D图像，由1519名穿着紧身乳胶帽的受试者组成，以减少发型的影响。（Christian Duncan，Rachel Armstrong，Alder Hey Craniofacial Unit，英国利物浦）

香港脸部素描数据库

IDIAP头部姿势数据库（IHPD） - 数据集包含一组会议视频以及各个参与者的主要实际情况（约128分钟）（Sileye Ba和Jean-Marc Odobez）

IARPA Janus基准数据集 - IJB-A，IJB-B，IJB-C，FRVT（NIST）

IMDB-WIKI - 500k +带有年龄和性别标签的脸部图像（Rasmus Rothe，Radu Timofte，Luc Van Gool）

印度电影人脸数据库（IMFDB） - 一个大型无约束人脸数据库，包含来自100多个视频（Vijay Kumar和CV Jawahar）的100位印度演员的34512幅图像

伊朗人脸数据库 - IFDB是中东地区第一个图像数据库，包含年龄，姿势和表情的彩色面部图像，其主题范围为2-85。（Mohammad Mahdi Dehshibi）

日本女性面部表情（JAFFE）数据库（Michael J. Lyons）

LFW：野性的标记面孔 - 不受约束的面部识别

LS3D-W - 一个大型3D人脸对齐数据集，注释68个点，包含在“野外”设置中捕获的面部。（Adrian Bulat，Georgios Tzimiropoulos）

MAFA：MAsked FAces - 30,811张图片，带有35,806张标记的MAsked FAces，每张蒙面的6个主要属性。（葛志明，贾莉，叶启庭，赵珞）

化妆诱导面部欺骗（MIFS） - 试图破坏目标身份的107次化妆变形。还有其他数据集。（Antitza Dantcheva）

Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）

麻省理工学院CBCL人脸识别数据库（生物学和计算机学习中心）

麻省理工学院面部数据库整理（Ethan Meyers）

麻省理工学院眼动追踪数据库（1003张图片）（Judd等）

MMI面部表情数据库 - 包含75个科目的2900个视频和高分辨率静止图像，注释为FACS AU。

MORPH（颅面纵向形态人脸数据库）（北卡罗来纳大学威尔明顿分校）

MPIIGaze数据集 - 213,659个样本，在不同照明条件和自然头部运动下具有眼睛图像和凝视目标，每天使用时从15名参与者及其笔记本电脑中收集。（张旭聪，Yuguke Sugano，Mario Fritz，Andreas Bulling。）

曼彻斯特注释说话面部视频数据集（Timothy Cootes）

MegaFace - 100万面临边界框（Kemelmacher-Shlizerman，Seitz，Nech，Miller，Brossard）

音乐视频数据集 - 来自YouTube的8个音乐视频，用于在不受约束的环境中开发多面部跟踪算法（张顺，黄佳斌，杨明轩）

NIST面部识别大挑战（FRGC）（NIST）

NIST照片识别数据库（美国国家标准与技术研究院）

NRC-IIT面部视频数据库 - 该数据库包含一对短视频片段，每个片段显示坐在显示器前面的计算机用户的面部，展示各种面部表情和方向（Dmitry Gorodnichy）

Notre Dame Iris Image Dataset（Patrick J. Flynn）

巴黎圣母院的脸，红外线脸，3D脸，表情，人群和眼睛生物识别数据集（巴黎圣母院）

ORL人脸数据库：40人，10人观看（ATT剑桥实验室）

OUI-Adience Faces - 针对性别和年龄分类以及3D面部（OUI）的未过滤面部

牛津：面孔，鲜花，多视图，建筑物，物体类别，运动分割，仿射协变区域，misc（Oxford Visual Geometry Group）

Pandora - POSEidon：面向驾驶员姿势的深度（Borghi，Venturelli，Vezzani，Cucchiara）

PubFig：Public Figures Face Database（Neeraj Kumar，Alexander C. Berg，Peter N. Belhumeur和Shree K. Nayar）

QMUL-SurvFace - 一个大型人脸识别基准，专门用于实际监控人脸分析和匹配。（QMUL计算机视觉组）

重新标记在野外的面孔 - 原始图像，但使用“深漏斗”方法对齐。（马萨诸塞大学阿默斯特分校）

RT-GENE：在自然环境中进行实时眼睛注视估计 122,531张图像，在自由观察条件和大型相机距离下，受试者的地面真实眼睛注视和头部姿势标签（Fischer，Chang，Demiris，伦敦帝国理工学院）

S3DFM - 爱丁堡语音驱动的3D面部运动数据库。77个人重复说10个密码：1秒500帧/秒600x600像素{IR强度视频，注册深度图像}加同步44.1 Khz音频。还有26人（10次重复）在说话时移动头部（张，费舍尔）

人类视觉输入的凝视对齐记录中的显着特征 - 人类凝视 - 临时数据的结核“在野外”（Frank Schumann等）

微型面部运动的SAMM数据集 - 该数据集包含来自13个不同种族的32名参与者的159次自发微型面部运动。（A.Davison，C.Lansley，N.Costen，K.Tan，MHYap）

SCface - 监控摄像头人脸数据库（Mislav Grgic，Kresimir Delac，Sonja Grgic，Bozidar Klimpak）

SiblingsDB - SiblingsDB包含两个数据集，描述与兄弟关系相关的个人图像。（Politecnico di Torino /计算机图形和视觉组）

使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）

自发情绪多模式数据库（SEM-db） - 用HD RGB，面部深度和IR帧，EEG信号和眼睛注视数据记录的视觉刺激数据的非姿势反应（Fernandez。黑山，Gkelias，Argyriou）

UNBC-McMaster肩痛表达档案数据库 - 痛苦的数据：UNBC-McMaster肩痛表达档案数据库（Lucy等人）

约克3D耳朵数据集 - 约克3D耳朵数据集是一组500个3D耳朵图像，由详细的2D标记合成，并以Matlab格式（.mat）和PLY格式（.ply）提供。（Nick Pears，Hang Dai，Will Smith，约克大学）

特隆赫姆Kinect RGB-D人物重新识别数据集（Igor Barros Barbosa）

UB KinFace数据库 - 布法罗大学亲属验证和识别数据库

UBIRIS：嘈杂的可见波长虹膜图像数据库（贝拉大学）

UMDFaces - 来自22,000个视频和370,000个带注释静止图像的约370万个带注释的视频帧。（Ankan Bansal等人）

UPNA Head Pose数据库 - 头部姿势数据库，包含120个网络摄像头视频，包含引导移动序列和自由移动序列，包括地面真实头部姿势和自动注释的2D面部点。（亚利桑那州，Bengoechea，Villanueva，Cabeza）

UPNA合成头部姿势数据库 - UPNA头部姿势数据库的合成复制品，具有120个视频，其2D地面实况地标投影，相应的头部姿势基础事实，3D头部模型和相机参数。（Larumbe，Segura，Ariz，Bengoechea，Villanueva，Cabeza）

UTIRIS跨光谱虹膜图像数据库（Mahdi Hosseini）

UvA-NEMO微笑数据库 - 来自400名受试者的1240个微笑视频（597个自发和643个构成），包括年龄，性别和血缘关系注释（Gevers，Dibeklioglu，Salah）

VGGFace2 - VGGFace2是一个大型人脸识别数据集，涵盖了姿势，年龄，光照，种族和职业的巨大变化。（牛津视觉几何组）

VIPSL数据库 - VIPSL数据库用于面部素描 - 照片合成和识别的研究，包括200个科目（每个科目1张照片和5张草图）。（Nannan Wang）

视觉搜索零镜头数据库 - 在三个日益复杂的视觉搜索任务中收集人类眼睛跟踪数据：对象阵列，自然图像和Waldo图像。（Kreiman实验室）

VT-KFER：用于自发和非自发面部表情识别的基于Kinect的RGBD +时间数据集--3个主题，1,956个RGBD序列，3个姿势中的6个面部表情（Aly，Trubanova，Abbott，White和Youssef）

华盛顿面部表情数据库（FERG-DB） - 一个由6个程式化（Maya）角色组成的数据库，带有7个带注释的面部表情（Deepali Aneja，Alex Colburn，Gary Faigin，Linda Shapiro和Barbara Mones）

WebCaricature数据集 - WebCaricature数据集是一个大型的照片漫画数据集，由来自网络收集的252个人的6042幅漫画和5974张照片组成。（景火，李文斌，史英桓，杨高，胡钧军）

更广泛的脸部：人脸检测基准 - 32,203张图像，393,703张标记面，61个活动类（Shuo Yang，Ping Luo，Chen Change Loy，Xiaoou Tang）

XM2VTS Face视频序列（295）：扩展的M2VTS数据库（XM2VTS） -（萨里大学）

耶鲁人脸数据库 - 10人的11个表达（A. Georghaides）

耶鲁人脸数据库B - 576人观看条件10人（A. Georghaides）

约克大学眼动追踪数据集（120图像）（Neil Bruce）

YouTube Faces DB - 1,525个不同的人的3,425个视频。（Wolf，Hassner，Maoz）

苏黎世自然图像 - 用于在一系列眼动追踪研究中创建自然刺激的图像材料（Frey等人）

指纹

FVC指法验证竞赛2002年数据集（博洛尼亚大学）

FVC指法验证竞赛2004年数据集（博洛尼亚大学）

指纹手册Minutiae Marker（FM3）数据库： - 指纹手动细节标记（FM3）数据库（Mehmet Kayaoglu，Berkay Topcu和Umut Uludag）

NIST指纹数据库（美国国家标准与技术研究院）

SPD2010指纹奇点检测竞赛（SPD 2010委员会）

一般图像

用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物破坏的像素和强度对齐图像对。（J. Anaya，A。Barbu）

与Vincent van Gogh相关的绘画数据库 - 这是为“从印象派到表现主义：自动识别梵高的绘画”（Guilherme Folego和Otavio Gomes和Anderson Rocha）的论文建立的数据集VGDB-2016

AMOS：许多户外场景档案（20 + m）（Nathan Jacobs）

航拍图像使用不变的颜色特征和阴影信息从航拍图像构建检测。（Beril Sirmacek）

近似重叠误差数据集具有稀疏地面实况匹配集的图像对，用于评估局部图像描述符（Fabio Bellavia）

AutoDA（自动数据集扩充） - 自动构建的图像数据集，包括1250万张图像，其中包含1000种ILSVRC2012（Bai，Yang，Ma，Zhao）的相关文本信息

BGU自然场景高光谱图像数据库（Ohad Ben-Shahar和Boaz Arad）

布朗大学二元图像数据库（Ben Kimia）

Butterfly-200 - Butterfly-20是用于细粒度图像分类的图像数据集，其包含25,279个图像并且涵盖200种，116属，23个亚科和5个家族的四个级别类别。（陈天水）

CMP Facade数据库 - 包括来自不同地方的606个矫正图像，其中有12个建筑类注释。（Radim Tylecek）

加州理工学院 - UCSD Birds-200-2011（Catherine Wah）

颜色校正数据集 - 基于Homography的注册图像，用于评估图像拼接的颜色校正算法。（法比奥贝拉维亚）

哥伦比亚多光谱图像数据库（F. Yasuma，T。Mitsunaga，D。Iso和SK Nayar）

DAQUAR（视觉图灵挑战） - 包含关于真实世界室内场景的问题和答案的数据集。（Mateusz Malinowski，Mario Fritz）

达姆施塔特噪声数据集 - 50对真实噪声图像和相应的地面实况图像（RAW和sRGB）（Tobias Plotz和Stefan Roth）

美国电影预告片2010-2014数据集 - 包含474个好莱坞电影预告片的链接以及相关的元数据（流派，预算，运行时，发布，MPAA评级，发布的屏幕，续集指标）（USC信号分析和解释实验室）

DIML Multimodal Benchmark - 评估光度和几何变化下的匹配性能，100张1200 x 800尺寸的图像。（延世大学）

DSLR照片增强数据集（DPED） - 由三个智能手机和一个数码单反相机在野外同步拍摄的22K照片，用于比较来自多个低质量图像（Ignatov，Kobyshev，Timofte，Vanhoey和Van Gool）的高质量图像。

Flickr风格 - 80K Flickr照片注释20个精选风格标签，85K绘画注释25个风格/流派标签（Sergey Karayev）

Flickr1024：立体图像数据集超分辨率 - 1024个高质量图像配对并涵盖多种情景（Wang，Wang，Yang，An，Guo）

Forth Multispectral Imaging Datasets - 来自5幅绘画的23个光谱带的图像。图像用地面实况数据注释。（Karamaoynas Polykarpos等）

General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）

GOPRO数据集 - 具有清晰图像基础事实的模糊图像数据集（Nah，Kim和Lee）

HIPR2图像不同类型图像的目录（Bob Fisher等）

HPatches - 手工和学习本地描述符的基准和评估（Balntas，Lenc，Vedaldi，Mikolajczyk）

用于自然场景中局部照明的空间分布的高光谱图像 - 用于嵌入用于局部照明估计的探测球体的自然场景的30个校准的高光谱辐射图像。（Nascimento，Amano和Foster）

自然场景的高光谱图像 - 2002（David H. Foster）

自然场景的高光谱图像 - 2004（David H. Foster）

ISPRS多平台摄影测量数据集 - 1：最低点和斜空间图像加2：无人机和地面图像组合（Francesco Nex和Markus Gerke）

LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）

ImageNet大规模视觉识别挑战 - 目前有200个对象类和500 + K图像（Alex Berg，Jia Deng，Fei-Fei Li等）

ImageNet语言组织（WordNet）分层图像数据库 - 10E7图像，15K类别（李飞飞，贾登，郝素，李凯）

通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）

Kodak McMaster demosaic数据集 - （Zhang，Wu，Buades，Li）

LabelMeFacade数据库 - 945标记的建筑图像（Erik Rodner等）

局部照明高光谱辐射图像 - 用于局部照明估计的嵌入探测球体的自然场景的30个高光谱辐射图像（Sgio MC Nascimento，Kinjiro Amano，David H. Foster）

麦吉尔校准彩色图像数据库（Adriana Olmos和Fred Kingdom）

乘法失真图像数据库 - 用于评估多重失真图像上图像质量评估指标结果的数据库。（周飞）

NPRgeneral - 用于评估图像样式算法的标准化图像集合。（David Mold，Paul Rosin）

NYU对称数据库 - 176个单对称和63个多对称图像（Marcelo Cicconet和Davi Geiger）

OceanDark数据集 - 来自东北太平洋水下站点的100个低照度水下图像。1400x1000像素，不同的照明和录制条件（Ocean Networks Canada）

OTCBVS Thermal Imagery基准数据集（俄亥俄州立大学队）

PAnorama Sparsely STructured Areas数据集 - 用于评估图像对齐的PASSTA数据集（Andreas Robinson）

QMUL-OpenLogo - 用于测试模型概括功能的徽标检测基准，用于检测自然场景中的各种徽标对象，其中大多数徽标类未标记。（QMUL计算机视觉组）

Rijksmuseum Challenge 2014 - 它由来自rijksmuseum的100K艺术品组成，并附带描述每个物体的大量xml文件。（Thomas Mensink和Jan van Gemert）

在黑暗中看到 - 77 Gb的黑暗图像（Chen，Chen，Xu和Koltun）

智能手机图像去噪数据集（SIDD） - 智能手机图像去噪数据集（SIDD）包含大约30,000个噪声图像，在原始RGB和sRGB空间中使用相应的高质量地面实况，使用五个代表智能手机相机从10个具有不同光照条件的场景获得。（Abdelrahman Abdelhamed，Stephen Lin，Michael S. Brown）

斯坦福街景图像，姿势和3D城市数据集 - 街景图像（2500万图像和118个匹配图像对）的大规模数据集及其相对相机姿态，城市的3D模型和图像的3D元数据。（Zamir，Wekel，Agrawal，Malik，Savarese）

TESTIMAGES - 大量免费收集样本图像，用于不同类型显示器（即监视器，电视和数字电影放映机）的分析和质量评估以及图像处理技术。（Nicola Asuni）

康斯坦茨视觉质量数据库 - 用于开发和评估视觉质量评估算法的大型图像和视频数据库。（康斯坦茨大学MMSP小组）

自然场景的时间推移高光谱辐射图像 - 一天中拍摄的自然场景的7-9校准高光谱辐射图像的四个延时序列。（Foster，DH，Amano，K。，＆Nascimento，SMC）

延时高光谱辐射图像 - 自然场景的7-9校准高光谱图像的四个延时序列，间隔为10nm的光谱（David H. Foster，Kinjiro Amano，Sgio MC Nascimento）

Tiny Images数据集 7900万32x32彩色图像（Fergus，Torralba，Freeman）

TURBID数据集 - 降级图像的五个不同子集及其各自的地面实况。子集Milk和DeepBlue每个有20个图像，子叶绿素有42个图像（Amanda Duarte）

UT Snap Angle 360°数据集 - 来自youtube的四个活动（迪士尼，游行，滑雪，音乐会）的360°视频列表（Kristen Grauman，UT Austin）

UT Snap Point数据集 - 人类对来自UT Egocentric数据集和新收集的移动机器人数据集的帧子集的捕捉点质量的判断（帧也包括在内）（Bo Xiong，Kristen Grauman，UT Austin）

视觉对话 - 在COCO图像上进行120k人 - 人对话，每对话10轮QA（Das，Kottur，Gupta，Singh，Yadav，Moura，Parikh，Batra）

视觉问题回答 - 254K imags，764K问题，基本事实（Agrawal，Lu，Antol，Mitchell，Zitnick，Batra，Parikh）

视觉问题生成 --15k图像（包括以物体为中心和以事件为中心的图像），75k自然问题询问可以引起进一步对话的图像（Nasrin Mostafazadeh，Ishan Misra，Jacob Devlin，Margaret Mitchell，Xiao Dong He，Lucy Vanderwende ）

VQA Human Attention - 用于视觉问答的60k人类注意力图，即人类选择回答图像问题的地方（Das，Agrawal，Zitnick，Parikh，Batra）

Wild Web篡改图像数据集 - 来自Web和社交媒体源的大量篡改图像，包括用于篡改本地化的地面实况注释掩码（Markos Zampoglou，Symeon Papadopoulos）

YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）

一般RGBD和深度数据集

注意：有3D数据集其他地方也是如此，例如在对象，场景和动作。

另请参见：RGBD数据集列表。

360D - 来自22096个独特视点的成对颜色和深度360球面全景图的数据集，用于评估全向密集深度估计方法。（Nikolaos Zioulis，Antonis Karakottas，Dimitrios Zarpalas，Petros Daras）

3D打印RGB-D对象数据集 - 具有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器进行记录。（西门子和TUM）

3DCOMET - 3DCOMET是用于测试3D数据压缩方法的数据集。（Miguel Cazorla，Javier Navarrete，Vicente Morell，Miguel Cazorla，Diego Viejo，Jose Garcia-Rodriguez，Sergio Orts。）

3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）

用于从RGB-D数据进行非刚性重建的数据集 - 用于从RGB-D数据重建非刚性几何的八个场景，每个场景包含数百帧以及我们的结果。（Matthias Innmann，Michael Zollhoefer，Matthias Niessner，Christian Theobalt，Marc Stamminger）

大型对象扫描数据集 - 9个casses中的392个对象，每个数百帧（Choi，Zhou，Miller，Koltun）

铰接式物体挑战 - 4个铰接物体，由一维旋转和棱柱关节连接的刚性部件组成，7000 + RGBD图像带有6D姿态估计注释（Frank Michel，Alexander Krull，Eric Brachmann，Michael.Y.Yang，Stefan Gumhold，Carsten Rother ）

BigBIRD - 每个对象有100个对象，600个3D点云和600个高分辨率彩色图像，涵盖所有视图（Singh，Sha，Narayan，Achim，Abbeel）

CAESAR美国民用和欧洲表面人体测量资源项目 - 4000个3D人体扫描（SAE International）

CIN 2D + 3D对象分类数据集 - 来自18种常见家庭和办公室对象的对象的分段颜色和深度图像（Bjorn Browatzki等）

CoRBS - RGB-D SLAM基准测试，提供真实深度和颜色数据的组合，以及相机的地面实况轨迹和场景的真实3D模型（Oliver Wasenmuller）

CSIRO综合变形人 - 用于评估非刚性三维重建的合成RGBD数据集：2个主体和4个摄像机轨迹（Elanattil和Moghadam）

CTU服装折叠照片数据集 - 服装折叠的各个阶段的颜色和深度图像。（Sushkov R.，Melkumov I.，Smutn y V.（布拉格捷克技术大学））

CTU Garment Sorting Dataset - 服装图像，详细立体图像，深度图像和重量的数据集。（Petrik V.，Wagner L.（布拉格捷克技术大学））

服装零件数据集 - 服装零件数据集包括图像和深度扫描，使用Kinect获取，服装放在桌子上，使用多边形面具有超过一千个部分注释（衣领，袖口，帽子等）。（Arnau Ramisa， Guillem Aleny，Francesc Moreno-Noguer和Carme Torras）

Cornell-RGBD-Dataset - 办公场景（Hema Koppula）

CVSSP动态RGBD建模2015 - 该数据集包含使用Kinect V1 / V2捕获的一般动态场景的八个RGBD序列以及两个合成序列。（Charles Malleson，萨里大学CVSSP）

可变形3D重建数据集 - 动态移动机械玩具的两个单流RGB-D序列以及规范静止姿势中的地面真实3D模型。（西门子，TUM）

代尔夫特风车内部和外部激光扫描点云（Beril Sirmacek）

Diabetes60 - 60种西式菜肴的RGB-D图像，自制。使用Microsoft Kinect V2记录数据。（Patrick Christ和Sebastian Schlecht）

ETH3D - 用于多视图立体声和3D重建的基准测试，涵盖各种室内和室外场景，通过高精度激光扫描仪获取地面实况。（Thomas Sch ?? ps，Johannes L. Sch ?? nberger，Silvano Galliani，Torsten Sattler，Konrad Schindler，Marc Pollefeys，Andreas Geiger）

EURECOM Kinect Face数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等人）

G4S元房间 - RGB-D数据150次扫描，每次扫描18个图像。（John Folkesson等人）

Georgiatech-Metz Symphony Lake数据集 - 来自121次湖岸调查的超过4年的500万RGBD户外图像。（格里菲斯和普拉迪利耶）

Goldfinch：GOogLe图像搜索数据集为FINe粒度CHallenges - 一个大型数据集，用于细粒鸟（11K种），蝴蝶（14K种），飞机（409种）和狗（515品种）识别。（Jonathan Krause，Benjamin Sapp， Andrew Howard，Howard Zhou，Alexander Toshev，Tom Duerig，James Philbin，Li Fei-Fei）

IMPART多视图/多模式2D + 3D电影制作数据集 - 激光雷达，视频，3D模型，球形摄像机，RGBD，立体声，动作，面部表情等（萨里大学）

工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）

Kinect v2数据集 - 使用核密度估计的高效多频相位展开（Felix等）

KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）

Make3D激光+图像数据 - 大约1000个RGB室外图像，具有对齐的激光深度图像（Saxena，Chung，Ng，Sun）

McGill-Reparti人工感知数据库 - 来自四个摄像头的RGBD数据和两个人类受试者在车门上执行模拟装配任务的未过滤Vicon骨骼数据（Andrew Phan，Olivier St-Martin Cormier，Denis Ouellet，Frank P. Ferrie）。

元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）

METU多模立体声数据集 - 多模立体视觉的基准数据集??? - METU多模态立体声数据集包括用于多模态立体视觉的基准数据集，该数据集由两个数据集组成：（1）来自Middlebury立体评估数据集的综合改变的立体图像对和（2）可见红外图像从Kinect设备捕获的对。（Mustafa Yaman博士，Sinan Kalkan博士）

MHT RGB-D - 由林肯大学每隔5分钟由机器人收集16天。（John Folkesson等人）

在RGB-D中移动INFants（MINI-RGBD） - 用于婴儿姿势估计的合成的，逼真的RGB-D数据集，其包含具有地面真实关节位置的12个移动婴儿序列。（N. Hesse，C。Bodensteiner，M。Arens，UG Hofmann，R。Weinberger，AS Schroeder）

用于物体识别的多传感器3D物体数据集，具有全姿态估计 - 用于物体识别和姿态估计的多传感器3D物体数据集（Alberto Garcia-Garcia，Sergio Orts-Escolano，Sergiu Oprea等）

NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）

NYU Depth Dataset V2 - RGBD图像的室内分割和支持推断

奥克兰三维点云数据集（Nicolas Vandapel）

Pacman项目 - 来自20个类的400个对象的合成RGB-D图像。从3D网格模型生成（Vladislav Kramarev，Umit Rusen Aktas，Jeremy L. Wyatt。）

基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）

RGB-D Part Affordance数据集 - 用于105个厨房，工作室和园艺工具的RGB-D图像和地面真实可供选择标签，以及3个杂乱的场景（Myers，Teo，Fermuller，Aloimonos）

ScanNet：室内场景的富有注释的3D重建 --ScanNet是一个包含丰富注释的RGB-D扫描的数据集，包含超过1500次扫描的2.5M RGB-D图像，带有3D相机姿势，表面重建，和实例级语义分段。（Angela Dai，Angel X. Chang，Manolis Savva，Maciej Halber，Thomas Funkhouser，Matthias Niessner）

SceneNN：场景使用aNNotations网格化数据集 - 具有100多个室内场景的RGB-D场景数据集，标记为三角形网格，体素和像素。（Hua，Pham，Nguyen，Tran，Yu和Yeung）

Semantic-8：具有8个类的3D点云分类（苏黎世联邦理工学院）

小型办公室数据集 - 从2014年4月开始每5秒钟进行一次Kinect深度图像处理。（John Folkesson等人）

具有基础事实的立体声和ToF数据集 - 数据集包含使用飞行时间传感器和立体声设置采集的5个不同场景。还提供了地面实况信息。（Carlo Dal Mutto，Pietro Zanuttigh，Guido M. Cortelazzo）

SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）

任务 - 超过450万个真实图像，每个图像具有25个语义，2D和3D任务的基础事实。（Zamir，Sax，Shen，Guibas，Malik，Savarese）

THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是一个用于RGBD视频中动作识别的大型数据集，带有像素杠杆手部注释。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）

TUM RGB-D基准测试 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（Jorgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）

UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）

USF范围图像数据库 - 400+激光测距仪和结构光照相机图像，其中许多具有地面真实分割（Adam等人）

华盛顿RGB-D对象数据集 - 300个常见的家庭用品和14个场景。（华盛顿大学和英特尔实验室西雅图）

Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）

一般视频

AlignMNIST - MNIST手写数据集的人工扩展版本。（en Hauberg）

多模态语义自我中心视频（DoMSEV）的数据集 - 标记80小时的多模式语义自我中心视频（DoMSEV）数据集，涵盖广泛的活动，场景，记录器，照明和天气条件。（UFMG，Michel Silva，华盛顿Ramos，Jo ?? o Ferreira，Felipe Chamone，Mario Campos，Erickson R. Nascimento）

DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）

DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）

GoPro-Gyro数据集 - 自我中心视频（林雪平计算机视觉实验室）

LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）

大型YouTube视频数据集 - 从YouTube视频中抓取的156,823个视频（2,907,447个关键帧）（Yi Yang）

电影可记忆性数据集 - 令人难忘的电影剪辑和详细记忆的基本事实，从100部好莱坞式电影（Cohendet，Yadati，Duong和Demarty）中提取的660部短片摘录

MovieQA - 每台机器通过回答有关它们的问题来理解故事。15000多选QAs，400多部电影。（M。Tapaswi，Y。Zhu，R。Stiefelhagen，A。Torralba，R。Urtasun和S. Fidler）

多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）

时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）

近似重复的视频检索数据集 - 该数据库包含156,823个视频序列（2,907,447个关键帧），这些视频序列在2010年7月至2010年9月期间从YouTube中抓取。（Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，Richang Hong）

PHD2：个性化突出显示检测数据集 - PHD2是具有个性化突出显示信息的数据集，其允许在进行预测时训练使用关于用户的信息的突出显示检测模型。（Ana Garcia del Molino，Michael Gygli）

Sports-1M - 用于体育视频分类的数据集，包含487个课程和1.2M视频。（Andrej Karpathy和George Toderici以及Sanketh Shetty和Thomas Leung以及Rahul Sukthankar和Li Fei-Fei。）

用于研究欧几里得升级的视频序列基于对相机的最小假设（Kenton McHenry）

视频堆叠数据集 - 用于智能手机上手持视频堆叠的虚拟三脚架（Erik Ringaby等）

YFCC100M视频 - YFCC100M视频子集的基准测试，包括视频，视频内容功能和最先进的视频内容引擎的API。（陆江）

YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）

YouTube-8M - 用于野外视频分类的数据集，包含8M视频和4800个类别的预先提取的帧级功能。（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）

YUP ++ /动态场景数据集 - 来自60个不同场景的20个室外场景类，每个都有60个彩色视频（每个5秒，480个像素宽，24-30个fps）。一半视频使用静态相机，一半使用移动相机（Feichtenhofer，Pinz，Wildes）

手，手抓，手动和手势数据库

11k手 --1,1,076手图像（1600 x 1200像素）的190个主题，年龄介于18 - 75之间，具有元数据（身份，性别，年龄，肤色，手性，手，配件等）。（Mahmoud Afifi）

200亿-Jester - 密集标记的视频剪辑，显示人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势（Twenty Billion Neurons GmbH）

单深度图像三维关节手部姿态估计（Tang，Chang，Tejani，Kim，Yu）

人体操纵动作数据集 - 25个物体和6个动作的RGB-D（Alessandro Pieropan）

手势检测数据集（Javier Molina等）

A-STAR注释手深图像数据集及其性能评估 - 深度数据和数据手套数据，30个志愿者的29幅图像，中文数字计数和美国手语（徐和程）

博斯普鲁斯海峡手部几何数据库和手部静脉数据库（博阿齐奇大学）

EgoGesture数据集 - 第一人称视图手势，包含83个课程，50个科目，6个场景，24161个RGB-D视频样本（Zhang，Cao，Cheng，Lu）

EgoHands - 一个拥有超过15,000个像素级分段指针的大型数据集，记录自人们以自我为中心的相机相互作用。（Sven Bambach）

EgoYouTubeHands数据集 - 以自我为中心的手部分割数据集由来自YouTube视频的1290个带注释的帧组成，这些帧是在无约束的真实世界设置中记录的。视频的环境，参与者数量和行动都有所不同。此数据集可用于研究无约束设置中的手部分割问题。（Aisha Urooj，A。Borji）

FORTH手部跟踪库（FORTH）

一般手：一般手部检测和姿势挑战 - 22个具有不同手势，活动和观点的序列（加州大学欧文分校）

掌握UNderstanding（GUN-71）数据集 - 使用71种细粒度抓取分类标注的12,000个对象操纵场景的第一人称RGB-D图像。（Rogez，Supancic和Ramanan）

手势和海洋剪影（Euripides GM Petrakis）

HandNet：由手部姿势的RealSense RGBD传感器捕获的手的铰接指针 214971的注释深度图像的注释深度图像。注释：每个像素类，6D指尖姿势，热图。火车：202198，测试：10000，验证：2773。记录在Technion的GIP Lab。

HandOverFace数据集 - 手部分割数据集由来自网络的300个带注释的框架组成，用于研究手部遮挡面问题。（Aisha Urooj，A。Borji）

IDIAP手姿势/手势数据集（Sebastien Marcel）

Kinect和Leap运动手势识别数据集 - 数据集包含使用Leap Motion和Kinect设备获取的1400种不同手势（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）

Kinect和Leap运动手势识别数据集 - 数据集包含使用Creative Senz3D相机采集的几种不同的静态手势。（A.Moono，L。Minto，P。Zanuttigh）

LISA CVRR-HANDS 3D - 由8名受试者作为汽车司机和乘客进行的19次手势（Ohn-Bar和Trivedi）

用于评估3D关节手部运动跟踪的MPI Dexter 1数据集 - Dexter 1：7个具有挑战性，慢速和快速手部运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）

MSR实时和强大的手部深度跟踪 - （Qian，Sun，Wei，Tang，Sun）

移动和网络摄像头手部图像数据库 - MOHI和WEHI - 200人，每个30张图像（Ahmad Hassanat）

NTU-Microsoft Kinect HandGesture数据集 - 这是手势的RGB-D数据集，10个主题x 10个手势x 10个变体。（周仁，袁俊松，孟晶晶，张正友）

NUIG_Palm1 - 使用消费者设备进行掌纹识别实验，在无约束条件下获取的掌纹图像数据库。（Adrian-Stefan Ungureanu）

NYU Hand Pose Dataset - 8252测试集和72757个训练集帧捕获的RGBD数据，具有真实的手势，3个视图（Tompson，Stein，Lecun，Perlin）

PRAXIS手势数据集 - 来自29个手势的RGB-D上身数据，64名志愿者，多次重复，许多志愿者有一些认知障碍（Farhood Negin，INRIA）

渲染手柄数据集 - 用于2D / 3D手势估计的合成数据集，具有RGB，深度，分割掩模和每手21个关键点（Christian Zimmermann和Thomas Brox）

Sahand动态手势数据库 - 该数据库包含11个动态手势，旨在向计算机传达鼠标和触摸屏的功能。（Behnam Maleki，Hossein Ebrahimnezhad）

谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（凌少）

UT Grasp数据集 - 4个主题掌握各种各样的掌握（Cai，Kitani，Sato）

耶鲁人类掌握数据集 - 27个小时的视频，带有来自两个管家和两个机械师（Bullock，Feix，Dollar）的标记抓取，对象和任务数据

图像，视频和形状数据库检索

2D到3D可变形草图 - 可变形2D轮廓的集合，与同一类的可变形3D网格在点对应中; 提供了大约10个对象类，包括人类和动物。（拉纳，罗多拉）

杂波中的3D可变形对象 - 用于3D可变形物体杂波的数据集，具有跨越数百个场景并跨越多个类别（人类，动物）的逐点地面真实对应。（Cosmo，Rodola，Masci，Torsello，Bronstein）

ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）

布朗大学25/99/216形状数据库（Ben Kimia）

CIFAR-10 - 来自10个类的60K 32x32图像，带有512D GIST描述符（Alex Krizhevsky）

CLEF-IP 2011专利图像评估

DeepFashion - 大型时装数据库（刘紫薇，罗平，石秋，王小刚，王小鸥）

EMODB - picsearch图像搜索引擎中图像的缩略图以及picsearch情感关键字（Reiner Lenz等）

ETU10 Silhouette数据集 - 数据集包含720个10个对象的轮廓，每个对象有72个视图。（M.Akimaliev和MF Demirci）

2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）

Fashion-MNIST - 类似MNIST的时尚产品数据库。（韩晓，Zalando Research）

鱼形数据库 - 它是一个鱼形数据库，具有100个2D点集形状。（阿德里安·彼得）

Flickr 30K - 图像，动作和字幕（Peter Young等）

Flickr15k - 基于草图的图像检索（SBIR）基准 - 包含33个对象类别的330个草图和15,024张照片的数据集，常用于评估基于草图的图像检索（SBIR）算法的基准数据集。（Hu和Collomosse，CVIU 2013）

动手动作（HIC）IJCV数据集 - 使用/ o 1对象跟踪1手或2手的数据（图像，模型，动作）。包括*单视图RGB-D序列（1个主题，> 18个带注释的序列，4个对象，完整的RGB图像）和*多视图RGB序列（1个主题，HD，8个视图，8个序列 - 1个带注释，2个对象）。（Dimitrios Tzionas，Luca Ballan，Abhilash Srikantha，Pablo Aponte，Marc Pollefeys，Juergen Gall）

IAPR TC-12图像基准（Michael Grubinger）

IAPR-TC12分段和注释图像基准（SAIAPR TC-12）:( Hugo Jair Escalante）

ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）

ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战

INRIA Copydays数据集 - 用于评估复制检测：JPEG，裁剪和“强”复制攻击。（INRIA）

INRIA Holidays数据集 - 用于评估图像搜索：500个查询和991个相应的相关图像（Jegou，Douze和Schmid）

MA14KD（电影吸引力14K数据集）数据集 - 14K电影/电视预告片，每部10个特征，链接到评级数据集（Elahi，Moghaddam，Hosseini，Trattner，Tkalčič）

METU商标数据集 METU数据集由属于全球公司的900多个真实徽标组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）

McGill 3D Shape Benchmark（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）

MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括39个4个11D序列的序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）

多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）

NIST SHREC - 2014年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）

NIST SHREC - 2013年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）

NIST SHREC 2010 - 非刚性3D模型的形状检索竞赛（美国国家标准与技术研究院）

NIST TREC视频检索评估数据库（美国国家标准与技术研究院）

NUS-WIDE - 带有81个概念标签的269K Flickr图像，包含为500D BoVW描述符（Chau等）

普林斯顿形状基准（普林斯顿形状检索和分析组）

PairedFrames - 评估3D姿势跟踪误差 - 合成和真实数据集，用于测试3D姿态跟踪/细化，姿势初始化接近/远离/来自最小值。建立难度越来越大的测试帧对，分别测量姿态估计误差，而不采用完整的跟踪流水线。（Dimitrios Tzionas，Juergen Gall）

昆士兰跨媒体数据集 - 用于“跨媒体”检索的数百万图像和文本文档（Yi Yang）

从RGB-D视频重建铰接式装配模型（RecArt-D） - 在操纵过程中变形的物体的数据集。包括4个RGB-D序列（RGB图像完整），每个对象的可变形跟踪结果，以及每个对象的3D网格和Ground-Truth 3D骨架。（Dimitrios Tzionas，Juergen Gall）

从手对象交互重建（R-HOI） - 一只手与未知对象交互的数据集。包括4个RGB-D序列，总共4个对象，RGB图像完整。包括对象的跟踪3D运动和Ground-Truth网格。（Dimitrios Tzionas，Juergen Gall）

重访牛津和巴黎（RevisitOP） - 着名的地标/建筑物检索数据集的改进且更具挑战性的版本（固定错误，新注释和评估协议，新查询图像）以及1M牵引器图像。（F. Radenovic，A。Iscen，G。Tolias，Y。Avrithis，O。Chum）

SHREC'16可变形部分形状匹配 - 大约400个3D可变形形状的集合，经历强烈的偏态变换，包括点对点地面真实对应。（Cosmo，Rodola，Bronstein，Torsello）

SHREC 2016 - 基于3D草图的3D形状检索 - 使用手绘3D草图查询数据集在通用3D模型数据集上评估不同基于3D草图的3D模型检索算法的性能的数据（Bo Li）

SHREC'17可变形部分形状检索 - 大约4000个可变形3D形状的集合，经历严重的偏态变换，形式为不规则缺失部分和距离数据; 提供了真实课程信息。（拉纳，罗多拉）

SHREC防水模型轨道（SHREC 2007） - 400个防水3D模型（Daniela Giorgi）

SHREC部分模型轨道（SHREC 2007） - 400个防水3D DB模型和30个减少的防水查询模型（Daniela Giorgi）

SBU Captions Dataset - 从Flickr（Ordonez，Kulkarni和Berg）收集的100万张图像的图像标题

草绘我的鞋子 - 在细粒度的设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。（Qian Yu，QMUL，T。Hospedales Edinburgh / QMUL）。

TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）

完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）

UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）

YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集。（谷歌公司）

你可能感兴趣的:(神经网络,机器学习,深度学习,人脸识别,计算机视觉)

卷积调制空间自注意力SPATIALatt模型详解及代码复现清风AI 深度学习人工智能 python 神经网络 conda
背景与意义SPATIALaTT模型的提出源于对自注意力机制和卷积神经网络（CNN）的深入研究。在计算机视觉领域，CNN长期占据主导地位，而自注意力机制的引入为视觉任务带来了新的思路。SPATIALaTT模型的意义在于融合了这两种强大的特征提取方法，充分发挥了它们的优势。这种融合不仅提高了模型的性能，还为设计更高效的视觉模型提供了新的思路，推动了计算机视觉技术的发展。通过结合自注意力机制和卷积神经网
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
降维算法：主成分分析一个人在码代码的章鱼数学建模机器学习概率论
主成分分析一种常用的数据分析技术，主要用于数据降维，在众多领域如统计学、机器学习、信号处理等都有广泛应用。主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量（即主成分）的方法。这些主成分按照方差从大到小排列，方差越大，包含的原始数据信息越多。通常会选取前几个方差较大的主成分，以达到在尽量保留原始数据信息的前提下降低数据维度的目的。它通过将多个指标转换为少数几个主成分,
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【人工智能】Python实战：构建高效的多任务学习模型蒙娜丽宁 Python杂谈 AI 人工智能 python 学习
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界多任务学习（Multi-taskLearning,MTL）作为机器学习领域中的一种重要方法，通过在单一模型中同时学习多个相关任务，不仅能够提高模型的泛化能力，还能有效利用任务间的共享信息。本文深入探讨了多任务学习的基本概念、优势及其在实际应用中的重要性。
知识图谱中的word2vec 技术是做什么的? kcarly 知识图谱入门知识图谱 word2vec 人工智能
Word2Vec是一种将单词转换为向量表示的技术，由Google在2013年提出。这项技术的核心思想是通过大规模文本数据训练神经网络模型，从而将单词映射到低维稠密的向量空间中。这些向量能够捕捉到单词之间的语义和语法关系，使得相似或相关的单词在向量空间中彼此靠近。Word2Vec的基本原理Word2Vec主要包括两种训练模型：CBOW（ContinuousBagofWords）和Skip-gram。
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
改进yolov8工业缺陷检测+swin+transformer qq1309399183 计算机视觉实战项目集合 YOLO transformer 深度学习人工智能计算机视觉机器学习神经网络
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
基于 Python 的机器学习模型部署到 Flask Web 应用：从训练到部署的完整指南 m0_74825223 python 机器学习 flask
目录引言技术栈步骤一：数据预处理步骤二：训练机器学习模型步骤三：创建FlaskWeb应用步骤四：测试Web应用步骤五：模型的保存与加载保存模型加载模型并在Flask中使用步骤六：Web应用的安全性考量示例：简单的输入验证示例：自定义错误处理示例：使用Flask-JWT-Extended进行认证结论参考资料引言在当今数据驱动的时代，机器学习模型已经广泛应用于各行各业，从金融、医疗到教育等领域。然而，
改进yolov8缺陷检测+swin+transformer QQ_1309399183 计算机视觉实战项目集锦 YOLO transformer 深度学习人工智能计算机视觉 opencv 机器学习
使用NEU-DET数据集进行缺陷检测的YOLOv8改进模型应用详解在现代工业生产过程中，质量控制是至关重要的一个环节。随着机器视觉技术和人工智能算法的发展，基于深度学习的方法已经成为自动化缺陷检测的重要工具。本篇将介绍一种基于NEU-DET数据集，利用YOLOv8及其改进版本（包含坐标注意力机制和SwinTransformer）进行缺陷检测的应用开发过程。我们将详细探讨从数据准备到模型训练，再到最
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
开源AI图像工具—Stable Diffusion 蚂蚁在飞- 人工智能 stable diffusion
StableDiffusion是一种基于深度学习的生成式模型，用于图像生成、图像修复和风格转换等任务。它是由StabilityAI和CompVis团队联合开发的。StableDiffusion在生成高质量图像方面表现出色，并且是开源的，可以自由使用和扩展。StableDiffusion的核心技术1.扩散模型(DiffusionModels):•基于概率生成模型。•从噪声中逐步反向生成清晰的图像。•
机器学习：scikit-learn 和 Jupyter Notebook（推荐初学者使用google colab） wyc9999ww 机器学习 scikit-learn jupyter 人工智能 python
对于初学者来说，scikit-learn是一个理想的机器学习入门工具。不仅提供了丰富的算法和功能，还通过一致的API设计，确保能够快速上手并进行各种机器学习任务。通过使用scikit-learn，可以专注于理解和实践机器学习的核心概念，而不必过多担心底层实现细节。所以scikit-learn能轻松实现从数据预处理到模型训练和评估的完整流程。此外在推荐一个适合初学者的深度学习平台工具googleco
【深度学习】CrossEntropyLoss需要手动softmax吗？ zz的学习笔记本深度学习深度学习人工智能
【深度学习】CrossEntropyLoss需要手动softmax吗？问题：CrossEntropyLoss需要手动softmax吗？答案：不需要官方文档代码解释问题：CrossEntropyLoss需要手动softmax吗？之前用pytorch实现自己的网络时，使用CrossEntropyLoss的时候将网路输出经softmax激活层后再计算CrossEntropyLoss。答案：不需要调用了损
有趣的python代码实例_Python之路：200个Python有趣的小例子一网打尽 weixin_39845406 有趣的python代码实例
概述博主最近在学习python，看完了一整套学习视频，然后呃呃呃，还是用不太流畅。碰巧在全球最大的同性交友论坛GayHub(呸！是开源代码托管平台Github)上面发现了一个项目，该项目列举了200多个Python小例子，Python基础、Python坑点、Python字符串和正则、Python绘图、Python日期和文件、Web开发、数据科学、机器学习、深度学习、TensorFlow、Pytor
机器学习数学基础-定积分应用-经济问题华东算法王（原聪明的小孩子小孩哥解析宋浩微积分算法
定积分在经济学中的应用广泛，特别是用来解决与累积量、平均值、总收入、成本、利润等相关的问题。以下是定积分在经济学中的几个常见应用场景：1.总收入和总成本的计算在经济学中，定积分常用于计算总收入、总成本等累积量。如果给定价格函数和需求函数或供应函数，定积分可以帮助我们计算从某一数量到另一数量之间的总收入或总成本。总收入：假设某商品的价格随数量的变化而变化，价格函数为(p(x))，其中(x)表示销售的
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep