深度图像&骨骼数据进行动作识别数据集

UT-Kinect数据集: 通过固定的使用一个固定的Kinect和Kinect for Windows SDK Beta版本的深度相机以15 fps的帧速率收集数据,包含RGB,Depth和3Dskeleton数据。UT-Kinect将样本分为10种日常生活行为,包括 走路,坐下,站起来,拿起,携带,扔,推,拉,挥手,拍手 (walk, sit down, stand up, pick up, carry, throw, push, pull, wave hands, clap hands)等。这些行动由10个不同的人执行,同一行动每个人进行两次。总而言之,该数据集中总共包含199个动作序列。请注意,其中一个原始动作是无效的。UTKinect数据集中的帧大小不同,从5到120帧不等。由于其广泛的类内差异和身体部位的遮挡,UTKinect数据集具有挑战性。例如,一些“拾取东西”动作由左手或右手执行,而其他动作则通过双手完成。一般来说,在动作识别中有两种验证方法,即留一交叉验证(leave-one-out cross validation) 和双交叉验证(2-fold cross validation)。

UT-Kinect​​​​​​

leave-one-out cross validation 方法相关论文[1,2,3]:

1、Liu, J, Shahroudy, A, Xu, D, Wang, G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

2、Ohn‐Bar, E, Trivedi, M. Joint angles similarities and HOG2 for action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops;2013; Portland, OR.

3、Hu, J‐F, Zheng, W‐S, Lai, J, Zhang, J. Jointly learning heterogeneous features for RGB‐D activity recognition. IEEE Trans Pattern Anal Mach Intell. 2017; 39( 11): 2186‐ 2200.

 

Florence 3D 数据集: 通过固定的Kinect收集数据,收集九个常见的室内动作类别,如“观看”,“饮用水”,“呼叫”等。在这些行动中,10个人完成9个动作,每个动作重复执行2或3次,总计215次动作。与UT-Kinect数据集相比,佛罗伦萨3D数据集不仅存在较大的类内差异,而且在不同类之间的较少的相互间变化中也很困难。例如,从骨骼动作序列的角度来看,“观看”,“饮用水”和“呼叫”是类似的。

NTU RGB + D数据集: 与前两个数据集相比,它的大小非常大,并且收集了四类数据,包括RGB,Depth,3D skeleton 和红外数据(infrared data)。每个动作序列由三个静止的Kinect摄像机捕获,两侧的摄像机与中间的摄像机成45度角。请注意,NTU RGB + D数据集中捕获的骨架点的大小为25,这大于前两个数据集中的15个骨架点。超过40名年龄在10至35岁之间的人完成了60种室内活动,总计56 880个动作样本。与UT-Kinect和Florence 3D不同,NTU RGB + D还设计了由两个人执行的一类联合动作。为了处理这种情况,我们直接将两个人的骨架数据拼接为一个实验的骨架序列。4 给出了“交叉对象”("cross subject")的情况,即一半用于训练的对象和另一半用于测试,以及“交叉视图”("cross view"),即分别用于训练的两个视角和用于测试的另一个视角。

4、Liu J, Shahroudy A, Xu D, Wang G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

 

数据集名称 样例个数 类别数 视角 描述
UT-Kinect 199 10 10 1 RGB +Depth+ 3D Skeletion
Florence 3D 215 9 10 1 RGB + 3D Skeleton
NTU RGB + D. 56 880 60 40 80 RGB +Depth+ 3D Skeleton+Infrared Information

 

SBU-Kinect-Interaction数据集v2.0:所有视频都录制在同一实验室环境中。七个参与者(s01-s07)进行了活动,并且数据集由21组组成,其中每组包含执行所有八个交互的一对不同人的视频。请注意,在大多数互动中,一个人正在行动而另一个人正在做出反应。每个动作类别包含一个或两个序列。整个数据集大约有300个交互。	噪声版本也包含在数据集中。噪声版本的数据用于评估MILBoost实验(本文表2中的Set2)。我们通过从原始起始帧之前的五帧开始并且比原始最终帧晚五帧结束来分割原始记录序列。噪声数据包含更多不相关的操作,因为参与者在我们收集数据时在操作类别之间随机移动。
	出于评估的一般目的,我们建议您下载“干净版”。
	

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Action,recognition)