基于深度学习的动态手势数据集及论文整理

基于深度学习的动态手势数据集及论文整理

  • 前言
  • 数据集
    • 动作识别数据集
    • 动态手势数据集
  • 论文
    • 2021
    • 2020
    • 2019
    • 2018
    • 2017
    • 2016
    • 2015
    • 2014
    • 2013
  • 结尾

前言

目前研究的课题是基于深度学习的手势识别,读了该领域的一些论文,也了解了一些关于动作识别和手势识别的数据集,现整理下来,希望可以帮助刚开始接触该方向的研究生,尽快了解前人所做的贡献。以下提到的论文不涉及姿态估计等领域,都是基于RGB图像、深度图像等模态进行手势等动作的识别。

数据集

包含了常用的动作识别数据集和手势识别数据集。

动作识别数据集

  • UCF101
    从youtube收集而得,共包含101类动作。其中每类动作由25个人做动作,每人做4-7组,共13320个视频,分辨率为320*240,共6.5G。UCF101在动作的采集上具有非常大的多样性,包括相机运行、外观变化、姿态变化、物体比例变化、背景变化、光纤变化等。101类动作可以分为5类:人和物体交互,只有肢体动作,人与人交互,玩音乐器材,各类运动。
  • HMDB51
    HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,来自于YouTube,google视频等,共2G。动作主要包括一般面部动作,面部操作与对象操作,一般的身体动作,与对象交互动作,人体动作。
  • Sport-1M
    sports – 1M的数据集包含了100万个YouTube视频,其中标注了487个类。这些类按照手工管理的分类排列,其中包含动作大体分为水上运动、团队运动、冬季运动、球类、战斗运动、动物运动等。
  • Kinects
    Kinetics数据集包含了400类人体行为,每一类至少有400个视频,这些视频全都来源于YouTube,每个视频时长大约为10s,一共有30多万个视频。视频中的行为可以被分为三类:单一的人体动作、人与人的交互、人与物的交互。这些行为都被分的非常细,有些需要通过时间推理来区分(例如不同类型的游泳),还有一些动作需要通过物体的视觉特征来区分(例如弹奏不同的乐器)。
  • ActivityNet
    Google在2016年出品的数据集,数据的来源主要是Youtube,带有很强的深度学习背景,数据量很大,需要通过官方提供的程序自行下载,官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube,所以这个数据集相对更复杂,更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。
  • NTU-RGBD
    总共大约有56000个视频,60类动作,50类是单人动作,10类是双人交互动作。每个人捕捉了25个关节点。数据集有两种分割方式,cross subject和cross view,这也是目前最大最全的一个数据集。很多动作识别论文都是以这个数据集作为检测标准。包含四种类型的数据:RGB videos、depth map sequences、3D skeletal data、infrared videos。
  • KTH
    经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作(散步、慢跑、跑步、拳击、挥手、拍手),每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。

动态手势数据集

  • ChaLearn Gesture Challenge_1:CGD
    数据库的英文名称为ChaLearn Gesture Data,简称CGD,或者CGD2011,是ChaLearn Gesture Challenge挑战赛多用的一个数据库,数据库都是视频格式,分为深度图像视频和彩色图像视频,因为在录制视频的时候是用Kinect录制的。由此可见,这些手势识别既可以能有深度信息又可以利用色彩信息,共有30个左右的手势单词,也就是说有30个基本的手势动作。视频数据分为500个batch,每个batch含有94个视频,视频分为2种,每种各47个。
  • Chalearn LAP IsoGD
    Chalearn LAP IsoGD数据集源自Chalearn手势数据集(CGD)。因为CGD数据集总共有超过54000个手势,这些手势被分成了子任务。为了重用CGD数据集,我们最终获得249个手势标签,并手动标记时间分割,从CGD数据集中获取连续视频中每个手势的开始帧和结束帧。这个数据库包括47933个RGB-D 手势视频(约9G)。每个RGB-D视频只代表一个手势,由21个不同人执行的249种手势。
  • Chalearn LAP ConGD
    该数据集与ChaLearn LAP IsoGD数据集一样,都来源于CGD数据集,与IsoGD不同的是,该数据库包括22535 RGB-D手势视频(约4G)中的47933个RGB-D手势,每个RGB-D视频可能代表一个或多个手势,由21个不同人执行的249种手势。可用于时序分类任务。
  • Montalbano
    ChaLearn Looking At People (LAP) 2014 Challeng包括三个部分:人体姿态估计、人体动作/交互识别和手势识别,其中手势识别挑战的数据集,称为Montalbano数据集。该数据集是多模态的,因为手势是用带有深度传感器的微软Kinect捕获的。每个数据文件包含一个RGB-Depth图像序列和一个由微软Kinect API提供的骨骼姿态流。手势词汇包含20个意大利文化/人类学符号。手势没有分段,这意味着序列通常包含几个手势。
  • EGO
    EGO手势数据集是用于以第一视角采集的手势识别的多模态大规模数据集。该数据集不仅为分割数据中的手势分类提供了测试平台,而且还为连续数据中的手势检测提供了测试平台。数据集共包含83类静态或动态手势。
  • Cambridge hand gesture database
    该数据集提供了9个手势类别的900个RGB图像序列,9类手势涵盖了3种手部形状和3种运动趋势。其中每一类包含5种不同的光照情况和10次的随意运动。数据集的目标任务是同时区分预定义的手部形状和不同的运动。
  • 20BN-jester
    20BN-JESTER数据集是大量带有密集标签的视频剪辑的集合,这些视频剪辑显示了人类在笔记本电脑摄像头或网络摄像头前执行预先定义的手势。该数据集由大量的人群工作者创建,它允许训练健壮的机器学习模型来识别人的手势。此视频数据是作为一个大型TGZ存档提供的,分为最大1GB的22个部分,总下载大小为22.8 GB。档案库包含目录,编号从1到148092。每个目录对应一个视频,并包含高度为100px和宽度可变的JPG图像,JPG图像以每秒12帧的速度从原始视频中提取。JPG的文件名始于00001.jpg。JPG的数量随原始视频的长度而变化。其中训练集为118562个视频,验证集为14787个视频,测试集为14743个视频,总共27类标签。
  • NVIDIA dynamic hand gesture
    它应用的场景是车内手势检测,总共25类手势,每一种手势类型都用于人机界面,并由多个传感器和视点记录。在室内的汽车模拟器中,在明亮和昏暗的人工照明下,捕获了连续的数据流,共包含1532个动态手势,共有20名受试者参与了数据收集。
  • SHREC 2017
    数据集包含14个手势序列,以两种方式执行:使用一个手指和整个手。每个手势由28个参与者以两种方式进行1到10次,总共2800个序列。包含深度图像和手部骨架。
  • DEVISIGN
    该数据集是一种汉语手语数据库,涵盖了4414个标准汉语手语词汇,共包含30个个体(13男17女)的331,050个词汇数据。每个词汇数据由RGB、深度和骨架信息组成。整个数据集可以分为三个子集,第一个子集由26个字母和10个数字组成,第二个子集由500个日常使用的词汇表组组成,第三个子集是一个大型词汇集,该数据集包含2000个汉语SL词汇。

论文

在Supervised Sequence Labelling with Recurrent Neural Network论文中,将序列标记类任务划分为三类,分别是序列分类、片段分类、时序分类。对于动态手势识别任务,可以简单划分为离线手势识别和在线手势识别,前者更像是序列分类任务,对于给定的一段视频序列,该序列仅包含一个动作或者手势,然后通过算法得到该序列属于哪一种动作,这在序列标记任务中属于比较容易的,目前大多数视频理解类任务所用的数据都是预分割好的仅包含一种动作的视频片段,用于训练自己的模型。而在线手势识别属于时序分类任务,对于连续的视频流,可能包含多种动作或手势,并且动作或手势发生的时间位置不确定,可以利用的信息仅有过去和现在,这大大增加了识别的难度,目前对于此类任务还没有很好的解决方案。

2021

  • YouRefIt: Embodied Reference Understanding With Language and Gesture. Yixin Chen; Qing Li; Deqian Kong; Yik Lun Kei; Song-Chun Zhu; Tao Gao; Yixin Zhu; Siyuan Huang
  • SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language Recognition. Hezhen Hu; Weichao Zhao; Wengang Zhou; Yuechen Wang; Houqiang Li
  • Regional Attention with Architecture-Rebuilt 3D Network for RGB-D Gesture Recognition. Benjia Zhou, Yunan Li, Jun Wan
  • Spatial-Temporal Multi-Cue Network for Sign Language Recognition and Translation. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li

2020

  • Boosting Continuous Sign Language Recognition via Cross Modality Augmentation. Pu, Junfu, Wengang Zhou, Hezhen Hu, and Houqiang Li
  • Feature Selection for Zero-Shot Gesture Recognition. Naveen Madapana, Juan Wachs
  • Towards Efficient Coarse-to-Fine Networks for Action and Gesture Recognition. Quader, Niamul, Juwei Lu, Peng Dai, and Wei Li
  • Spatial-Temporal Multi-Cue Network for Continuous Sign Language Recognition. Hao Zhou, Wengang Zhou, Yun Zhou, Houqiang Li
  • Temporal Action Detection with Structured Segment Networks. Yue Zhao, Yuanjun Xiong, Limin Wang
  • X3D: Expanding Architectures for Efficient Video Recognition. Feichtenhofer, Christoph

2019

  • Temporal Segment Networks for Action Recognition in Videos. Wang, L, et al
  • TSM: Temporal Shift Module for Efficient Video Understanding. Ji Lin, Chuang Gan and S. Han
  • SlowFast Networks for Video Recognition. Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, Kaiming He
  • Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks. Okan Kopuklu, Ahmet Gunduz, Neslihan Kose, Gerhard Rigoll
  • Fast and Robust Dynamic Hand Gesture Recognition via Key Frames Extraction and Feature Fusion. Hao Tang, Hong Liu, Wei Xiao, Nicu Sebe
  • Improving the Performance of Unimodal Dynamic Hand-Gesture Recognition With Multimodal Training. Mahdi Abavisani, Hamid Reza Vaezi Joze, Vishal M. Patel
  • Iterative Alignment Network for Continuous Sign Language Recognition. Junfu Pu, Wengang Zhou, Houqiang Li

2018

  • Convolutional Neural Networks and Long Short-Term Memory for skeleton-based human activity and hand gesture recognition. Nunez, J.C., et al
  • Long-Term Temporal Convolutions for Action Recognition. Varol, G., I. Laptev and C. Schmid
  • Large-Scale Gesture Recognition With a Fusion of RGB-D Data Based on Saliency Theory and C3D Model. Y., L., et al
  • Hidden Two-Stream Convolutional Networks for Action Recognition. Zhu, Y., et al
  • A Closer Look at Spatiotemporal Convolutions for Action Recognition. Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, Manohar Paluri
  • Gesture Recognition: Focus on the Hands. Pradyumna Narayana, Ross Beveridge, Bruce A. Draper
  • Making Convolutional Networks Recurrent for Visual Sequence Learning. Xiaodong Yang, Pavlo Molchanov, Jan Kautz
  • Deformable Pose Traversal Convolution for 3D Action and Gesture Recognition. Junwu Weng, Mengyuan Liu, Xudong Jiang, Junsong Yuan
  • HGR-Net: A Two-stage Convolutional Neural Network for Hand Gesture Segmentation and Recognition. Amirhossein Dadashzadeh, Alireza Tavakoli Targhi, Maryam Tahmasbi

2017

  • Temporal Action Detection with Structured Segment Networks. Zhao, Y., et al
  • Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM. Zhu, G., et al
  • Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. Carreira, J. and A. Zisserman
  • Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. Qiu, Z., T. Yao and T. Mei
  • ConvNet Architecture Search for Spatiotemporal Feature Learning. Tran, D., et al
  • Long-Term Recurrent Convolutional Networks for Visual Recognition and Description. Donahue, J., et al
  • Large-Scale Multimodal Gesture Recognition Using Heterogeneous Networks. H., W., et al
  • Large-scale Continuous Gesture Recognition Using Convolutional Neural Networks. Wang, P., et al
  • Scene Flow to Action Map: A New Representation for RGB-D Based Action Recognition with Convolutional Neural Networks. P., W., et al
  • Online Real-time Multiple Spatiotemporal Action Localisation and Prediction. Gurkirt Singh, Suman Saha, Michael Sapienza, Philip Torr, Fabio Cuzzolin
  • Personalizing Gesture Recognition Using Hierarchical Bayesian Neural Networks. Ajjen Joshi, Soumya Ghosh, Margrit Betke, Stan Sclaroff, Hanspeter Pfister
  • Recurrent Convolutional Neural Networks for Continuous Sign Language Recognition by Staged Optimization. Runpeng Cui, Hu Liu, Changshui Zhang
  • Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks With Spatiotemporal Transformer Modules. Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng
  • SubUNets: End-To-End Hand Shape and Continuous Sign Language Recognition. Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Richard Bowden

2016

  • Online Detection and Classification of Dynamic Hand Gestures with Recurrent 3D Convolutional Neural Networks. P., M., et al
  • Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. Wang, L., et al
  • Long-term Temporal Convolutions for Action Recognition. Varol, G., I. Laptev and C. Schmid
  • Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video. Pigou, L., et al
  • Action Recognition From Depth Maps Using Deep Convolutional Neural Networks. P., W., et al
  • Large-scale gesture recognition with a fusion of RGB-D data based on the C3D model. Yunan, L., et al
  • Convolutional Two-Stream Network Fusion for Video Action Recognition Feichtenhofer, C., A. Pinz and A. Zisserman
  • Online Human Action Detection using Joint Classification-Regression Recurrent Neural Networks. Yanghao Li, Cuiling Lan, Junliang Xing, Wenjun Zeng,Chunfeng Yuan, and Jiaying Liu
  • Online Action Detection. De Geest, R., et al
  • Deep Sign: Hybrid CNN-HMM for Continuous Sign Language Recognition. Oscar Koller,et al
  • Large-scale Continuous Gesture Recognition Using Convolutional Neural Networks. Pichao Wang, Wanqing Li, Song Liu, Yuyao Zhang, Zhimin Gao, Philip Ogunbona
  • Multi-Modality Fusion based on Consensus-Voting and 3D Convolution for Isolated Gesture Recognition. Jiali Duan, Shuai Zhou, Jun Wan, Xiaoyuan Guo, Stan Z. Li

2015

  • Learning Spatiotemporal Features with 3D Convolutional Networks. Du Tran, et al
  • Beyond Short Snippets: Deep Networks for Video Classification. Ng, J.Y., et al
  • Towards Good Practices for Very Deep Two-Stream ConvNets. Wang, L., et al
  • Real-Time System of Hand Detection And Gesture Recognition In Cyber Presence Interactive System For E-Learning. Bousaaid Mourad, Ayaou Tarik, Afdel Karim, Estraillier Pascal.

2014

  • Two-Stream Convolutional Networks for Action Recognition in Videos. Simonyan, K. and A. Zisserman
  • Large-Scale Video Classification with Convolutional Neural Networks. Karpathy, A., et al
  • Temporal Dropout of Changes Approach to Convolutional Learning of Spatio-Temporal Features. Dubravko, C. and S. Nicu
  • Real-Time and Robust Method for Hand Gesture Recognition System Based on Cross-Correlation Coefficient. Reza Azad, Babak Azad, Iman Tavakoli Kazerooni

2013

  • 3D convolutional neural networks for human action recognition. Ji, S., M. Yang and K. Yu

结尾

以上内容并不可能涵盖动态手势识别领域所有的研究成果,若想了解基于骨架信息的姿态估计或者用其他方式进行手势识别的论文,还请读者自行查阅。
以上部分内容引用至ycmin95/awesome-Gesture-Sign-Language-Recognition。

你可能感兴趣的:(深度学习,神经网络,手势识别)