动作识别数据集

官网内容总结
1.UCF101(https://www.crcv.ucf.edu/data/UCF101.php)
UCF101发布于2012年,来源于YouTube,拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动,物体外观和姿势,物体比例,视点,杂乱的背景,照明条件等方面存在很大的差异。 官网提供了训练集以及测试集的3种划分
每个动作类别中的视频分为25个组(从视频命名方式中可以看出组别),每个组包含该动作类别的4-7个视频。 来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的视角等。
动作类别可以分为五种类型:(1)Human-Object Interaction人与物体的互动 (2) Body-Motion Only仅身体动作 (3)Human-Human Interaction人与人的互动 (4) Playing Musical Instruments 演奏乐器 (5)Sports运动。
UCF101数据集的具体动作类别为:Apply Eye Makeup, Apply Lipstick, Archery, Baby Crawling, Balance Beam, Band Marching, Baseball Pitch, Basketball Shooting, Basketball Dunk, Bench Press, Biking, Billiards Shot, Blow Dry Hair, Blowing Candles, Body Weight Squats, Bowling, Boxing Punching Bag, Boxing Speed Bag, Breaststroke, Brushing Teeth, Clean and Jerk, Cliff Diving, Cricket Bowling, Cricket Shot, Cutting In Kitchen, Diving, Drumming, Fencing, Field Hockey Penalty, Floor Gymnastics, Frisbee Catch, Front Crawl, Golf Swing, Haircut, Hammer Throw, Hammering, Handstand Pushups, Handstand Walking, Head Massage, High Jump, Horse Race, Horse Riding, Hula Hoop, Ice Dancing, Javelin Throw, Juggling Balls, Jump Rope, Jumping Jack, Kayaking, Knitting, Long Jump, Lunges, Military Parade, Mixing Batter, Mopping Floor, Nun chucks, Parallel Bars, Pizza Tossing, Playing Guitar, Playing Piano, Playing Tabla, Playing Violin, Playing Cello, Playing Daf, Playing Dhol, Playing Flute, Playing Sitar, Pole Vault, Pommel Horse, Pull Ups, Punch, Push Ups, Rafting, Rock Climbing Indoor, Rope Climbing, Rowing, Salsa Spins, Shaving Beard, Shotput, Skate Boarding, Skiing, Skijet, Sky Diving, Soccer Juggling, Soccer Penalty, Still Rings, Sumo Wrestling, Surfing, Swing, Table Tennis Shot, Tai Chi, Tennis Swing, Throw Discus, Trampoline Jumping, Typing, Uneven Bars, Volleyball Spiking, Walking with a dog, Wall Pushups, Writing On Board, Yo Yo.
数据集的统计图表:
动作识别数据集_第1张图片动作识别数据集_第2张图片动作识别数据集_第3张图片动作识别数据集_第4张图片
平均视频长度较短,绝大多数在10s以下,一半多在6s以下。规格为320x240,25fps,最小视频为28帧。

2.HMDB51(https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#overview)
HMDB51发布于2011年,从电影、视频网站上采集。包含5大类:面部动作(微笑、大笑、咀嚼、说话);面部与物交互动作(吃饭、喝水、抽烟);身体运动(翻跟斗、拍手、爬上等);身体与物交互运动(梳头发、拔剑等);人人交互运动(击剑、拥抱、接吻等)。视频分为51个动作类别,每个类别至少包含101个视频剪辑 。
除了动作类别的标签外,每个视频还带有描述视频片段属性的元标签。图表统计了每个动作类别的视频数量,视频中拍摄的身体部位(包括全身、上身、头部等),相机是否运动,相机拍摄位置,各个视频长度的分布。
动作识别数据集_第5张图片动作识别数据集_第6张图片动作识别数据集_第7张图片从图可以看出,有一半以上的视频(目测70%)有相机移动,目测80%的视频长度在5s以下。规格为424x240(最大情况),30fps。HMDB51的数据来源广,且有不少的交互方面的视频动作,这给视频识别带来了很大的难度。退一步说,HMDB51数据集也是目前见到的相对很小的数据集了,在这个深度学习,以数据算力为驱动的年代,小的数据集给网络学习更好的动作表示带来了一定的困难。目前来说,不少算法在UCF101上都可以做到识别率超越 90%的精确度,但与之相反的是HMDB51少有超越75%的方法。其动作的精确识别可能需要更多的视频理解成分在里面。

参考:
https://zhuanlan.zhihu.com/p/69064522
https://blog.csdn.net/liuxiao214/article/details/78889662

你可能感兴趣的:(动作识别数据集)