GitHub - PaddlePaddle/PaddleVideo: Awesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection.Awesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection. - GitHub - PaddlePaddle/PaddleVideo: Awesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection.https://github.com/PaddlePaddle/PaddleVideohttps://github.com/PaddlePaddle/PaddleSports
https://github.com/PaddlePaddle/PaddleSports
百度一篇配合paddlevideo的综述文章,主要讲述在体育场景下ai的应用,其实文章并没有关注解决方案,更多的是一些基础情况的罗列。
1.introduction
每种类型的运动都需要特定的模式,通常体育运动可以分为团队运动和个人运动,如上所示。在团体运动中,球的轨迹、球与球员之间的互动,个人运动,为了识别个人运动中的动作,只能通过人物检测来关注一两名运动员。
2.sports-related datasets
构建体育视频动作识别数据集:1.定义运动类型和特定运动中的动作类别;2.收集数据;3.预处理和标注视频。裁剪视频以及标签,每个动作的开始和结束时间以及动作类别,动作的对象边界框。
a.football
soccer-issia:通常用于球员追踪,检测,主要是球员边界框。
football action:球员的边界框,有5类活动,传球,射门,解围和运球。
comprehensiveSoccer:动作分类,定位和球员检测。
soccerNet:时间注释,定位,三个类别:射门,换人,黄牌或红牌。
....
b.basketball
3.individual action recognition
A.traditional models
通常动作识别模块至少有两个模块组成:视频特征提取和分类器。
特征提取器使用一些传统的特征特征器,比如hog等。
B.deep model
有四种类型的深度模型,2d model,3d model,two/multi -stream model and skeleton-based model.
4.group/team activity recognition
有些动作的识别是团队一起的表现,因此需要多项技术的组合,球员检测,姿态估计和球跟踪。
5.application
运动员训练
运动视频裁判
video highlights:
自动体育新闻生成
6.challenges
data collection and annotation:1.版本,自录制由于镜头分辨率等问题,实际任务中泛化性较差。2.专业知识,标注的专业性。3.动作识别数据集不止一个用途,可能被设计为时空动作定位,事件理解等,需要各种标签和辅助信息,从乒乓球中提取骨架特征是困难的,划水动作密集且快速移动。
dense and fast-moving actions:对于传统识别基线,处理通常是4-20s左右的动作,或者20s以上的,但是乒乓球很多都是0.4-2s的,动作密集,不到6s内,有8-10个动作。
Camera motion,cut and occlusion:相机的运动,切割和遮挡是个问题,视频数据集和静止图像数据集的主要区别是目标对象的运动,其中运动特征的质量可能会影响动作识别性能。形成运动轨迹的传统方法严重依赖与光流的提取,其中绝大多数都是基于固定摄像机记录的视频,然后在最近的体育视频/流媒体中,由于视频的高光不断变化,放大和缩小高光,相机运动不再固定,不断变化,这自然会导致录制的视频流中的视图切割和或多或少的遮挡。
Long-tailed distributed and imbalaned data:目标的长尾分布。
multi-camera and multi-view action recognition:视频通常通过多个摄像机进行记录,并且处于不同的视图。
transfer,few-shot and zero-shot learning:需要提取帧,并使用细粒度标签对帧进行标注,标注成本昂贵。降低运动视频动作识别成本的另一种方法是使用从广泛运动类别收集的视频以自监督方法对模型进行预训练,使用少量数据进行微调。