解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑

最近,各大视频平台实时更新着冬奥赛场上的精彩瞬间集锦,谷爱凌、武大靖、苏翊鸣等运动健儿们勇闯佳绩,可喜可贺!在为中国体育的强大实力感动、欣喜的同时,我们也关注到了体育竞技背后的一些AI产业应用,比如通过动作识别技术辅助运动员日常训练和比赛打分,利用智能分类与自动化剪辑等AI技术大幅降低体育视频内容处理的人力和时间成本等。

为了让大家深入了解这些AI技术在产业中的应用,降低AI落地门槛,百度飞桨、百度智能云、大连理工大学刘胜蓝副教授联合推出产业实践范例,在花样滑冰动作识别、多模态体育视频分类、足球视频精彩片段剪辑三个经典场景,提供了从数据准备,方案设计,模型优化部署的全流程教程,深入浅出详解产业落地方案,手把手教用户进行代码实践。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第1张图片

⭐项目链接⭐https://github.com/PaddlePaddle/awesome-DeepLearning所有源码及教程均已开源,欢迎大家使用,star鼓励~

深度学习技术赋能体育赛事的

三大典型范例

1、花样滑冰动作识别

花样滑冰的运动轨迹复杂性强、速度快、类别多,这对识别任务来说是极大的挑战。本范例首次将基于人体骨架关键点的人类动作识别算法 ST-GCN(时空图卷积网络模型),运用于花样滑冰动作识别,可以实时地识别视频中花样滑冰运动员的技术动作并添加标注予以分类,在比赛和训练过程中做辅助打分以及动作质量评估。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第2张图片

场景难点

  • 花样滑冰运动很难通过一帧或几帧图像中的人物姿态去判断动作类别;
  • 花样滑冰相同大类、不同小类的两个动作类别仅存于某几帧的细微差异,判别难度极高。然而,其他帧的特征也必须保留,以便用于大类识别以及“多义帧”处理等情况。

如花样滑冰动作有跳跃、旋转、托举、步伐及转体、燕式步,其中跳跃是最重要的动作要素之一,选手起跳与落冰所用冰刃方式与空中旋转周数分为多种,因此可以产生多种组合,这就增加了分类的难度。为了解决以上问题,技术方案选型的思考是什么呢?本范例通过选择ST-GCN,并在已发布的论文基础上改进了网络结构,为解决基于人体骨架关键点的人类动作识别问题提供了新颖的思路,也取得了较大的性能提升。下图为本项目中构建的ST-GCN网络结构图。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第3张图片

最终通过修改batch_size、num_classes参数,可以达到91%的精度

2、多模态体育视频分类

近日,各类冰雪运动视频受到人们的广泛关注。为了提炼出用户真实的兴趣点和高层次语义信息,企业需要对视频所带文本、音频、图像多模态数据多角度理解。飞桨联合百度云带来多模态分类任务,给视频打多个描述内容的标签,用于内容圈选、投放等多个推荐系统场景,可谓是文娱媒体工作者的福音。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第4张图片

场景难点

  • 视频标签具有高层语义特点,单模态特征难以表达,高质量视频分类数据有限,对应的图像、音频、文本高语义特征提取困难;
  • 不同模态之间存在语义鸿沟,模态之间交互存在挑战,不同模态可能存在互相干扰情况;
  • 视频主题混杂以及长视频处理困难问题,单模态可能存在较大噪声和缺失情况,对模型的鲁棒性有较高要求。

基于以上难点,实践范例融合文本、视频图像、音频三种模态进行视频多模特征抽取,再进行特征融合,最后进行多标签分类,相比纯视频图像特征,显著提升高层语义标签效果。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第5张图片

本次范例总结了多种优化经验,基于融入实体信息的强大预训练ERNIE,提升文本表征能力,固定住ERNIE 的参数,后置TextCNN 网络学习领域内知识,加速模型训练,多模态cross attention 提升不同模态的交互能力,最终达到85.59%的模型精度。

3、足球视频精彩片段剪辑

体育比赛集锦类视频需要快速高质量的自动化剪辑工具对视频快速处理。专业体育训练需要大数据支撑,通过比赛或日常训练视频回放熟悉自己和对手,进行战术演练,媒体行业也需要工具提取需要的视频内容,产出高时效性的新闻素材。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第6张图片

场景难点

  • 动作检测任务复杂度高:视频精彩片段剪辑任务的实现要点在于准确找到该类动作发生的起止点。但体育类视频内经常包含大量冗余的背景信息,动作类别多样且持续时长相对较短,要精准的判断出动作的起始点和对应类别,任务难度高;
  • 视频中的信息具有多样性,如何有效利用这些特征信息。

解密体育背后AI黑科技:花样滑冰动作识别、多模视频分类和精彩片段剪辑_第7张图片

为解决以上问题,我们最终选取TSN+BMN+LSTM作为基础模型方案,保障片段提取的准确度。优化策略包括使用用于提取视频图像特征的飞桨特色模型PP-TSM、TSN和TSM,数据扩充和扩展时序行为proposal。最终准确率达到91%,F1-score达到76.2%。

产业实践范例教程

助力企业跨越AI落地鸿沟

飞桨产业实践范例,致力于加速AI在产业落地的前进路径,减少理论技术与产业应用的差距。范例来源于产业真实业务场景,通过完整的代码实现,提供从数据准备到模型部署的方案过程解析,堪称产业落地的“自动导航”。

真实产业场景: 与实际具有AI应用的企业合作共建,选取企业高频需求的AI应用场景如智慧城市-安全帽检测、智能制造-表计读数等;完整代码实现: 提供可一键运行的代码,在“AI Studio一站式开发平台”上使用免费算力一键Notebook运行;详细过程解析: 深度解析从数据准备和处理、模型选择、模型优化和部署的AI落地全流程,共享可复用的模型调参和优化经验;直达项目落地: 百度高工手把手教用户进行全流程代码实践,轻松直达项目POC阶段。

精彩课程预告

以上体育赛事的三大场景均已建设为产业实践范例供大家快速上手体验和应用,除此之外,我们也准备了相应的课程讲解。2月17日20:00-21:30,大连理工大学刘教授和百度高级工程师将深度解析从数据准备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实践。

欢迎小伙伴们扫码进群,免费获取直播课和回放视频链接,更有机会获得覆盖智慧城市、工业制造、金融、互联网等行业的飞桨产业实践范例手册! 也欢迎感兴趣的企业和开发者与我们联系,交流技术探讨合作。

你可能感兴趣的:(人工智能)