百度飞将BMN时序动作定位框架 | 数据准备与训练指南 (上)

一、介绍

        BMN模型是百度自研,2019年ActivityNet夺冠方案,为视频动作定位问题中proposal的生成提供高效的解决方案。

        简单说,视频的时序动作定位就是给一段视频,分析出从xxx秒到xxx秒是一个什么动作,相比动作识别需要推断这个动作的起始时间和终止时间,指标主要涉及两个:(1)分类准确率(2)与GT的IoU。

项目地址:

GitHub - PaddlePaddle/PaddleVideo: 基于模块化的设计,提供丰富的视频算法实现、产业级的视频算法优化与应用,包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等,涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。基于模块化的设计,提供丰富的视频算法实现、产业级的视频算法优化与应用,包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等,涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。 - GitHub - PaddlePaddle/PaddleVideo: 基于模块化的设计,提供丰富的视频算法实现、产业级的视频算法优化与应用,包括安防、体育、互联网、媒体等行业的动作定位与识别、行为分析、智能封面、视频标注、视频打标签等,涵盖动作识别与视频分类、动作定位、动作检测、多模态文本视频检索等技术。https://github.com/PaddlePaddle/PaddleVideo这个项目需要的存储空间挺多的,大概200G左右,要放在一个充裕的空间

算法主要分为三个阶段:

(1)视频理解

        PP-TSM,音频特征:VGGish

(2)时序提名

        BMN

(3)动作分类与定位

        AttentionLSTM

每个阶段都包含了数据准备、训练、验证和导出推理模型等环节。

准备环境主要是依赖requirements.txt里面的内容安装,基本没什么问题,paddlepa

你可能感兴趣的:(深度学习CV方向,动作检测,视频分类,时序定位,Paddle,机器视觉)