A Survey on Temporal Action Localization论文总结

A Survey on Temporal Action Localization论文总结

2020年的时序动作定位综述

文章是中国人写的,对我们来说很好读,逻辑也清晰,对于想了解时序动作定位这个领域的入门者来说很友好~

我把论文的要点进行了罗列,类似论文大纲~

论文地址:A Survey on Temporal Action Localization | IEEE Journals & Magazine | IEEE Xplore

摘要:

本文主要介绍了时序动作定位任务中的SOTA技术和模型,基准数据集、评价指标等;总结了强监督学习和弱监督学习的TAL;列举了有代表性的工作,对比它们的性能;最后做了深度分析及研究展望。

引言:

  • 从视频理解五个子研究方向引出时序动作定位TAL,并说明子任务内容:

    • 给出动作发生开始和结束的时间

    • 给出动作类别

  • 介绍了TAL任务相比图像检测来说存在的挑战和困难:

    • 结合了时间序列信息

    • 边界模糊,没法给出动作准确的边界

    • 动作片段时间跨度不同

    • 其他问题:多尺度、多目标、相机运动

  • 说明该任务的研究热度和论文组织结构

相关技术:

  • 传统方法-具有强解释性

    • 提取视频特征:包括提取静态图像特征和时间视觉特征

      • 静态图像特征:SIFT、HOG

      • 时间视觉特征:静态图像特征和时序信息的结合

    • 特征提取分成两类:局部和全局

      • 局部特征提取:

        • 包括统计学、字典学习、bag - of-words (BoW)和feature学习等。与全局特征相比,局部特征对视频照明、视角、相机抖动和复杂背景的适应性更强。

      • 全局特征提取:

        • 包括全局密度和轨迹方法

        • 基于特征点跟踪:Dense Trajectories(DT),iDt,深度学习和iDT的结合

  • 深度学习方法

    • 两阶段(待修改)

      • S-CNN、TAG、TURN、BSN、BMN

    • 单阶段

      • 基于one-shot检测器:SSAD、SS-TAD

      • 基于高斯核:GTAN

      • 基于顺序决策过程

基准数据集

  • A Survey on Temporal Action Localization论文总结_第1张图片

评价指标:

  • 基本概念:accuracy、recall、precision、IoU

  • 常用指标:AR、mAP、t-IoU

近期发展:

  • F-TAL

    • 完全监督学习:是一个训练智能算法将输入数据映射到标签的过程。其中每个训练数据都有对应的标签表示ground truth。分类和回归是监督学习的代表。在时间动作定位任务中,全监督使用训练集的标签,既包含视频级别的类别标签,又包含动作段的时间注释信息(包括动作的开始和结束时间)。

    • 当前代表方法

      当时的最高mAP是46.9% TSA-Net

      • 基于滑动窗口:S-CNN、PSDF

      • 逐帧预测:CDC

      • 基于边界匹配机制:BSN、BMN

      • 基于时间结构信息建模:SSN

      • 基于区域:R-C3D、TAL-Net

      • 精确动作定位:TSA-Net、高斯时序模型

      A Survey on Temporal Action Localization论文总结_第2张图片

  • W-TAL

    • 弱监督学习:

      • 不完全监督,少量训练数据有标记,其余无标记

      • 不精确监督,训练数据只有粗粒度标签

      • 不准确监督,标记会有错误

    • 当前代表方法(依赖于视频级标签来训练)

      • A Survey on Temporal Action Localization论文总结_第3张图片

    • 对W-TAL问题的见解

      • 多实例学习(MIL)被用于W-TAL。MIL模型不是使用一组单独标记的实例学习,而是接收一组标记的包,每个包包含许多实例。如果我们把视频中的动作实例看作一个袋子,视频级注释作为标签,那么W-TAL可以表述为一个多实例学习的过程。

      • 另一些方法:T-CAM、CAS。

      • 总之:弱监督减小了人工劳动和时间成本,增大检测难度,改进空间很大。

未来趋势:

  • 精度和速度的提升

  • 二维的探索

  • 在线视频动作检测,实时检测

  • 弱监督学习,(标记将数据的成本太大了

  • 利用多模态数据

你可能感兴趣的:(时序动作定位,计算机视觉,深度学习,人工智能)