论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing

目录

论文主要工作:

创新点:

设计思路:

 数据集特点:

论文方法:

 实验结果分析:

​论文可优化的地方:


原文链接:跳转

论文主要工作:

  • 进行动作分析——识别子动作,一个动作由多个子动作构成;
  • 判断动作关系——不同动作可能存在相似的子动作。

创新点:

  •  构建数据集TAPOS(Temporal Action Parsing of Olympics Sports),对动作进行细粒度上的时间解析注释。
  • 设计改进的动作时间解析方法TransPaser,在未知动作标签的情况下,挖掘出子动作,即识别视频中子动作的起始帧。

设计思路:

  现有技术和数据集的局限性:

  •  缺少对动作本身之外的更深层的解释

  • 仅有少数的研究者对动作进行细粒度分析

  • 现有的数据集侧重于粗粒度动作类别

  • 目前的研究方法中动作背景发挥着很大作用

论文改进

  •  以人对动作内部或动作边界较敏感为启发
  • 以更细粒度进行动作分析
  • 探索动作内部结构
  • 寻找不同动作间的联系   
论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第1张图片

Inter-:

一个子动作可能存在于不同的动作中

Intra-:

子动作是如何构成一个动作实例的

 数据集特点:

        TAPOS数据集,有着一致且干净的背景,更关注于动作本身,标记出子动作的边界

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第2张图片

论文方法:

        基于transformer改进的TransPaser,在没有子动作标签的情况下,挖掘出子动作

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第3张图片

  1.  输入动作实例的视频帧(Action Instance)
  2. 经过骨干网络Backbone,提取帧特征fn
  3. 将帧特征输入到软间隔强化单元(SPS),与模式挖掘器Φ做一个交互,得到放大特征
  4. 两个损失函数进行优化:local loss:最大化子动作内的框架之间的一致性,同时抑制子动作之间的一致性,在动作框架的特征中捕获信息;global loss:行为类别分类的损失
  5. 方法核心SPS:

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第4张图片

 实验结果分析:

        评判标准:召回率,精确度,F1值

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第5张图片

 基线方法(baseline):TCN,ISBA,CTM,K-Means

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第6张图片

 定量分析:

  •  该方法的F1值比基线方法有很大优势,但较人的表现还有很大的提升空间
  • TCN和CTM有较高的recall,但pre较低,表明它们存在着过度解析,过于关注局部差异
  • ISBA在recall上表现较差,但精确度(pre)比CTM和TCN高,可能捕捉得到粗到精的粒度变化,无法利用内部行为信息
  • 当增加阈值时,基线方法快速饱和,而该方法的性能持续提高

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第7张图片

                      通过平均F1分数计算得到TAPOS数据集产生的当前动作解析结果

      论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第8张图片

                        TSN在使用不同的抽样方案在动作分类上的性能表现

TAPOS数据集实验应用:

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第9张图片

在50Salads数据集上的应用:

论文笔记——Intra- and Inter-Action Understanding via Temporal Action Parsing_第10张图片

论文可优化的地方:

部分来源:论文

  1. 不能对长篇视频进行建模
  2. 检测已分割好的视频,对于未划分的视频的分类可能存在问题
  3. 对动作进行时间上的划分出子动作,而不是通过用的划分边界
  4. 视觉速度的巨大变化可能会捕捉不到
  5. 数据集的逐帧注释成本太高

你可能感兴趣的:(动作分类,细粒度分析,人工智能,transformer,分类)