2019 Action Recognition 顶会论文(CVPR、ICCV)

  暑假期间为了写综述,看了大概50篇有关动作识别的论文,都是2015-2017年的,最近搜了下最新的论文,2018年有30篇,2019有15篇。2018年的有别人解读过,根据暑假看论文定下的大致方向,大概选择了5篇有关RGB-D或者角度比较新颖的论文准备仔细读一读。19年的还没找到解读,先自己大致读一遍看看是啥,综述交差了就不想改了,就在这记录一下吧

A Comparative Review of Recent Kinect-based Action Recognition Algorithms

  本人之前看过几篇综述了,本文吸引我的是基于kinect的点,之前看的论文只有很小一部分基于depth,所以在2019的综述中我也主要读了有关depth的部分。
  一篇基于kinect相机的综述,比较了10种算法,用于cross-subject和cross-view的动作识别。
  人体动作识别分为两种方法,一种是手工特征,分为特征提取和特征表示两个部分;另一种是深度学习特征。
  Depth-based action recognition:一种用时空体积和轮廓信息等全局特征(HON4D、自适应时空金字塔、Xia等提出的滤除噪声的方法);深度学习特征:HDMMs、HPM、多流。
10种方法:
1.HON4D:基于深度信息的全局描述符,该描述符在4D空间坐标、深度和时间范围内捕获人体动作的几何和运动。
2.HOG:分别计算深度、深度导数、关节位置差的直方图,形成时空关节特征。
3.HOPC:将深度图像建模为3D点云,HOPC描述符从3D点云中提取出时空关键点(STK)。对于每个STK,算法进一步将特征向量投影到一个正十二面体的20个顶点的轴上。每个的STK的最HOPC描述符是3个小直方图的拼接。
4.LARP-SO:将 rolling map用于3D action recognition,基于骨架
5.SCK+DCK:基于3D human body joints
6.HPM+TM:使用一个深度CNN架构来训练一个视图不变的人体姿态模型。将Real depth sequences逐帧传递给所学习的模型,以提取高级的视图不变特征。
7.P-LSTM:基于骨骼
8.Clips+CNN+MTLN:Frames+CNN,Clips+CNN+Pooling,Clips+CNN+Concatenation,and Clips+CNN+MTLN。
9.IndRNN
10.ST-GCN:重建时空骨架图
实验结果分析:
1.Single-view 与cross-view对比
将基于深度和骨架的特性结合在一起有助于改进跨视图动作识别,并为跨主题动作识别提供类似的性能。
2.Depth-based features versus skeleton-based features
在cross-subject动作识别中,基于骨架的特征在手工和深度学习特征类别中都优于基于depth的特征。然而,将基于depth的特征添加到基于骨架的特征中,导致了动作识别精度的轻微下降。主要原因是背景杂波和噪声使得基于depth的特征在鲁棒动作识别中的代表性降低。
例外是HOPC算法,它使用基于深度的特性,并且在交叉主题动作识别方面比基于骨架的特性(如HDG-jpd+jmv)表现得更好。HOPC算法与其他基于深度的算法不同,它将深度图像视为一个3D点云。这种方法使得HOPC算法能够在更好地处理视点变化的情况下估计人体局部表面斑块的方向。
3.Handcrafted features versus deep learning features
深度学习在大数据集上表现好,手工特征在小数据集上表现好;
手工特征不能实现迁移;
4.趋势
深度学习表示正在从基本的神经网络(如传统的RNN和LSTM)向适应的和/或依赖于预先训练的网络的专用网络(如,HPM+AP, HPM+TM, Clips+CNN+MTLN)。

A Large-scale Varying-view RGB-D Action Dataset for Arbitrary-view Human Action Recognition

  • 提出了一个任意角度RGB-D大规模数据集,数据集包括8个视点,360°全视角。118个人共完成40类动作,动作以健身动作为主,共收集了25600个视频
  • 提出了一种View-guided Skeleton CNN (VS-CNN)解决任意视图动作识别问题。

Action Recognition in Untrimmed Videos with Composite Self-Attention Two-Stream Framework

  针对Zero-Shot Action Recognition(ZSAR),没有任何正面例子的情况下,对新动作进行分类。提出一个带预训练模型的复合两流框架。框架包括一个分类器分支和一个复合特征分支。两个分支均采用图网络模型,有效提高了框架的特征提取和推理能力。在复合特征分支中,构造了一个3通道的self-attention 模型,对视频中的每一帧进行加权,并对关键帧给予更多的关注。每个self-attention模型通道输出一组attention weights,集中在视频的某个特定方面,一组attention weights对应于一维向量。3通道self-attention可以从多个方面对关键帧进行评价,注意权向量的输出集形成一个attention matrix,有效地增强了具有很强动作相关性的关键帧的注意。该模型能够实现零镜头条件下的动作识别,对未裁剪的视频数据具有良好的识别性能。
  零距离学习的目的是根据人类提供的语义描述或现有知识动态地构造新的分类器,而不是标记数据。
  从以下三个层次来介绍这个新模型。在3.1节中,第一层是裁剪视频的多通道自注意力模型的子分支;在第3.2节中,第二层是用于裁剪和未裁剪视频的复合特征分支模型;在3.3节中,第三个层次是零镜头动作识别的复合双流结构。
3.1 Sub-Branch of Multi-Channel Self-Attention Model
  首先对原始视频数据进行预处理。预处理的目的是提取视频的特征,包括空间维度的特征(RGB信息3通道)和时间维度的特征(光流)提取。
  两个特征信息矩阵输入两个独立的多通道自注意模型,输出结果为两个注意力加权信息矩阵,分别对应于输入的空间特征信息矩阵和时间特征信息矩阵
2019 Action Recognition 顶会论文(CVPR、ICCV)_第1张图片
3.2 Model of Composite Feature Branch
前一节的多通道自注意模型用于处理修剪视频的动作识别问题。在面对未裁剪的视频时,在视频中加入几个背景帧会对模型的动作识别性能产生显著影响。因此构建了一个复合的特征分支模型,如下面的图所示
2019 Action Recognition 顶会论文(CVPR、ICCV)_第2张图片
上流用于处理未修剪的视频,动作分类的输出部分定义的损失函数表示为loss2, 下流用于处理修剪后的视频,。
loss = loss2+loss3+loss4

3.3 Model of Composite Feature Branch
使用3.2节中的多通道自注意复合模型作为预训练模型,然后在[5]中替换双流图卷积网络的注意模块,实现多通道自注意复合双流模型。该模型能够实现零距离动作识别。

你可能感兴趣的:(2019 Action Recognition 顶会论文(CVPR、ICCV))