注解版:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)

原文链接:解读:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)

注解版:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)_第1张图片

在本文中,通过将图卷积网络扩展到时空图模型,设计用于行为识别的骨骼序列通用表示,称为时空图卷积网络(ST-GCN)。如图 2 所示,该模型是在骨骼图序列上制定的,其中每个节点对应于人体的一个关节。图中存在两种类型的边,即符合关节的自然连接的空间边(spatial edge)和在连续的时间步骤中连接相同关节的时间边(temporal edge)。在此基础上构建多层的时空图卷积,它允许信息沿着空间和时间两个维度进行整合。
在这里插入图片描述

  • 早期基于骨骼进行动作识别的方法只是在各个时间步骤使用关节坐标形成特征向量,ST-GCN将关节转为结点,骨骼转化为边,构成了G=图,可以连接时间与空间。
  • 可以这么看,原先是时间t0的人体骨骼图,将关节转为结点,骨骼转为边,形成一个二维图,然后再讲t0的1结点与t1的1结点相连,t1的1结点与t2的1结点相连,以此类推连接成一个时间空间三维图,即ST-GCN图

2.1 通道
基于骨骼的数据可以从运动捕捉设备或视频的姿态估计算法中获得。通常来说,数据是一系列的帧,每一帧都有一组联合坐标。给定 2D 或 3D 坐标系下的身体关节序列,我们就能构造一个时空图。其中,人体关节对应图的节点,人体身体结构的连通性和时间上的连通性对应图的两类边。因此,ST-GCN 的输入是图节点的联合坐标向量。这可以被认为是一个基于图像的 CNN 模拟,其中输入由 2D 图像网格上的像素强度矢量形成。对输入数据应用多层的时空图卷积操作,可以生成更高级别的特征图。然后,它将被标准的 SoftMax 分类器分类到相应的动作类别。整个模型用反向传播进行端对端方式的训练。现在,我们将介绍 ST-GCN 模型的各个部分。

  • ST-GCN是基于CNN诞生的,但是在CNN基础上多出了一个维度
  • 端对端即输入原始数据输出最终结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征。
  • 传统的方式与端对端的区别—— 前者是半成品到成品,后者是原料到成品

下述讨论建立在这种讨论上。设一个大小为K x K的卷积核,输入图像为fin ,通道数为c。单个通道在位置x的输出: 注解版:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)_第2张图片注解版:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)_第3张图片

  • 输入函数fin中,x代表中心点的位置,h,w为以X为中心点的高度和宽度,w(h,w)为设置的权重,
  • 至于p’(w,h)函数,咨询王老师后,王老师的意见是这个函数写的不规范
  • 输入图像上的所有滤镜权重共享:因为是用同一个权重扫描。
  • functionB(Vti)此处应该是写错了,应该是选取距离小于等于定值D的点。
  • 关于卷积方面不了解的可以参考这两篇文章:
    CNN卷积神经网络入门基础知识
    浅析CNN卷积神经网络feature map

在两个数据集的三个测试协议上,ST-GCN 相比现有方法在识别精度上均有很大提高,具体结果可见表。

  • 原文中缺少的表
    注解版:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型)_第4张图片

你可能感兴趣的:(图卷积,动作识别,openpose)