DD - NET 论文学习

Make Skeleton-based Action Recognition Model Smaller, Faster and Better

  • 1,DD-NET特点
  • 2,DD-NET的网络结构
    • 网络结构名称解释:
  • DD-NET的特点如下:
  • A:Modeling Location-viewpoint Invariant Feature by Joint Collection Distances (JCD) 基于联合集合距离的位置视点不变特征 建模
  • B: Modeling Global Scale-invariant Motions by a Two-scale Motion Feature 基于双尺度运动特征的全局尺度不变运动建模
  • C: Modeling Joint Correlations by an Embedding 基于嵌入的关节相关性建模

1,DD-NET特点

DD-Net can reach a
super fast speed, as 3,500 FPS on one GPU, or, 2,000 FPS on
one CPU。
总之就是运行速度很快,同时保证较好的精确度。可以用于边缘设备上的 姿态识别和手势识别。
输入的是3维或者2维的骨骼点数据,输出是动作分类。
DD - NET 论文学习_第1张图片

2,DD-NET的网络结构

DD - NET 论文学习_第2张图片
这里其实有三个输入数据流:1,每一帧图片上的骨骼点关系,这个信息用来抓取图片上的静态信息;2,3,间隔不同帧,之间的骨骼点的差分数据,可以简单地理解为类似视频中间隔不同帧的“光流”信息,这个信息用来抓取动作的时序信息。
DD - NET 论文学习_第3张图片

网络结构名称解释:

DD - NET 论文学习_第4张图片

DD-NET的特点如下:

The network architecture of Double-feature Double-motion Network (DD-Net)

A:Modeling Location-viewpoint Invariant Feature by Joint Collection Distances (JCD) 基于联合集合距离的位置视点不变特征 建模

默认帧数是32帧,一个subiect 有 N 个关节
其中,在第K帧中,第i个关节(三维)的坐标是:
在这里插入图片描述

其中,在第K帧中,第i个关节(二维)的坐标是:
在这里插入图片描述
骨骼点的集合:
在这里插入图片描述
Sk的JCD特征:
DD - NET 论文学习_第5张图片
The dimension of flattened JCD is 在这里插入图片描述

B: Modeling Global Scale-invariant Motions by a Two-scale Motion Feature 基于双尺度运动特征的全局尺度不变运动建模

This idea is inspired by the two-scale optical flows proposed for RGB-based action recognition
在这里插入图片描述
其中,Mslow和Mfast分别代表slow motion和fast motion。其实就是选用的帧与帧之间的时间间隔不同。分别是1帧和2帧。DD - NET 论文学习_第6张图片

C: Modeling Joint Correlations by an Embedding 基于嵌入的关节相关性建模

分别有3个数据输入:
DD - NET 论文学习_第7张图片
最后把这三个输出融合起来。
DD-Net futher concatenates embedding features to a representation εk by:

DD - NET 论文学习_第8张图片

你可能感兴趣的:(论文)