action recognition论文阅读

1.Potion

步骤:

(1)    抓取每一帧每个joint的heatmaps(每一个像素点被划分为某一个joint概率的heatmap)

             --》每一帧图像都得到N个heatmap(H*W), 共 T*N*H*W

(2)    对每一帧每个joint的heatmaps按照时间顺序进行colorizing,可以多个通道

             --》每个heatmaps*Oi(t),然后所有时刻相加, 共N*C*H*W

            C=2:通道一O1(t), 通道二O2(t).                 C=3:通道一O1(t), 通道二O2(t),通道三O3(t).

                                                      action recognition论文阅读_第1张图片
           C>2: 将T帧的视频分为C-1个片段,第一个片段对前两个channel使用前述的colorization方法,其余channel=0;接着在第二个片段,对第二个和第三个channel使用同样的方式,其余channel=0;以此类推。
(3)    CNN训练,输入数据为N个joint在通道上堆叠

             --》共(N*C)* H * W

举例:

                                action recognition论文阅读_第2张图片

2.Two-stream文章

步骤:

(1)    RGB图像+spatial CNN  (resnet)

(2)    Option flow + motion CNN

(3)    融合

action recognition论文阅读_第3张图片

问题:

(1)    option flow获取数据耗时长,数据量大

光流数据获取:

    1)    利用OpenCV直接获取

    2)    利用flownet网络获取,其中flownet2效果最好

             输入图片大小(h=384,w=512),输出(384,512,2)

3. STNet  

                                      action recognition论文阅读_第4张图片

步骤:

(1)    super-image:n个连续的视频帧叠加成一个具有3N个通道的image

             输入的视频中采样T个时序段,每个时序段包括N张连续的RGB帧,N张图片在通道上进行堆叠形成super-image为:T*3N*H*W。Super-Image中不仅仅包含单帧局部空间信息,而且也包含局部连续视频帧之间时序依赖信息。
(2)    对super-image进行二维卷积以获取局部的时空关系

(3)    Temporal Modeling Block:通过三维卷积以获取全局的时空特征

             经过2D卷积的作用,得到T个局部时空特征图,通过这T个时空特征图建立全局的时空特征图对于理解视频是至关重要的,因此通过3D卷积实现(Conv3d-BN3d-ReLU)。为了节省计算量,3D卷积空间核size为1,时序kernel size为3。
(4)    Temporal Xception Block:实现特征序列之间高效的时间建模  

                                                             action recognition论文阅读_第5张图片

             输入的size为T*Cin,是对T个super-imags的feature map 进行全局均值池化所得到。为了建立时间关系,在时间维上进行卷积,作者将时间卷积分解为基于逐通道和逐时序的一维卷积。基于逐通道channel-wise的一维卷积,时序核大小设置为3,卷积核的数目和group设置为与输入通道数目相同。基于逐时序temporal-wise的一维卷积,时序核大小为1,group为1。
   

实例: 1D卷积配置(#kernel,kernel size,padding,#groups)  

                                                  action recognition论文阅读_第6张图片

4. I3D: Inflated 3D ConvNets

1)拓展2D卷积网到3D: 将2D转化为3D

2)将2D滤波器变为3D: 除了结构,还想提取预训练参数。视频可以通过复制图片序列得到,且视频上的pooling激活值应该与单张图片相同。由于是线性的,可以将2D滤波器沿着时间维度重复N次。这保证了相应的相同。由于图片组成的视频卷积层在时间上输出是恒定的,因此点状非线性层和average层和max pooling层和2D的一致。
3)空间、时间和网络深度接收增长: 图片中空间域自然的将x,y同等对待,在时间域上却没必要这样,(时间域上的pooling核选取有不同),这取决于帧率和图片维度之间的关系,如果相比空间域,时间域增长太快,可能破坏早期的特征检测,如果时间上增长的过慢,可能难以捕捉场景动态信息。

        action recognition论文阅读_第7张图片

 

 

你可能感兴趣的:(深度学习)