双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读

前几天刚放出来的一篇paper:Spatiotemporal Residual Networks for Video Action Recognition,又将HMDB51数据库和UCF101数据库的精度刷高了。
精度结果如下:
双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读_第1张图片

这比之前的tsn网络的结果还要好,之前tsn的结果是:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读_第2张图片
将结果分别都提高了不到1个百分点,可见基于video 的action recognition的确被做的比较好了。
接下来会写一篇关于tsn网络的博文,这里先讲最新的结果的Spatiotemporal Residual
Networks for Video Action Recognition:
原文代码还未更新,地址是:https://github.com/feichtenhofer/st-resnet
这篇文章使用的网络是何凯明大神的残差网络ResNet,网络结构如下
双流网络行为识别-Spatiotemporal Residual Networks for Video Action Recognition-论文阅读_第3张图片
依然是使用了两个流,但是名字不是取为空间流和时间流,而是运动流(motion stream)和外观流(appearance stream),但是本质不变,运动流接收的输入依然是堆叠的多帧光流灰度图片,为什么是两幅,是因为光流计算后的结果分为x方向的光流和y方向的光流,真正计算的时候也是在同一位置取出x位置L=10帧做计算,y位置L=10做计算,而外观流和原来的空间流一致,接收的输入都是RGB图片,但是这里使用的 双流的两个流之间是有数据交换的,而不是像TSN网络一样在最后的得分进行融合

你可能感兴趣的:(Machine,Learning,ML,papers,reading)