2017CVPR
Christoph Feichtenhofer:http://feichtenhofer.github.io/
加入恒等映射核来捕捉长期依赖。
ST-ResNet:没有提供它的设计选择有系统的理由
重新考虑双流的结合,ResNet较为深入的增加了解这些技术是如何相互作用的
引入这些新的结构,产生了一个新的动作识别方法。
3 main contributions
Historically:HOF,MBH,trajectories,HOG3D,Cubiods,SOEs
More recently:
双流,卷积网络在appearance上容易过拟合。
在每个流上都用ResNet作为base network architecture。
加入cross-stream残差连接。提出了几种连接方式:
但是简单的cross-residual连接这两种流的层次导致了较低的分类与(非连接)两流的性能相比基线。我们推测,性能下降是由于这些层的输入分布的巨大变化在注入融合后的一个网络流中来自另一个流的信号。
将motion信号作为appearance feature的调整,公式为:
Inclusion of the multiplicative interaction increases the order of the network fusion from first to second order。
这里的相乘融合,对比相加,显示出了更strong的信息改变。在之前的例子中,motion信息直接缩放了appearance信息( Xal⨀f(Xml) ),在反向传播的时候,streams因为前向相加作用而均匀分布,如果是相乘的话,则是缩放的关系。后一种交互方式允许在学习过程中,信息流更有效地互动过程,相应的时空特征最终被捕获。
最后,相对于不对称的添加motion信息到appearance信息,我们采用了双向连接。相乘or相加都可以。实验结果表明,这样的连接方式性能比较差,作者人为是因为spatial stream在训练中支配了motion steam。
10frames is not enough
采用了一维时间卷积结合特征空间变换来初始化恒等映射。
一维卷积能够非常有效的学习到时间依赖,比LSTM的开销也少得多。特征变换的初始化作为恒等映射,当应用于很深的网络是,网络中任一有意义的改变都会扭曲模型,因此移除了大多数表现力。
形式上,添加时间卷积层用于传递 Cl 个特征通道:
然后全局池化。
采用了50-ResNet和152-ResNet.在imagenet上经过了预训练。
blocks的参数:
先分别训练两个stream,
lr: 10−2 and lower it 2 times after validation error saturates(饱和)。
光流:L=10 frames
dropout=0.8
random crop:256, 224, 192, 168
resize:224x224
batch size:128
测试的时候采用fully conv可以提高速度,TitanX 上大约250ms就可以测试一个视频。