[文献翻译]Towards Good Practices for Very Deep Two-Stream ConvNets
摘要:深度卷积网络已经在静态图像目标识别中取得了了的巨大成功。但是,对于视频的动作识别,深度卷积网络的改进不是那么明显。我们认为这样子的结果可能有两个原因。首先,与图像中非常深的模型(例如VGGNet[13],GoogLeNet[15])相比,当前的网络体系结构(例如,双流ConvNets[12])相对较浅,因此它们的建模能力受到其深度的限制。其次,更重要的可能是,动作识别的训练数据集与Image