[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
摘要:深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。但是,对于视频中的动作识别,相对于传统方法的优势并不是那么明显。本文旨在设计有效的ConvNet架构来进行视频动作识别,并在有限的训练样本下学习这些模型。我们的第一项贡献是时间分段网络(TSN),这是一种基于视频的动作识别的新框架。这个结构是基于远程时间建模的思想。它结合了稀疏的时间采样策略和视频级的监督,可以使用整个动作视频进行有效的学