视频行为理解

Understanding Video: Perceiving dynamic actions could be a huge advance in how software makes sense of the world.(from MIT Technology Review December 6, 2017)


理解视频中的动态行为是AI未来发展的关键方向。

视频行为理解包括视频分类、动作识别、时序行为检测和视频摘要生成等。

最近整理了一下所看的论文,主要是视频分类、动作识别和视频数据集方面的,列举了相关数据集上的最佳水平,分享在GitHub。

  • HMDB51数据集上,DOVF+MIFS方法最高水平的准确度为75%,在该数据集上还有较大的性能提升空间;
  • UCF101数据集上,TLE方法达到最高水平的准确率为95.6%;
  • ActivityNet数据集上,UntrimmedNet (hard)方法获得最高水平为91.3%;
  • Sports-1M数据集上,LSTM+Pretrained on YT-8M方法获得最高水平的Hit@1和Hit@5,分别为74.2%和92.4%,mAP为67.6%;
  • YouTube-8M数据集上,WILLOW团队的方法获得最高水平的84.967%

Awesome Video Understanding

你可能感兴趣的:(视频分类)