AICon2018——爱奇艺王涛:大规模机器学习在视频分析理解中的实践

王涛大规模机器学习在视频分析理解中的实践v1.0.pdf

 

 

各种实际应用

 

OCR又提到了 CNN + BLSTM + OCR,识别精度高

 

深度学习核心算法:

  • Inception V3 
  • MobileNet
  • C3D
  • P3D
  • I3D
  • 代表性网络结构:更复杂的组合
    • LSTM
    • 3D-ConvNet
    • Two-Stream
    • 3D-Fused Two-Stream 
    • Two-Stream 3D-ConvNet
  • Loss损失函数
    • Focal loss ——本质上讲,Focal Loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss,改善了图像物体检测的效果
      • 思路——所以,要想改进的话,重点就是“不只是要告诉模型正样本的预测值大于0.5就不更新了,而是要告诉模型当其大于0.5后就只需要保持就好了”。好比老师看到一个学生及格了就不管了,这显然是不行的。如果学生已经及格,那么应该要想办法要他保持目前这个状态甚至变得更好,而不是不管。

 

短视频分类

数据集:

  • YouTube8M
  • Moments in Time Challenge 2018
  • ActivityNet 
  • PRCV2018美图短视频实时分类挑战赛

 

https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

 

 

 

 

你可能感兴趣的:(AICon2018——爱奇艺王涛:大规模机器学习在视频分析理解中的实践)