视频理解论文串讲(上)【论文精读】

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

from:https://www.bilibili.com/video/BV1fL4y157yA
在这里插入图片描述

视频理解论文串讲(上)【论文精读】_第1张图片

视频理解论文串讲(上)【论文精读】_第2张图片

1. DeepVedio【CNN 首次 for 视频理解】

视频理解论文串讲(上)【论文精读】_第3张图片

方法1:融合fusion
视频理解论文串讲(上)【论文精读】_第4张图片
方法2:多分辨率 CNN 网络
视频理解论文串讲(上)【论文精读】_第5张图片
效果

视频理解论文串讲(上)【论文精读】_第6张图片

总结:

  • 当时手工特征最好就能达到87了,本文效果远远不如手工特征
  • 这篇文章的意义在于:【这篇文章的意义不在于它的效果】
    • 引发大家思考:深度学习在视频理解领域碰壁了
    • 提出了视频理解领域最大的数据集
    • 把能想到的融合方式都尝试了一遍,给后续工作很好的铺垫,这才有了后面几年深度学习在视频领域的飞速发展
      视频理解论文串讲(上)【论文精读】_第7张图片

2. Two-Stream【双流网络】

在这里插入图片描述
方法:
当你用一个卷积神经网络无法很好处理时序信息的时候,
在这里插入图片描述

在这里插入图片描述

视频理解论文串讲(上)【论文精读】_第8张图片

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

大幅提高了性能,证明了双流网络的成功,迅速就有很多工作跟进了…
我们其实单从这个图里就能看到,比较容易想到的想法

  • fusion?怎么做early fusion? 中间fusion?
  • 替换 backbone,如何在小数据集上 控制过拟合?
  • 在抽出来的特征之上,再加LSTM,把它们之间的这些时序信息模拟起来 ,最后得到的特征更强
  • 长时间视频理解?

针对上面不同方向,有不同的代表工作

LSTM late fusion 方向【Beyond-short-snippets】

现在深度学习时代,用CNN去抽特征,关键是 如何做pooling操作?这篇论文里做了非常详尽的探索,还做了ConvPooling,latePooling…,最后的结论都是差不多,ConvPooling表现最好

视频理解论文串讲(上)【论文精读】_第9张图片
如何使用LSTM?

  • C是最后抽出来的特征

视频理解论文串讲(上)【论文精读】_第10张图片
效果:

  • LSTM没有那么有用…
    视频理解论文串讲(上)【论文精读】_第11张图片

手工87.9,双流网络88.0,本文在双流网络上做的所以效果要比他好,88.2,88.6,只好了1点点,LSTM带来的提升非常有限

视频理解论文串讲(上)【论文精读】_第12张图片
朱毅老师对此现象的解释:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

Early fusion方向【Convolutional fusion】

关键词:fusion
这篇文章,非常细致地讲了,如何做这种 fusion,如果在两个流之间做fusion

视频理解论文串讲(上)【论文精读】_第13张图片

Spatial fusion【空间维度】

在特征图上

视频理解论文串讲(上)【论文精读】_第14张图片

接下来的问题是说,到底在网络的哪个部分做fusion呢?
到底是偏前面的层conv1,conv2,还是偏后面的conv4,conv5?还是最后的分类层fc6,fc7?

两个方法:
视频理解论文串讲(上)【论文精读】_第15张图片

如何做temporal fusion?

视频理解论文串讲(上)【论文精读】_第16张图片

最后作者得出的方案:

视频理解论文串讲(上)【论文精读】_第17张图片

效果:

  • 尝试1:backbone 换成 VGG,提升还是明显的

视频理解论文串讲(上)【论文精读】_第18张图片

这篇文章的贡献: 1. 详尽的消融实验探索;2. 使用了3D CNN,变相推动3D CNN的发展
【启发:一篇文章的效果不只是看结果好不好,一些探索实验能否给后来研究者一些探索,启发等… 和第一篇论文很像,虽然结果不好,但是做了很多 探索实验】

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

长视频 【TSN temporal segment 分段的思想,good work】

视频理解论文串讲(上)【论文精读】_第19张图片

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

方法:分段

想法非常简单, 给 视频分段 的思想,good work

视频理解论文串讲(上)【论文精读】_第20张图片

好用的技巧:

  • 光流 模型初始化【RGB做平均复制20份】:
    • 视频理解论文串讲(上)【论文精读】_第21张图片

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述

  • 第二个技巧:模型正则化
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述

  • 第3个技巧:数据增强

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
视频理解论文串讲(上)【论文精读】_第22张图片
效果:

视频理解论文串讲(上)【论文精读】_第23张图片

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

文章目录

  • 1. DeepVedio【CNN 首次 for 视频理解】
  • 2. Two-Stream【双流网络】
    • 针对上面不同方向,有不同的代表工作
      • LSTM late fusion 方向【Beyond-short-snippets】
      • Early fusion方向【Convolutional fusion】
      • 长视频 【TSN temporal segment 分段的思想,good work】
  • 总结

总结

视频理解论文串讲(上)【论文精读】_第24张图片


没整理完,,,转移到本地了,加上whisper的翻译…

你可能感兴趣的:(【论文精读】,人工智能,深度学习,神经网络)