Video LSTM压缩结果

这都是压缩到了1s以内的结果,好坏参差不齐

比较好的结果

Video LSTM压缩结果_第1张图片
1.png
3.png
Video LSTM压缩结果_第2张图片
10.png

惨不忍睹的结果

Video LSTM压缩结果_第3张图片
8.png
Video LSTM压缩结果_第4张图片
9.png

还有一些目标不在正中位置的结果,没法表达出任何内容

Video LSTM压缩结果_第5张图片
2.png
Video LSTM压缩结果_第6张图片
6.png

总结

因为是强行压缩来减少帧数,所以这个模型选择的是保留分值最高的帧
测试集中有些视频连正常人看了也不知道该拿什么作为封面,不过这个模型的泛化能力可能有点差,它输出结果好的都是目标单一的,场景切换少的,,对于来回切换场景,多目标的视频,表现得都很烂。

下一步工作遇到的问题

如果想要拿我们自己的真实视频进行测试,有个一直困扰我们的问题,每一帧图片的特征提取。论文中提到是用GoogleNet pool5的输出值(1024维),,但我调过的代码都是2048维的,用的都是别人预训练过的模型,2048跟1024应该不单单是改一个数字就能解决了。

Video LSTM压缩结果_第7张图片
Paste_Image.png

你可能感兴趣的:(Video LSTM压缩结果)