Sequence to Sequence - Video to Text

论文提出了将sequence to sequence 模型应用到video to text任务上,解决了video to text的变长问题。
之前解决变长问题的方法有1.将视频整体表示 2.缩成关键帧 3.下采样值固定的帧数。

模型结构

image

images.jianshu.io/upload_images/6656144-50c9e679e4561b4c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

第一层输入:
1.用ILSVRC-2012预训练的CNN模型提取图像的特征作为每个时刻的输入,生成500维的特征向量
2.将帧间的光流图作为每个时刻的输入,生成500维的特征向量

Sequence to Sequence - Video to Text_第1张图片

第二层输入:
在encoding阶段没有遇到起始符之前,0作为输入,decding阶段前一个时刻的输出作为输入。

LSTM后加softmax输入词

训练与测试:

将LSTM的设为固定的80个timestep(显存不够),10帧中采样1帧,不够长的视频用0补齐。
测试时不限制长度,视频帧逐帧进入模型。
测试结果=视频图像与光流图预测结果的加权。

你可能感兴趣的:(Sequence to Sequence - Video to Text)