Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks笔记
在以前的videocaptioning解决方法中,绝大部分都是生成短短的一句话,并不能很好的概括视频中的详细内容,论文中提出了采用分级RNN的方法,先利用sentencegenerator产生句子,在上面叠加一层paragraphgenerato产生段落。在sentencegenerator中加入了时间和空间的attention机制。整体结构如下:SentenceGenerator图中(a)部分为