long term recurrent convolutional networks for visual recognition and description

这篇属于很早就探索cnn+rnn解决high-level computer vision task的文章

Abstract

基于深度卷积网络的模型已经在最近的图像解释任务中成为主流,在这里我们研究了是否recurrent model能够有效的处理涉及到sequences以及视觉的各种任务。我们开发了一个新的recurrent convolutional 结构来实现大规模的学习任务,而且这个结构是end-to-end trainable, 针对video recogntion tasks,image description 以及image retrival 问题。现有的其他model一般对序列处理,采用假设固定的时空感受野或者简单的时态均值,本文中的recurrent convolutional models 是double deep,并且是对于空间和时间组合的。这个model的优势在于当目标的概念比较复杂或者训练数据有限时候,学习出这种long term 的dependency是可能的。 long term RNN models能够将可变长度的输入(例如 video frames)映射成为可变长度的输出(e.g. natural languages). 我们的model与现代的visual convnet models 直接相连,可以同时学习temporal dynamics 以及convolutional perceptual representations. 我们的结果表明,这些models能够实现state of the art results.

Introduction

long term recurrent convolutional networks for visual recognition and description_第1张图片

本文提出 了一个model叫LRCN,结构如上图所示。然后分别拿video activity recognition,image caption generation, video description tasks.我们在这里表明LRCN通常可以应用到visual time-series建模。我们认为在视觉任务中,Long term rnn 能够提供明显的提升,特别是存在大量的训练数据来学习或者refine这个表达的时候。

Long term Recurrent Convolutional Network model

在这篇文章中,作者提出了LRCN model来组合deep hierarchical visual feature extractor和一个能够学会识别自己synthesize temporal dynamic的model。 我们的LRCN模型通过将每一个输入vt经过一个特征转化成为一个固定长度的特征表达。当我们获得了visual input sequence:,然后就可以调用sequence model了。

对于sequence model,最一般的形式是用W将输入xt,ht-1映射到输出zt以及ht. 因此,这个inference必须是序列化运行的。我们将这种sequencial learning分成三个大类:

long term recurrent convolutional networks for visual recognition and description_第2张图片

1. Sequenctial inputs, fixed outputs. 也就是说很多帧输进去,但是只输出固定个数的输出,比如action recognition。

2. Fixed inputs, sequential outputs. 也就是输入的个数固定的,输出是可变的。比如image captioning.

3. Sequential inputs, sequential outputs.  输入个数不固定,输出也不固定。比如video description。













你可能感兴趣的:(计算机视觉)