【每日一网】Day16:Inside-Outside Net(ION)讲解

Inside-Outside Net

算法背景

图像的上下文信息在人类和计算机视觉中起重要的作用,为了收集上下文信息,论文使用RNN来在水平和垂直方向传递空间变化的上下文信息,并且使用了跨层连接,绕过中间层,将不同层的特征进行组合。

网络结构

【每日一网】Day16:Inside-Outside Net(ION)讲解_第1张图片
每次传播,VGG16会从图片中提取特征图并且生成2000个Region proposal。对于每个Region proposal,网络使用ROI pooling提取固定尺寸,每个特征经过L2归一化,concatenate, 缩放和降维(1x1卷积)之后产生一个512x7x7的矩阵,经过两个全链接层之后输出一个目标分类预测结果和边界框调整结果。
为了检测目标,一个单独的深层卷积神经网络处理一幅图像并保留每层的卷积特征图,在网络顶部,一个2倍堆叠的4方向的IRNN计算图像的全局和局部的上下文特征,上下文特征图大小与conv5相同,这是一张图的流程,除此之外,我们还有几千个roi Region,对于每个Region,我们从几个层提取固定长度的特征描述符(conv3,conv4,conv5,上下文特征),描述符进行L2归一化、concatenate、重缩放,降维之后生成一个softmax之后的分类预测结果,和一个边界框回归预测结果。

多尺度池化

比较成功的检测网络像Fast RCNN,Faster RCNN等都是从VGG16的最后一个卷积层(conv5_3)进行池化,因为我们想使用训练好的VGG16网络,所以保留现在的层的形状是非常重要的,因此如果我们想对更多层进行池化,最终的特征图需要保持到512x7x7的形状,以便于输入fc6时的形状是正确的。为了匹配512x7x7的形状,我们concatenate没一个池化之后的特征图,并使用1x1卷积减少维度。

使用IRNN结合上下文特征

【每日一网】Day16:Inside-Outside Net(ION)讲解_第2张图片
上图展示了ION中计算上下文特性的结构,在最后一层卷积层(conv5)的顶部,我们使用rnn在图像上横向移动。传统来说,RNN沿着序列从左到右移动,移动一步消耗一个输入,更新隐藏层的状态,并产生一个输出,我们沿着图像的每一行每一列放置RNN,将其扩展到二维,所以总共有4个RNN:上,下,左,右。RNN在conv5上方,并产生于Conv5相同的形状的输出。
本文使用的是ReLU组成的RNN,Le等人称为IRNN。

你可能感兴趣的:(每日一网,卷积,神经网络,深度学习,python,计算机视觉)