《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation

留个笔记自用

Bi-directional Relationship Inferring Network for Referring Image Segmentation

做什么

Referring image segmentation参考图像分割
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第1张图片
简单来说就是给定一张图片和一句话,根据这句话来对图片进行符合文字语义的实例分割

做了什么

《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第2张图片
构建一个视觉引导的语言注意模块来学习每个视觉区域的自适应语言环境,再构造一个语言引导的视觉注意模块利用所学习的语言语境来引导视觉特征的任意两个位置之间的空间相关性的学习。简单来说就是双向构造互相影响

怎么做

《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第3张图片
整体结构存在着两个输入,即源图像和源文本,两个输入先经过特征提取模块获取对应的特征,图像部分使用DeepLab ResNet-101v2来提取
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第4张图片
而文字部分使用LSTM来提取
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第5张图片
整体结构分为三个主要部分,Vision-Guided Linguistic Attention视觉引导的语言注意部分,Language-Guided Visual Attention语言引导的视觉注意部分,Gated Bi-directional Fusion门控双向融合部分

首先是Vision-Guided Linguistic Attention视觉引导的语言注意部分,这部分首先处理源文字序列,先采用LSTM提取它每个词的上下文内容ht,即LSTM在该单词t的输出,鉴于一句话中每个词的重要度完全不同,如上图中的《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第6张图片
Person是主要人物,重要性需要高于其他单词,这里引入了VLAM语言注意模块
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第7张图片

《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第8张图片
这里的vi是视觉特征Ii、LSTM最后隐层输出hT、空间特征si的concatenate。这里的Ii维度为CI,即视觉特征图的通道数,hT维度为1000,这是LSTM设置的,si维度为8。式中的Wvi是维度为1000×(CI+1000+8)的训练参数,即将vi映射到ht的同一维,然后这里的αi,t就可以表示为第t个单词对第i个特征区域的重要性。
在这里插入图片描述
这样就可以计算第i个特征区域的语言注意力编码特征
之后是第二个模块,Language-Guided Visual Attention,语言引导的视觉注意模块,背景信息对于参考图像分割至关重要,为了模拟不同区域之间的上下文关系《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第9张图片
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第10张图片
这里的vj跟上面的vi同样,Wv2是维度为1000×(CI+1000+8),这里也可以理解为将特征v映射成向量各式,Wc维度为500×1000,Wv~2是维度为500×1000,Wλ是维度为1000的参数,N是特征区域的个数,最后得到的λi,j可以理解为第i个区域和第j个区域的依赖关系或者说相似性
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第11张图片
得到了λi,j后就可以更新视觉特征了,这里的Wv3和Wv4都是训练参数,也就是同理映射方法,[a,b]方法即对a和b的concatenate
以上的两种引导注意力的方法在整个结构中统称为Bi-directional cross-modal attention module(BCAM),整体结构
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第12张图片
最后是最后一个模块Gated Bi-directional Fusion门控双向融合部分GBFM
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第13张图片
这部分的输入正是上面两个引导部分得到的最终特征vi维度为(CI+1000+8),第一步就是将BCAM的结果经过ASPP
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第14张图片
ASPPatrous spatial pyramid pooling空洞空间卷积池化金字塔,简单来说就是在同一个输入的特征图上,使用多个不同dilated的空洞卷积空洞卷积介绍
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第15张图片
最后将所有结果concatenate和1×1卷积调整通道后得到最后的结果,很明显这个的作用是不同采样率的空洞卷积可以有效捕获多尺度信息,将ASPP得到的三个结果分别定义为f3、f4、f5,这三个分别对应着deeplab即图像特征提取网络中的rest3、res4、res5的特征结果
接下来就是将这三个进行融合,这里采用了两种方法进行融合,有自下而上的方法bottom-up和自上而下top-down的方法
在这里插入图片描述
这里的G是在这里插入图片描述
《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation_第16张图片
比如上图计算的就是G4,5
自下而上的方法中,期望较高级别的特征为较低级别的特征提供全局和语义指导
然后是相反的自上而下方法,希望较低级别的特征为较高级别的功能提供局部和精细的指导,具体算法跟上面的自下而上正好相反
在这里插入图片描述
最后就是将两种融合方式结合得到结果图
在这里插入图片描述

总结

1.在空洞卷积的基础上了解了一个即插即用的模块ASPP,这个模块可以有效捕获多尺度信息
2.bottom-up和top-down再加上门控的方法 可以很好的整合多层次线索

你可能感兴趣的:(深度学习,计算机视觉,计算机视觉,深度学习,人工智能)