论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK

论文标题为LRNNET: A LIGHT-WEIGHTED NETWORK WITH EFFICIENT REDUCED NON-LOCAL OPERATION FOR REAL-TIME SEMANTIC SEGMENTATION
链接:https://arxiv.org/abs/2006.02706v1

一、相关概念

LRNNET主要包含两种结构:factorized convolution和attention model

1 factorized convolution

factorized convolution是指对标准的卷积方式进行分解优化,以起到减少参数量、提高运行速率的目的。文章中使用了factorized convolution block(FCB)

2 channel attention

channel attention的方法被大量运用在语义分割的模型中,而position attention和non-local方法则运用较少。

二、methodology

1 singular value decomposition and approximation

这里使用奇异值分解类似于在机器学习特征工程中的数据降维处理。假设一个矩阵 A = ( a i j ) ∈ R m × n ( m ≥ n ) A=(a_{ij})\in R^{m\times n}(m\geq n) A=(aij)Rm×n(mn)同时有实数 σ 1 ≥ σ 2 ≥ ⋯ ≥ σ r > 0 \sigma _{1}\geq \sigma _{2}\geq\cdots\geq\sigma _{r}> 0 σ1σ2σr>0,两个正交矩阵 U ∈ R m × m U\in R _{m\times m} URm×m, V ∈ R n × n V\in R _{n\times n} VRn×n,满足 A = U D V T = ∑ i = 1 r σ i u i v i T A=UDV^{T}=\sum_{i=1}^{r}\sigma _{i}u _{i}v _{i}^{T} A=UDVT=i=1rσiuiviT
称U为左奇异矩阵,V为右奇异矩阵。D仅在主对角线上有值,且主对角线上的值为奇异值。
D = d i a g { σ 1 , σ 2 , ⋯   , σ r , 0 , ⋯   , 0 } m × n D=diag\left \{ \sigma _{1},\sigma _{2},\cdots,\sigma _{r},0,\cdots,0 \right \} _{m \times n} D=diag{σ1,σ2,,σr,0,,0}m×n
若取 K ≤ r K \leq r Kr,可以得到
A ≈ ∑ i = 1 K σ i u i v i T = A ^ A \approx \sum_{i=1}^{K}\sigma _{i}u _{i}v _{i}^{T}=\hat{A} Ai=1KσiuiviT=A^
则可用 A ^ \hat{A} A^来近似A。

2 Non-local Module

论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK_第1张图片
Query-Key-Value是NLP中的一种方法,分为三个步骤:
1.query与每个key进行相似度(有多种函数可以计算相似度)计算以得到权重。
2.对权重归一化
3.权重和相应key的value进行加权求和得到attention
O i = 1 C ( v j ) ∑ j = 1 S i m ( q i , k j ) v j O _{i}=\frac{1}{C(v _{j})} \sum _{j=1} Sim(q _{i},k _{j})v _{j} Oi=C(vj)1j=1Sim(qi,kj)vj
q i q _{i} qi为query, k j ) k _{j}) kj)为key, v j v _{j} vj为value, O i O _{i} Oi为query对应的output, C ( v j ) C(v _{j}) C(vj)为归一化函数
文章中所用的FCB如下图c所示:
论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK_第2张图片
首先是两个1Dkernel,然后是dilation & depthwise separable convolution,最后是channel shuffle。作者认为,一维卷积核适合于空间信息较少的特征,同时为了接收到空间信息多(也可以说成是增大感受野)的long-range的特征,使用了dilation & depthwise separable convolution,使用channel shuffle是因为在point-wise convolution之后使用了残差连接
LRNNET的encoder部分由多个FCB组成
论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK_第3张图片
以及使用了SVN Module的decoder部分
论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK_第4张图片
Conv1和Conv2均为1×1卷积,以构成bottleneck。整个解码器部分可以理解成类似attention的方法,其中的SVN的部分可以理解为特征图降维。设1×1conv后的feature maps尺寸为C’×H×W,将其划分为多个spatial sub-regions,每个region的尺寸为C’×H’×W’,共有 S = H × W H ′ × W ′ S=\frac{H \times W}{H' \times W'} S=H×WH×W个regions,另N=H×W。并将regions flatten到尺寸为C’×(H’W’),然后用power iteration algorithm计算left dominant singular vectors,尺寸为C’×1。由C’个regions可得到: K e y s ∈ R C ′ × S Keys \in R^{C' \times S} KeysRC×S, V a l u e s ∈ R C ′ × S Values \in R^{C' \times S} ValuesRC×S, Q u e r i e s ∈ R C ′ × N Queries \in R ^{C' \times N} QueriesRC×N为提取dominant singular vectors之前的position vectors。输出为 O i = ∑ V j , K j   i n S 1 ⋃ ⋯ S n d o t ( Q i , K j ) V j O _{i}= \sum _{V _{j},K _{j}\ inS _{1}\bigcup \cdots S _{n}} dot(Q _{i},K _{j})V _{j} Oi=Vj,Kj inS1Sndot(Qi,Kj)Vj
在Cityscapes上的测试结果如下
论文笔记LRNNET: A LIGHT-WEIGHTED NETWORK_第5张图片

你可能感兴趣的:(深度学习,语义分割,深度学习)