ResNeSt网络结构概要解读

本篇主要介绍ResNeSt,其他相关系列及其变体见如下blog目录

ResNet系列及其变体目录


ResNeSt: Split-Attention Networks

enables attention across feature-map groups,提出Split-Attention模块。


背景知识

基于Multi-path and Feature-map Attention。

  • GoogleNet中提出Multi-path,其中每个网络块由不同的卷积内核组成。
  • ResNeXt在中采用group convolution,具体见我的另一篇blog:ResNet系列及其变体(四)—ResNeXt
  • SE-Net 提出 channel-attention 来重新调整通道响应。具体见我的另一篇blog:SENet网络结构概要解读
  • SK-Net 引入 feature-map attention acrosss two network branches.具体见我的另一篇blog:SKNet网络结构概要解读

SE-Net、SK-Net和 论文提出的ResNeSt block结构图如下 :

ResNeSt网络结构概要解读_第1张图片


Split-Attention Block

Feature-map Group
feature map被分为多个group,每个group又进行分组。
超参数K:表示group数目( cardinality hyperparameter)
超参数R:表示基数组内的split数(radix hyperparameter)
总feature map的group数 G = K R G=KR G=KR

对每一个group,transformations { F 1 , F 2 , . . . , F G } \{\mathcal F_1, \mathcal F_2, ...,\mathcal F_G\} {F1,F2,...,FG} U i = F i ( x ) , f o r   i ∈ { 1 , 2 , . . , G } U_i=F_i(x), for\text{ } i\in\{1,2,..,G\} Ui=Fi(x),for i{1,2,..,G}

ResNeSt网络结构概要解读_第2张图片

Split Attention in Cardinal Groups

  • U ^ k = ∑ j = R ( k − 1 ) + 1 R k U j \hat U^k =\sum^{Rk}_{j=R(k-1)+1} U_j U^k=j=R(k1)+1RkUj
    其中, U ^ k ∈ R H × W × C / K \hat U^k \in\Bbb R^{H\times W\times C/K} U^kRH×W×C/K,for k ∈ 1 , 2 , . . . K k ∈ 1, 2, ...K k1,2,...K
    c = C / K c=C/K c=C/K

  • Global pooling.
    ResNeSt网络结构概要解读_第3张图片

  • r-Softmax

ResNeSt网络结构概要解读_第4张图片
  • 融合
ResNeSt网络结构概要解读_第5张图片 ResNeSt网络结构概要解读_第6张图片
  • 等价转换

ResNeSt网络结构概要解读_第7张图片

网络调整


训练策略

  • Large Mini-batch
  • Label Smoothing
  • 学习率根据余弦调整
  • Auto Augmentation
  • Mixup Training
  • Large Crop Size:256
  • Regularization :dropout/DropBlock/L2 regularization

Result

ResNeSt网络结构概要解读_第8张图片

ResNeSt网络结构概要解读_第9张图片

ResNeSt网络结构概要解读_第10张图片

ResNeSt网络结构概要解读_第11张图片

ResNeSt网络结构概要解读_第12张图片

你可能感兴趣的:(DL,#,网络结构基础)