DBNet++学习笔记

DBNet学习笔记:http://t.csdn.cn/Ggtm2

1 概述

论文题目:Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion
论文链接:https://arxiv.org/pdf/2202.10304.pdf
DBNet++学习笔记_第1张图片
论文主要动机:已有的算法耗时长。开发一种算法降低时间消耗,提高尺度鲁棒性。
创新点:

  • DBNet++是在DBNet基础之上开发的;
  • DBNet:传统的二值化过程不可微分,作者提出来了一个可微分的二值化(DB);
  • DBNet++:在DBNet的基础上引入了ASF结构。

DBNet++网络在DBNet的基础上对head部分做了改进,DBNet直接把几个头分支concat起来,DBNet++通过Adaptive Scale Fusion (ASF)模块来连接,使用了空间自注意力机制来加强多尺度变化特征的刻画。

2 DBNet和DBNet++的主要区别

DBNet++学习笔记_第2张图片
DBNet++学习笔记_第3张图片
DBNet++学习笔记_第4张图片

2.1 自适应尺度融合模块

DBNet++学习笔记_第5张图片

主要思想如下:

  • 不同量表的特征具有不同的感知和接受域,因此它们侧重于描述不同量表的文本实例。例如,浅尺寸或大尺寸特征可以感知小文本实例的细节,但不能捕获大文本实例的全局视图,而深尺寸或小尺寸特征则相反;
  • 为了充分利用不同尺度的特征,语义分割方法通常采用特征金字塔或U-Net结构;
  • 与大多数通过简单的级联或总结来融合不同尺度特征的语义分割方法不同,自适应尺度融合是为了动态地融合不同尺度的特征。

假设输入特征图由 N N N个特征图组成 X ∈ R N × C × H × W = { X i } i = 0 N − 1 X \in \mathcal{R}^{N \times C \times H \times W}=\left\{X_{i}\right\}_{i=0}^{N-1} XRN×C×H×W={Xi}i=0N1,其中 N N N设置为4。
流程如下:

  • 将缩放后的输入特征 X X X连接起来,然后经过一个 3 × 3 3×3 3×3的卷积层,得到一个中间特征 S ∈ R C × H × W S \in \mathcal{R}^{C \times H \times W} SRC×H×W
  • 对特征 S S S应用空间注意模块,计算出注意权重 A ∈ R N × H × W A \in \mathcal{R}^{N \times H \times W} ARN×H×W;
  • 将注意权值 A A A沿信道维度分割成 N N N个部分,并与相应的尺度特征进行加权相乘,得到融合特征 F ∈ R N × C × H × W F \in \mathcal{R}^{N \times C \times H \times W} FRN×C×H×W;

注意力机制的定义为:
S = Conv ⁡ ( concat ⁡ ( [ X 0 , X 1 , … , X N − 1 ] ) ) A = Spatial ⁡ − Attention ⁡ ( S ) F = concat ⁡ ( [ E 0 X 0 , E 1 X 1 , … , E N − 1 X N − 1 ] ) \begin{array}{l} S=\operatorname{Conv}\left(\operatorname{concat}\left(\left[X_{0}, X_{1}, \ldots, X_{N-1}\right]\right)\right) \\ A=\operatorname{Spatial}_{-} \operatorname{Attention}(S) \\ F=\operatorname{concat}\left(\left[E_{0} X_{0}, E_{1} X_{1}, \ldots, E_{N-1} X_{N-1}\right]\right) \end{array} S=Conv(concat([X0,X1,,XN1]))A=SpatialAttention(S)F=concat([E0X0,E1X1,,EN1XN1])
其中:

  • concat ⁡ \operatorname{concat} concat:连接操作符;
  • Conv ⁡ \operatorname{Conv} Conv 3 × 3 3×3 3×3卷积运算子;
  • Spatial ⁡ − Attention ⁡ \operatorname{Spatial}_{-} \operatorname{Attention} SpatialAttention:ASF中的空间注意机制使得注意权重在整个空间维度上更加灵活。

你可能感兴趣的:(玉米树,学习,人工智能,机器学习)