ELFNet: Evidential Local-global Fusion for Stereo Matching

论文地址:https://arxiv.org/pdf/2308.00728.pdf
源码地址:https://github.com/jimmy19991222/ELFNet


概述

  针对现有立体匹配模型面临可靠性和跨域泛化的问题,本文提出了Evidential Local-global Fusion(ELF)框架,该框架包含了不确信估计和置信度感知融合模块,并基于模糊不确定性和认知不确定性来预测视差图。此外,该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。


模型架构

ELFNet: Evidential Local-global Fusion for Stereo Matching_第1张图片

Evidential Deep Learning

Uncertainty Loss

  对于立体匹配任务中的视差 d d d 可以视为一个正态分布 ( μ , σ 2 ) (\mu, \sigma^2) (μ,σ2),要对分布进行建模,我们假设 µ µ µ σ 2 σ^2 σ2 分别来自正态分布和逆伽马分布:
d ∼ N ( μ , σ 2 ) , μ ∼ N ( δ , σ 2 γ − 1 ) , σ 2 ∼ Γ − 1 ( α , β ) (1) d\sim\mathcal{N}(\mu,\sigma^2),\mu\sim\mathcal{N}(\delta,\sigma^2\gamma^{-1}),\sigma^2\sim\Gamma^{-1}(\alpha,\beta) \tag{1} dN(μ,σ2),μN(δ,σ2γ1),σ2Γ1(α,β)(1)
其中 Γ \Gamma Γ 是伽马函数, δ ∈ R , γ   >   0 , α > 1 , β > 0 \delta\in\mathbb{R},\gamma~>~0, \alpha>1, \beta>0 δR,γ > 0,α>1,β>0. 不妨设均值和方差是相互独立的,后验分布 q ( μ , σ 2 ) = p ( μ , σ 2 ∣ d 1 , . . . , d N ) q(\mu,\sigma^2)\quad=p(\mu,\sigma^2|d_1,...,d_N) q(μ,σ2)=p(μ,σ2d1,...,dN) 可以表示为一个逆正态伽马分布 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β). 继而使用全局证据 Φ = 2 γ + α \Phi=2\gamma+\alpha Φ=2γ+α 来衡量预测结果的置信度,从而视差的模糊不确定性 a l al al 和认知不确定性 e p ep ep 可以表示为:
d = E ( μ ) = σ , a l = E ( σ 2 ) = β α − 1 , e p = Var ⁡ ( μ ) = β γ ( α − 1 ) , (2) \begin{aligned}d=\mathbb{E}(\mu)&=\sigma,al=\mathbb{E}(\sigma^2)=\frac{\beta}{\alpha-1},\\ep&=\operatorname{Var}(\mu)=\frac{\beta}{\gamma(\alpha-1)},\end{aligned}\tag{2} d=E(μ)ep=σ,al=E(σ2)=α1β,=Var(μ)=γ(α1)β,(2)
在训练过程中,使用 L N \mathcal{L}^{N} LN作为模型的负对数证据损失:
L N ( w ) = 1 2 log ⁡ ( π γ ) − α log ⁡ ( Ω ) + ( α + 1 2 ) log ⁡ ( ( y − δ ) 2 γ + Ω ) + log ⁡ ( Γ ( α ) Γ ( α + 1 2 ) ) (3) \begin{aligned} &\mathcal{L}^{N}(w)=\frac{1}{2}\log(\frac{\pi}{\gamma})-\alpha\log(\Omega) + (\alpha+\frac12)\log((y-\delta)^2\gamma+\Omega)+\log\left(\frac{\Gamma(\alpha)}{\Gamma(\alpha+\frac12)}\right) \end{aligned}\tag{3} LN(w)=21log(γπ)αlog(Ω)+(α+21)log((yδ)2γ+Ω)+log(Γ(α+21)Γ(α))(3)
其中 Ω = 2 β ( 1 + γ ) , w \Omega=2\beta(1+\gamma),w Ω=2β(1+γ),w 是一系列待估计的参数,为了抑制错误预测区域的证据,在损失函数中增加一项正则项:
L R ( w ) = ∣ d g t − E ( μ i ) ∣ ⋅ Φ = ∣ d g t − δ ∣ ⋅ ( 2 γ + α ) , (4) \mathcal{L}^R(w)=|d^{gt}-\mathbb{E}(\mu_i)|\cdot\Phi=|d^{gt}-\delta|\cdot(2\gamma+\alpha),\tag{4} LR(w)=dgtE(μi)Φ=dgtδ(2γ+α),(4)
为了将证实深度学习扩展到立体匹配领域中,我们将不确定损失函数 L U \mathcal{L}^U LU 扩展为所有像素的期望:
L U ( w ) = 1 N ∑ 0 N − 1 ( L i N ( w ) + τ L i R ( w ) ) , (5) \mathcal{L}^U(w)=\frac1N\sum_0^{N-1}\left(\mathcal{L}_i^N(w)+\tau\mathcal{L}_i^R(w)\right),\tag{5} LU(w)=N10N1(LiN(w)+τLiR(w)),(5)
其中 τ > 0 \tau>0 τ>0 控制着正则化的程度, N N N 代表所有像素的数量。

Uncertainty Estimation

Uncertainty estimation in cost-volume-based stereo
matching
基于代价体的立体匹配网络包含5个典型的结构:权值共享特征提取、代价体构建、代价体聚合、视差回归、视差细化。为了估计 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β) 的参数,将视差回归模块改进为具有多通道输出的可信回归模块,其余模块保持不变。利用两个3D卷积分支和一个Mish激活模块来得到分布参数,如图所示:
ELFNet: Evidential Local-global Fusion for Stereo Matching_第2张图片
V δ , V γ , V α , V β = Split ⁡ ( V o u t , d i m = − 1 ) (6) V_\delta,V_\gamma,V_\alpha,V_\beta=\operatorname{Split}(V_{out},dim=-1)\tag{6} Vδ,Vγ,Vα,Vβ=Split(Vout,dim=1)(6)
p = Softmax ⁡ ( V δ ) (7) p=\operatorname{Softmax}(V_\delta)\tag{7} p=Softmax(Vδ)(7)
δ = ∑ k = 0 D k ⋅ p k ,  logit i = ∑ k = 0 D V i ⋅ p k (8) \delta=\sum_{k=0}^Dk\cdot p_k,\text{ logit}_i=\sum_{k=0}^DV_i\cdot p_k\tag{8} δ=k=0Dkpk, logiti=k=0DVipk(8)

Uncertainty estimation in transformer-based stereo
matching
在transformer-based的立体匹配模型中,采用自注意力与交叉注意力机制,通过最优传输模块来计算视差,并通过一个不确定head来生成参数。

Fusion Strategy based on Evidence

  文中采用了正态-逆伽马分布(MoNIG)的混合策略,可以同时进行内部证据融合和外部证据融合。具体而言,给定M组NIG分布的参数,MoNIG分布可以通过以下操作进行计算:
MoNIG ( δ , γ , α , β ) = NIG ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ NIG ( δ 2 , γ 2 , α 2 , β 2 ) ⊕ ⋯ ⊕ NIG ( δ M , γ M , α M , β M ) , (9) \begin{aligned}&\text{MoNIG}(\delta,\gamma,\alpha,\beta)=\text{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\\&\text{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2)\oplus\cdots\oplus\text{NIG}(\delta_M,\gamma_M,\alpha_M,\beta_M),\end{aligned}\tag{9} MoNIG(δ,γ,α,β)=NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2)NIG(δM,γM,αM,βM),(9)
其中 ⊕ \oplus 表示两个分布的和,表示为: N I G ( δ , γ , α , β ) ≜ N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ N I G ( δ 2 , γ 2 , α 2 , β 2 ) , \mathrm{NIG}(\delta,\gamma,\alpha,\beta)\triangleq\mathrm{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\mathrm{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2), NIG(δ,γ,α,β)NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2),其中
δ = ( γ 1 + γ 2 ) − 1 ( γ 1 δ 1 + γ 2 δ 2 ) , 7 v = γ 1 + γ 2 , α = α 1 + α 2 + 1 2 , β = β 1 + β 2 + 1 2 γ 1 ( δ 1 − δ ) 2 + 1 2 γ 2 ( δ 2 − δ ) 2 . (10) \begin{aligned} &\begin{aligned}\delta=(\gamma_1+\gamma_2)^{-1}(\gamma_1\delta_1+\gamma_2\delta_2),\end{aligned} \\ &\text{7} v=\gamma_{1}+\gamma_{2},\alpha=\alpha_{1}+\alpha_{2}+\frac{1}{2}, \\ &\beta=\beta_{1}+\beta_{2}+\frac12\gamma_{1}(\delta_{1}-\delta)^{2}+\frac12\gamma_{2}(\delta_{2}-\delta)^{2}. \end{aligned}\tag{10} δ=(γ1+γ2)1(γ1δ1+γ2δ2),7v=γ1+γ2,α=α1+α2+21,β=β1+β2+21γ1(δ1δ)2+21γ2(δ2δ)2.(10)
组合分布的参数 δ δ δ是由 γ γ γ加权的 δ 1 δ_1 δ1 δ 2 δ_2 δ2的总和,这衡量了期望的置信水平。最终的β不仅是 β 1 β_1 β1 β 2 β_2 β2的总和,还包括组合分布和每个单独分布之间的方差,因为它同时提供了关于偶然不确定性和认知不确定性的联系。

Intra Evidential Fusion of Cost-volume-based Stereo Matching

  首先构建了3个level的代价体,并使用三个代价聚合模块和可信度回归模块来得到三个level的NIG分布的参数,继而使用内部证据融合模块来将三个分布整合成一个最终的分布。 M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) = N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ ⋯ ⊕ N I G ( δ 3 , γ 3 , α 3 , β 3 ) . (11) \begin{aligned}\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})&=\mathsf{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\cdots\oplus\mathsf{NIG}(\delta_3,\gamma_3,\alpha_3,\beta_3).\end{aligned}\tag{11} MoNIG(δlocal,γlocal,αlocal,βlocal)=NIG(δ1,γ1,α1,β1)NIG(δ3,γ3,α3,β3).(11)
不确定性感知的融合策略使该框架具有整合多尺度特征可靠输出的能力。

Inter Evidential Fusion between Cost-volume based and Transformer-based Stereo Matching

  卷积的局部归纳偏置使基于成本体积的立体匹配模型易于建模局部特征,而基于transformer的模型则利用注意力机制的长距离依赖性来捕获全局信息。这两种方法的不同侧重点导致了它们在预测差异方面的差异,可能在某些情况下互补。文中使用基于不确定性的融合策略,通过MoNIG分布提供了一种计算效率高的机制来将两个预测合并为一个。
M o N I G ( δ , γ , α , β ) = M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) ⊕ N I G ( δ g l o b a l , γ g l o b a l , α g l o b a l , β g l o b a l ) . \begin{aligned}\mathsf{MoNIG}(\delta,\gamma,\alpha,\beta)&=\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})\oplus\mathsf{NIG}(\delta_{global},\gamma_{global},\alpha_{global},\beta_{global}).\end{aligned} MoNIG(δ,γ,α,β)=MoNIG(δlocal,γlocal,αlocal,βlocal)NIG(δglobal,γglobal,αglobal,βglobal).


损失函数

  文中计算了局部输出、全局输出和最终组合输出的不确定性损失,分别表示为 L U ( w l o c a l ) L^U (wlocal) LU(wlocal) L U ( w g l o b a l ) L^U (wglobal) LU(wglobal) L U ( w ) L^U (w) LU(w)。在基于transformer的立体匹配模块中,还获得了注意力权重和遮挡概率 p o c c p_{occ} pocc。除了不确定性损失,文中还采用了与STTR 相同的损失函数,即相对响应损失 L R R ( w a t t n ) L^{RR}(wattn) LRR(wattn),以最大化对真实目标位置的注意力,并使用二元熵损失 L B E ( p o c c ) L^{BE}(pocc) LBE(pocc)来监督遮挡图。总体损失函数如下:
L = L U ( w l o c a l ) + λ 1 L U ( w g l o b a l ) + λ 2 L U ( w ) + λ 3 L R R ( w a t t n ) + λ 4 L B E ( p o c c ) , (13) \begin{aligned}&\mathcal{L}=\mathcal{L}^U(w_{local})+\lambda_1\mathcal{L}^U(w_{global})\\&+\lambda_2\mathcal{L}^U(w)+\lambda_3\mathcal{L}^{RR}(w_{attn})+\lambda_4\mathcal{L}^{BE}(p_{occ}),\end{aligned}\tag{13} L=LU(wlocal)+λ1LU(wglobal)+λ2LU(w)+λ3LRR(wattn)+λ4LBE(pocc),(13)


实验结果

ELFNet: Evidential Local-global Fusion for Stereo Matching_第3张图片
ELFNet: Evidential Local-global Fusion for Stereo Matching_第4张图片
ELFNet: Evidential Local-global Fusion for Stereo Matching_第5张图片
ELFNet: Evidential Local-global Fusion for Stereo Matching_第6张图片

你可能感兴趣的:(人工智能,深度学习,计算机视觉,机器学习,论文阅读)