立体匹配-ITSA-CVPR2022论文学习笔记

ITSA,Information-Theoretic Shortcut Avoidance
立体匹配的用途:AR、机器人、自动驾驶
名称:《ITSA: An Information-Theoretic Approach to Automatic Shortcut Avoidance and Domain Generalization in Stereo Matching Networks》
位置:https://arxiv.org/abs/2201.02263
代码:https://anonymous.4open.science/r/ITSA-D281
要点

  • 介绍了一个发现:Avoiding Shortcut Learning 的特征,可以增强立体匹配网络跨越合成与现实的泛化能力与鲁棒性
  • 一种新的损失函数:基于IB理论,最小化 Fisher 信息,无需计算二阶导数
  • 用实验证明,该方法也可以用于 语义分割 等不基于几何的视觉任务
  • 背景: 端到端的立体匹配网络,缺乏数据。
    现行方案:在合成的数据上训练,然后在实际网络上微调。

  • 问题

  1. 左右图之间存在的连续局部统计信息,如 RGB 颜色特征等
  2. 对参考立体视点上局部色度特征的过度依赖,如 颜色、光照、纹理
  • 目标: 可以不经过微调,就能实现从合成数据(pretrain)到现实数据(test)之间的迁移。

  • 原理:

    • 基于 Information Bottleneck(IB),优化下面的目标。
      arg max ⁡ θ I ( Y , Z ; θ ) − β I ( X , Z ; θ ) \argmax_\theta I(Y,Z;\theta)-\beta I(X,Z;\theta) θargmaxI(Y,Z;θ)βI(X,Z;θ)

    Z 是输入 X 的 encoding ,Y 是目标,I 是互信息, β \beta β 是控制 IB 大小的超参数。

    • ITSA = 任务损失 + Fisher信息损失 + 扰动技术,其中抖动技术用于优化 Fisher 信息损失。
    • Avoiding Shortcut Learning 可以强化立体匹配网络的健壮性,增强跨领域能力的泛化性。

      实现 Avoiding Shortcut Learning 的相关技术:与 Shortcut 相关的先验知识、数据增强、白化、基于 Dropout 的 Regularization。

  • 方法
    立体匹配-ITSA-CVPR2022论文学习笔记_第1张图片

I B IB IB 常用于压缩特征,所以这里基于 I B IB IB 的理论来遏制与 Shortcut 相关的特征信息。
损失函数
L = L s m o o t h L 1 ( y ^ , y ) + λ 2 ( L F I ( z l , z l ∗ ) + L F I ( z r , z r ∗ ) ) \mathcal{L}=\mathcal{L}_{smooth_{L1}}(\hat{y},y)+\frac{\lambda}{2}(\mathcal{L}_{FI}(z_l,z_l^*)+\mathcal{L}_{FI}(z_r,z_r^*)) L=LsmoothL1(y^,y)+2λ(LFI(zl,zl)+LFI(zr,zr))
其中,
{ L F I = Σ i = 1 n ∣ ∣ z ( i ) − z ∗ ( i ) ∣ ∣ 2 z = f θ ( x ) z ∗ = f θ ( x ∗ ) x ∗ = x + ϵ u ϵ > 0 ∣ ∣ u ∣ ∣ = 1 \begin{cases} \mathcal{L}_{FI}=\Sigma_{i=1}^n ||z^{(i)}-z^{*(i)}||_2\\ z=f_\theta(x) \\ z^*=f_\theta(x^*) \\ x^*=x+\epsilon u \\ \epsilon>0 \\ ||u||=1 \end{cases} LFI=Σi=1n∣∣z(i)z(i)2z=fθ(x)z=fθ(x)x=x+ϵuϵ>0∣∣u∣∣=1

F I FI FI 中用到了 p = 1 p=1 p=1 的 Wasserstein 距离。
原文中有其逻辑推导。
参考:【数学】Wasserstein Distance

SCP(Shortcut Perturbation):
u = Δ x z ( i ) ∣ ∣ Δ x z ( i ) ∣ ∣ 2 u=\frac{\Delta_x z^{(i)}}{||\Delta_x z^{(i)}||_2} u=∣∣Δxz(i)2Δxz(i)

你可能感兴趣的:(CV,深度学习,Invalid,spec,SpecError)