Introspective Distillation for Robust Question Answering 论文笔记

  这是一篇关于VQA de-bias的文章,出自获得2021年的CCF优秀博士论文之一的牛玉磊大神。之前有一篇CF-VQA也是这位大佬的工作。本文看问题角度与其他方法不一样,结合了知识蒸馏的部分,不知道咋想出来的?

  • 论文地址:Introspective Distillation for Robust Question Answering
  • 代码地址:Github,开源了但没完全开~
  • 收录于:NeurIPS 2021




  • 如果ID-bias > OOD-bias, 那么 ID-teacher < OOD-teacher,即ID教师过拟合,所以学生需要从OOD教师中学到更多。
  • 如果ID-bias < OOD-bias, 那么 ID-teacher > OOD-teacher,即OOD教师过拟合,所以学生需要从ID教师中学到更多。
  • 如果ID-bias ≈ OOD-bias, 那么 ID-teacher ≈ OOD-teacher,即两个教师正常拟合,所以学生需要同等地学习两位教师。
    这种情况存在于ID教师的损失≈ OOD教师的损失时,即上图b所示。


  输入为视觉或者自然文本 C = c , Q = q C=c,Q=q C=c,Q=q,QA模型旨在产生答案 A = a A=a A=a,本质为多分类问题,即 a ∈ A a\in \mathbb{A} aA。作者提出的IntroD旨在平等地融合ID和OOD-bias,该方法由三个模块组成:

casual teacher:用于捕捉ID和OOD-bias
introspection:用于融合/混合这两种不同的bias
distillation:用于蒸馏出鲁棒性的学生模型

  • casual teacher:用于捕捉ID和OOD-bias
  • introspection:用于融合/混合这两种不同的bias
  • distillation:用于蒸馏出鲁棒性的学生模型

4.1 ID-Teacher and OOD-Teacher

  根据反事实推理,casual模型能够想象出OOD分布,因此使用相同的casual模型部署ID和OOD教师。通过事实推理,casual模型能够预测出答案 P I D P^{ID} PID,该答案包含了ID-bias;通过反事实推理,casual模型能够估计直接的影响来排除掉bias,并产生反事实的预测 P O O D P^{OOD} POOD,即,非直接的影响或者自然的非直接的影响反映着看不见的OOD分布。教师模型采用交叉熵损失在ID数据上训练,并未分别训练ID和OOD教师模型。

4.2 Introspection of Inductive Bias

   Introspection 模块首先测试是否模型过度利用了ID或者OOD的bias,如果ID-bias主导了学习,那么学生模型就应该倾向于OOD的教师模型。因此引出两个问题,如何定义“主导”和“更倾向”,换句话说,如何反省和权衡这两种bias。

4.2.1 Introspecting the bias

s I D = ∑ a ∈ A G T P I D ( a ) , s O O D = ∑ a ∈ A G T P O O D ( a ) , s^{\mathrm{ID}}=\sum_{a \in \mathcal{A}^{\mathrm{GT}}} P^{\mathrm{ID}}(a), \quad s^{\mathrm{OOD}}=\sum_{a \in \mathcal{A}^{\mathrm{GT}}} P^{\mathrm{OOD}}(a), sID=aAGTPID(a),sOOD=aAGTPOOD(a),
其中 A G T \mathcal{A}^{\mathrm{GT}} AGT为gt answer, S S S得分反映了训练样本与bias的契合程度。如果 s I D > s O O D s^{\mathrm{ID}}>s^{\mathrm{OOD}} sID>sOOD,那么样本的学习由ID-bias主导反之亦然。接下来就是 s I D , s O O D s^{\mathrm{ID}},s^{\mathrm{OOD}} sID,sOOD的确定了,表示如下:
s I D = 1 X E ( P G T , P I D ) = 1 ∑ a ∈ A − P G T ( a ) log ⁡ P I D ( a ) , s O O D = 1 X E ( P G T , P O O D ) = 1 ∑ a ∈ A − P G T ( a ) log ⁡ P O O D ( a ) , \begin{aligned} s^{\mathrm{ID}} &=\frac{1}{X E\left(P^{\mathrm{GT}}, P^{\mathrm{ID}}\right)}=\frac{1}{\sum_{a \in \mathcal{A}}-P^{\mathrm{GT}}(a) \log P^{\mathrm{ID}}(a)}, \\ s^{\mathrm{OOD}} &=\frac{1}{X E\left(P^{\mathrm{GT}}, P^{\mathrm{OOD}}\right)}=\frac{1}{\sum_{a \in \mathcal{A}}-P^{\mathrm{GT}}(a) \log P^{\mathrm{OOD}}(a)}, \end{aligned} sIDsOOD=XE(PGT,PID)1=aAPGT(a)logPID(a)1,=XE(PGT,POOD)1=aAPGT(a)logPOOD(a)1,其中 P G T P^{GT} PGT为真实标签,采用交叉熵来训练比之前的相加效果要好。

4.2.2 Weighting the bias

  利用知识的权重求和来融合/混合ID和OOD的知识,目的在于公平的混合ID或者OOD的bias。因此就有前面说的三种情况,如果 s I D > s O O D s^{\mathrm{ID}}>s^{\mathrm{OOD}} sID>sOOD,那么学生模型就应该从OOD教师模型中学习的更多,因此就要增加 w O O D w^{OOD} wOOD,使得 w O O D > w I D w^{OOD}>w^{ID} wOOD>wID。类似的,当 s I D < s O O D s^{\mathrm{ID}}sID<sOOD,则要令 w O O D < w I D w^{OOD}wOOD<wID,而相应的知识权重需要设置成与得分相反的比例,即 w ∝ s − 1 w\propto{s}^{-1} ws1,本文通过尺度将权重缩放至0,1:
w I D = ( s I D ) − 1 ( s I D ) − 1 + ( s O O D ) − 1 = s O O D s I D + s O O D , w O O D = 1 − w I D = s I D s I D + s O O D w^{\mathrm{ID}}=\frac{\left(s^{\mathrm{ID}}\right)^{-1}}{\left(s^{\mathrm{ID}}\right)^{-1}+\left(s^{\mathrm{OOD}}\right)^{-1}}=\frac{s^{\mathrm{OOD}}}{s^{\mathrm{ID}}+s^{\mathrm{OOD}}}, \quad w^{\mathrm{OOD}}=1-w^{\mathrm{ID}}=\frac{s^{\mathrm{ID}}}{s^{\mathrm{ID}}+s^{\mathrm{OOD}}} wID=(sID)1+(sOOD)1(sID)1=sID+sOODsOOD,wOOD=1wID=sID+sOODsID
  作者之后利用CF-VQA作为教师模型绘制出了VQA-CPv2及VQAv2训练数据集的 w I D w^{ID} wID分布情况:
对于上图来说, w I D w^{ID} wID越小则说明ID-bias越大,对上图的三种观察发现:
  对于上图来说, w I D w^{ID} wID越小则说明ID-bias越大,对上图的三种观察发现:

  • 所有数据集的 w I D w^{ID} wID在0.5左右,说明大多数样本仍然可以无bias的学习预测。
  • 所有的数据集bias分布都呈现一种左偏的趋势,随着 w I D w^{ID} wID在0.5范围内减小,两种数据集的差异越发明显。这表明了VQA模型倾向于利用VQA-CPv2中不平衡的bias,而不是平衡的样本部分。换句话说,VQA-CP数据集是在鼓励模型学习语言bias(这也是在佐证作者提出的观点)。在没有这些记忆先验的情况下,VQA模型无法正确回答极端情况下的问题。

作者也定义了一种stochastic hard variant(随机硬变体?)来加权bias:
w I D = { 1 ,  if  s I D ≤ s O O D 0 ,  otherwise  w^{\mathrm{ID}}=\left\{\begin{array}{ll} 1 & , \text { if } s^{\mathrm{ID}} \leq s^{\mathrm{OOD}} \\ 0 & , \text { otherwise } \end{array}\right. wID={ 10, if sIDsOOD, otherwise 
P T = w I D ⋅  ID-Knowledge  + w OOD  ⋅  OOD-Knowledge.  P^{\mathrm{T}}=w^{\mathrm{ID}} \cdot \text{ ID-Knowledge }+w^{\text {OOD }} \cdot \text { OOD-Knowledge. } PT=wID ID-Knowledge +wOOD  OOD-Knowledge. 其中  ID-Knowledge  \text { ID-Knowledge }  ID-Knowledge 为gt lables P G T P^{GT} PGT  ID-Knowledge  \text { ID-Knowledge }  ID-Knowledge 为OOD预测 P O O D P^{OOD} POOD的近似。

4.2.3 Distillation of Fair Knowledge

L = K L ( P T , P S ) = ∑ a ∈ A P T ( a ) log ⁡ P T ( a ) P S ( a ) \mathcal{L}=K L\left(P^{\mathrm{T}}, P^{\mathrm{S}}\right)=\sum_{a \in \mathcal{A}} P^{\mathrm{T}}(a) \log \frac{P^{\mathrm{T}}(a)}{P^{\mathrm{S}}(a)} L=KL(PT,PS)=aAPT(a)logPS(a)PT(a)其中 P S P^{S} PS为学生模型,例如UpDn,BERT等模型。与学生模型不同,教师模型还嵌入了一个单独的分支来构成捷径bias,所以相比于casual教师模型,学生模型能够更有效的利用参数和推理速度。在蒸馏时固定casual模型,仅更新学生模型。


5.1.4 Overall results

Overall results
Introspective Distillation for Robust Question Answering 论文笔记_第6张图片

Introspective Distillation for Robust Question Answering 论文笔记_第7张图片

Can the student learn more from the more accurate teacher, i.e. w ∝ s w\propto{s} ws?No.

Introspective Distillation for Robust Question Answering 论文笔记_第9张图片

Introspective Distillation for Robust Question Answering 论文笔记_第10张图片

Introspective Distillation for Robust Question Answering 论文笔记_第11张图片

Results


  本文提出了IntroD,在ID和OOD-bias分布上能够平衡bias,采用VQA和extract QA评估本文的方法。大致步骤为采用casual教师来评估ID和OOD的bias,然后内省是否这两种bias主导了学信息,之后公平的融合/混合这两种bias,并将其蒸馏到学生模型上。实验证明效果很高,IntroD的主要限制在于OOD的性能极度依赖于OOD教师模型。


