Interventional Few-Shot Learning

Interventional Few-Shot Learning_第1张图片

1 Introduction

        作者提出在FSL中存在使用越强的预训练模型可以使得算法性能提高的悖论,其原因是预训练模型的旧知识会产生误导性从而看不见新知识,该悖论揭示了FSL中未知的系统性缺陷。在该文献中,作者首先指出了这一缺陷的原因:预训练可能会在FSL中产生不良影响,然后提出了一种新的FSL范式:介入性小样本学习(IFSL),以对抗这种不良影响,其理论基于预先训练的知识、小样本和类别标签之间的因果关系的假设。

2 Methodology

2.1 Few-Shot Learning

        在每个类的N个样本上(S)训练一个K路分类器,并在查询集Q上测试。一般采用以下两种范例训练分类器P(y\mid x;\theta )

        Fine-Tuning:将先验知识作为样本特征表示x,由在数据集D上预训练网络Ω编码,并引用了Ω以及其他可培训的子部分Ω(如有)可吸收到θ中,在支持集上训练分类器P(y|x;\theta ),然后以标准的监督方式在查询集上对其进行评估。

        Meta-Learning:如果数据集D可以重新组合成训练对\begin{Bmatrix} (S_{i},Q_{i}) \end{Bmatrix},则可以看作为N-shot-K-way的训练目标。可以从参数化为φ的数据中对“学习行为”建模,可以通过上述微调范式对每个(Si,Qi)进行学习。形式上,将P_{\varphi }(y\mid x;\theta )表示为具有学习行为的增强分类器。

2.2 Structural Causal Model

        元学习中的(φ,θ)和微调中的θ都依赖于预训练。这种“依赖性”可以用结构因果模型形式化,其中节点表示抽象数据变量,有向边表示(功能)因果关系。

Interventional Few-Shot Learning_第2张图片

         D\rightarrow X,D为预训练的知识,X为特征表示,即可以从预训练的知识中获取特征表示。

        D\rightarrow C\leftarrow X,C为低纬度的X表示。1)D\rightarrow C,一组数据点通常嵌入在低维流形中。这一发现可以追溯到降维的漫长历史,深层网络训练过程中出现了解纠缠语义流形。2)X\rightarrow C,特征可以使用(或投影到)流形基底线性或非线性表示。

        X\rightarrow Y\leftarrow C,Y可以表示分类结果。存在X\rightarrow YX\rightarrow C\rightarrow Y两条路径,因为X可以完全由C表示,所以有C的路径是不可避免的。

        一个理想的FSL模型应该捕捉到X和Y之间的真正因果关系,从而推广到看不见的样本。传统的相关性P(Y\mid X)无法做到,因为存在路径D\rightarrow XD\rightarrow C\rightarrow Y,需要使用因果干预P(Y\mid do(X))来实现FSL目标。

2.3 Causal Intervention via Backdoor Adjustment

        上图的因果图也可以用在多样本学习上,相比于少样本学习更加稳健,作者针对该问题做了解释,即为什么在MSL上P(Y\mid do(X))\approx P(Y\mid X)而在FSL上P(Y\mid do(X))\approx P(Y\mid X)?

Interventional Few-Shot Learning_第3张图片

         作者回答该问题引入了一个内生特征采样,即样本ID,图中为 I 表示。在MSL中,存在I\rightarrow X\leftarrow D路径,导致X不在被D所干预,即I和D相互独立。而在FSL中,存在I\leftarrow X路径,导致D无法被消除,这源于模型会猜测对应关系。

        本文采用后门调整来实现P(Y\mid do(X))

P(Y\mid do(X=x))=\sum_{d}^{}P(Y\mid X=x,D=d,C=g(x,d))P(D=d)

2.4 Interventional Few-Shot Learning

        功能方面的调整。假设F是X的特征维度的索引集,则按照F可以划分成N个大小相等的不相交子集,即F_{i}=\begin{Bmatrix} 64(i-1)+1,\cdots ,64i \end{Bmatrix}。预先训练知识的语义集可以定义为D:= \begin{Bmatrix} d_{1},\cdots ,d_{n} \end{Bmatrix},且d_i=F_i

        1)g(x,d_i):= \begin{Bmatrix} k\mid k\in F_i\cap I_t \end{Bmatrix},是一个索引集,其对应的绝对值(以X为单位)大于阈值t。

        2)P(Y\mid X,D,C)=P(Y\mid [x]_c),其中c=g(x,d_i)[x]_c为特征选择器。

        3)P(d_i)=1/n,假设调整后的特征具有统一的先验知识。

        整体功能调整为:

P(Y\mid do(X=x))=\frac{1}{n}\sum_{i=1}^{n}P(Y\mid [x]_c)

        类别方面的调整。假设有m个预训练类,标记为A=\begin{Bmatrix} a_1,\cdots ,a_m \end{Bmatrix}。预训练的每一层知识都可以被定义为预训练类,即D:= \begin{Bmatrix} d_1,\cdots d_m \end{Bmatrix}的每一个都可表示为d_i=a_i

        1)g(x,d_i):= P(a_i\mid x)\bar{x_i},其中P(a_i\mid x)是预训练的分类器,与使用索引集的特征调整不同,这里是实向量。

        2)P(Y\mid X,D,C)=P(Y\mid x\oplus g(x,d_i)),这里是向量串联。

        3)P(d_i)=1/m,假设每一类都有一个统一的先验。

        整体类别调整为:

Interventional Few-Shot Learning_第4张图片

        综合调整。可以结合特征调整和类别调整,使后门调整中的分层更加细粒度。我们的组合很简单:在类调整之后应用特征调整。因此:

P(Y\mid do(X=x))\approx \frac{1}{n}\sum_{i=1}^{n}p(Y\mid [x]_c\oplus \frac{1}{m}\sum_{j=1}^{m}[P(a_j\mid x)\hat{x_j}]_c)

3 Experimental Studies 

3.1 Datasets

        该实验采用FSL文献中的基准数据集:miniImageNet、tieredImageNet和Caltech-UCSD Birds-200-2011。

3.2  Performance evaluation

        实验的评估基于以下指标:1)常规精度(Acc)是FSL中常用的平均分类精度;2)硬化比定义一个硬度来度量其与支持集的语义差异,然后在不同的查询硬度级别上计算精度。3)特征定位精度(CAM-Acc)量化模型在进行预测时是否“注意”实际对象。

3.3 Experimental Results 

Interventional Few-Shot Learning_第5张图片

        从表1中,我们观察到IFSL在所有设置中都持续改进微调和元学习,这表明IFSL对方法、数据集和主干不可知。图5(a)显示了微调硬度特定Acc的曲线图。我们注意到,当查询变得更加困难时,ResNet-10(蓝色曲线)将优于WRN-28-10(红色曲线)。

Interventional Few-Shot Learning_第6张图片

        将+IFSL与左侧的基线线性分类器和右侧的基线MAML[20]进行比较,并在右上表中总结CAM Acc结果。从可视化的角度来看,使用IFSL可以让模型更加关注对象。但是,请注意,所有模型在颜色为红色的类别中均失败。失败背后的一个可能原因是对象模型的规模非常小,因此必须借助上下文进行预测。

4 Conclusion 

        作者提出了一个新的非正式框架:介入性少样本学习(IFSL),以解决最近FSL方法中被忽视的一个缺陷:预训练是影响性能的一个混杂因素。具体来说,作者提出了FSL过程中因果关系的结构因果模型,然后开发了三个基于后门调整的实际实现。为了更好地说明这一缺陷,作者对查询硬度的分类精度进行了全面的诊断,并表明IFSL改进了所有硬度的所有基线。值得强调的是,IFSL的贡献不仅在于提高FSL的性能,而且还提供了IFSL工作良好的因果解释:它是多镜头学习的因果近似。我们相信IFSL可以为探索FSL的新边界提供帮助,尽管众所周知FSL由于数据不足而不适定。为了升级IFSL,我们将寻求其他观测干预算法以获得更好的性能,并为更一般的少数镜头设置(如域转移)设计反事实推理。 

你可能感兴趣的:(学习总结,文献阅读,机器学习,文献阅读,因果关系,Re-ID,无监督学习,图像识别)