论文下载
我们介绍了插值一致性训练 (ICT)
,这是一种简单且计算效率高的算法,用于在半监督学习范式中训练深度神经网络。 ICT 鼓励在未标记点的插值上的预测与在这些点的预测的插值一致
。在分类问题中,ICT 将决策边界移动到数据分布的低密度区域。我们的实验表明,当应用于 CIFAR-10 和 SVHN 基准数据集上的标准神经网络架构时,ICT 实现了最佳性能。我们的理论分析表明,ICT 对应于某种类型的具有未标记点的数据自适应正则化,从而减少了在高置信度值下对标记点的过度拟合。
Notice:
在摘要中我们获取不到太多的关键信息,大佬的论文大多如此♂️。但是可以捕捉到一个关键词,插值
。
半监督学习的重点是利用无标记数据来提升算法的正确率。其中,一致性正则化是半监督学习中的一种利用无标记样本的方案。一致性表现在对于无标记样本 u u u, f ( u ) = f ( u + σ ) f(u) = f(u+ \sigma) f(u)=f(u+σ),其中 σ \sigma σ表示对于无标记样本 u u u的扰动。对于扰动的定义,有很多顶会文章【Ladder Network, Π \Pi Π model, Mean-Teacher】。一致性正则化强制模型执行低密度分离假设。当且仅当决策边界穿过低密度路径时,才能同时满足这种一致性和小的预测误差。
参考链接
L = L S + w ( t ) ⋅ L U S (1) L = L_S + w(t)\cdot L_{US} \tag{1} L=LS+w(t)⋅LUS(1),
其中 L S L_S LS表示有监督损失,在分类问题上一般采用交叉熵损失。 w ( t ) w(t) w(t)是一个随时间增加的参数,表示无监督样本逐步参与训练。 L U S L_{US} LUS表示无监督损失,也是这篇论文的贡献。
L U S = E u j , u k ∼ P X E λ ∼ Beta ( α , α ) ℓ ( f θ ( Mix λ ( u j , u k ) ) , Mix λ ( f θ ′ ( u j ) , f θ ′ ( u k ) ) ) (2) \mathcal{L}_{U S}=\underset{u_j, u_k \sim P_X}{\mathbb{E}} \underset{\lambda \sim \operatorname{Beta}(\alpha, \alpha)}{\mathbb{E}} \ell\left(f_\theta\left(\operatorname{Mix}_\lambda\left(u_j, u_k\right)\right), \operatorname{Mix}_\lambda\left(f_{\theta^{\prime}}\left(u_j\right), f_{\theta^{\prime}}\left(u_k\right)\right)\right)\tag{2} LUS=uj,uk∼PXEλ∼Beta(α,α)Eℓ(fθ(Mixλ(uj,uk)),Mixλ(fθ′(uj),fθ′(uk)))(2)
Mix λ ( u j , u k ) = λ u j + ( 1 − λ ) u k (3) \operatorname{Mix}_\lambda(u_j, u_k) = \lambda u_j + (1- \lambda)u_k \tag{3} Mixλ(uj,uk)=λuj+(1−λ)uk(3)
其中,注意 θ ′ \theta' θ′是 θ \theta θ的时间滑动平均,可以参考Mean-Teacher。
插值正则化,看起来像是纯粹的暴力美学,但是在原论文中给出了一系列的推导,我准备不求甚解一波儿。