Meta-learning with latent embedding optimization【论文笔记】

论文作者的代码(基于tensorflow)

中文摘要

基于梯度的元学习技术既广泛适用,又能熟练地解决具有挑战性的少样本学习和快速适应问题。 然而,当在极低数据体系中的高维参数空间上操作时,它们具有实际困难。 我们表明,通过学习模型参数的数据依赖潜在生成表示,并在这个低维潜在空间中执行基于梯度的元学习,可以绕过这些限制。 由此产生的方法,潜在嵌入优化(LEO),将基于梯度的自适应过程与模型参数的基础高维空间分离。 我们的评估表明,LEO可以在竞争性的miniImageNet和tieredImageNet轻量级分类任务上实现最先进的性能。 进一步分析表明,LEO能够捕获数据中的不确定性,并且可以通过在潜在空间中进行优化来更有效地执行适应。

解决的问题

基于优化的元学习方法旨在找到一组模型参数,这些参数可以通过几个梯度下降步骤以适应各个任务。然而,仅使用少量样本(通常为1或5)来计算高维参数空间中的梯度可能使得泛化变得困难;尤其是任务无关(Task-invariant)的参数作为起点的情况下,使用少量样本计算梯度来调整参数以适应特定的任务(Task-specific)更为困难。

解决思想

网络框图:


Meta-learning with latent embedding optimization【论文笔记】_第1张图片

编码器和Relation Net将数据映射到latent Embedding space(表中的z),然后对z进行解码进行解码得到网络参数 θ \theta θ,与MAML不同的是,此论文的元学习操作仅应用与z.


Meta-learning with latent embedding optimization【论文笔记】_第2张图片


Meta-learning with latent embedding optimization【论文笔记】_第3张图片

网络工作过程

编码器和Relation Network将第n类的数据映射到均值为 μ n e \mu_{n}^{e} μne,方差为 σ n e \sigma_{n}^{e} σne的正态分布: μ n e , σ n e = 1 N K 2 ∑ K n = 1 K ∑ m = 1 N ∑ K m = 1 K g ϕ r ( g ϕ e ( X n k n ) , g ϕ r ( g ϕ e ( X m k m ) ) \mu^e_n,\sigma^e_n=\frac{1}{NK^2}\sum_{K_n=1}^K\sum_{m=1}^N\sum_{K_m=1}^K g_{\phi_{r}}( g_{\phi_{e}}(X_n^{k_n}), g_{\phi_{r}}( g_{\phi_{e}}(X_m^{k_m})) μne,σne=NK21Kn=1Km=1NKm=1Kgϕr(gϕe(Xnkn),gϕr(gϕe(Xmkm)) z n ∼ q ( z n ∣ D n t r ) = N ( μ n e , d i a g ( σ n e 2 ) )           ( 3 ) z_n\sim q(z_n|D_n^{tr}) = \mathcal{N}(\mu_n^{e}, diag({\sigma_n^{e}} ^2))\ \ \ \ \ \ \ \ \ (3) znq(znDntr)=N(μne,diag(σne2))         (3)解码器将z进行解码,得到类别相关的权重:
μ n d , σ n d = g ϕ d ( z n ) \mu_n^{d},\sigma_n^{d} = g_{\phi_d}(z_n) μnd,σnd=gϕd(zn) w n ∼ p ( w ∣ z n ) = N ( μ n d , d i a g ( σ n d 2 ) )           ( 4 ) w_n \sim p(w|z_n) = \mathcal{N}(\mu_n^{d}, diag({\sigma_n^{d}} ^2))\ \ \ \ \ \ \ \ \ (4) wnp(wzn)=N(μnd,diag(σnd2))         (4)得到网络的权重之后,即可计算出任务Ti的loss:
L T i t r ( f θ i ) = ∑ ( x , y ) ∈ D t r [ − w y ⋅ x + l o g ( ∑ j = 1 N e w j ⋅ x ) ]           ( 5 ) \mathcal{L}_{T_i}^{tr}(f_{\theta_i}) = \sum_{(x, y)\in D^{tr}} [-w_{y}\cdot x + log(\sum_{j=1}^{N}e^{w_j \cdot x})]\ \ \ \ \ \ \ \ \ (5) LTitr(fθi)=(x,y)Dtr[wyx+log(j=1Newjx)]         (5)至此,到达meta-training 阶段:
m i n ϕ e , ϕ r , ϕ d ∑ T i ∼ p ( T ) [ L T i v a l ( f θ i ′ ) + β D K L ( q ( z n ∣ D n t r ) ∣ ∣ p ( z n ) ) + γ ∣ ∣ s t o p g r a d ( z n ′ ) − z n ∣ ∣ 2 2 ] + R           ( 6 ) \mathop{min}\limits_{\phi_{e},\phi_{r},\phi_{d}} \sum_{T_i \sim p(T)}[ \mathcal{L}_{T_i}^{val}(f_{\theta_{i}^{'}})+\beta D_{KL}(q(z_n|D_n^{tr}) ||p(z_n))+\gamma||stopgrad(z_{n}^{'})-z_n||_2^{2}]+R\ \ \ \ \ \ \ \ \ (6) ϕe,ϕr,ϕdminTip(T)[LTival(fθi)+βDKL(q(znDntr)p(zn))+γstopgrad(zn)zn22]+R         (6) R = λ 1 ( ∣ ∣ ϕ e ∣ ∣ 2 2 + ∣ ∣ ϕ r ∣ ∣ 2 2 + ∣ ∣ ϕ d ∣ ∣ 2 2 ) + λ 2 ∣ ∣ C d − I ∣ ∣ 2 R=\lambda_{1}(||\phi_e||_2^{2}+||\phi_r||_2^{2}+||\phi_d||_2^{2})+\lambda_2||\mathcal{C_d}-\mathcal{I}||_2 R=λ1(ϕe22+ϕr22+ϕd22)+λ2CdI2 where p(z) ∼ N ( 0 , 1 ) \sim\mathcal{N}(0,1) N(0,1),公式(6)中第二项为带有权重的KL散度,其鼓励 q ( z n ∣ D n t r ) q(z_n|D_{n}^{tr}) q(znDntr)服从正太分布;(6)中的第三项鼓励编码器和关系网输出接近适配代码的参数初始化,从而尽可能减少自适应过程的负荷。

实验结果
Meta-learning with latent embedding optimization【论文笔记】_第4张图片


你可能感兴趣的:(论文阅读)