A Survey of Learning on Small Data(二)

本文是《A Survey of Learning on Small Data》的翻译,只针对文字部分,图表请查看原文。

小数据学习综述

  • 4. 几何角度
    • 4.1 Frechet均值
    • 4.2 欧几里得均值
    • 4.3 非欧均值
      • 4.3.1 Poincare质心
      • 4.3.2 Lorentzian质心
      • 4.3.3 Lorentzian焦点
    • 4.4 核均值
  • 5. 优化求解器
    • 5.1 欧式梯度
    • 5.2 非欧梯度
    • 5.3 Stein梯度
  • 6. 小数据表示的学习
    • 6.1 小数据的迁移学习
    • 6.2 小数据的元学习
    • 6.3 小数据的增强学习
    • 6.4 小数据的对比学习
    • 6.5 小数据的图表示学习
  • 7. 挑战性学习场景
    • 7.1 深度学习场景
    • 7.2 弱监督场景
    • 7.3 多标签场景
  • 8 挑战性应用
    • 8.1 计算机视觉
    • 8.2 自然语言处理
    • 8.3 推荐系统
    • 8.4 时序数据
    • 8.5 生物学
  • 9. 结论

4. 几何角度

从几何角度来看,可以在欧几里德空间和非欧几里得(双曲)空间中对小数据进行学习。为了学习有效的几何表示,我们研究了关于Frechet平均值统一表达式的欧氏平均值和双曲平均值的性质。

4.1 Frechet均值

为了理解从统计总体中抽样的观察值集合,将观察值的平均值作为一个强大的统计数据,以从基本分布中总结观察值。什么意思?根据不同的数据分布和统计目标,它可能会有所不同。为了描述真实世界数据的表示,平均值的典型候选值可能是算术平均值和中值,但在某些情况下,几何平均值或调和平均值可能更可取。当数据存在于没有向量结构的集合中时,例如流形或度量空间,需要不同的均值概念,即Frechet均值。
概率度量中的Frechet均值。我们探索了一个可以用较少的结构来定义的一般平均值,但包含了平均值的常见概念——Frechet平均值。Frechet均值是几何表示中的一个重要蕴涵(含义),它嵌入了一个“质心”,以指示度量空间上的局部特征(邻域)。对于一个距离空间 ( X , d X ) (\mathcal{X},d_\mathcal{X}) (X,dX),让 P \mathbb{P} P X \mathcal{X} X上的一个概率度量满足 ∫ d X 2 ( x , μ ) d P ( x ) < ∞ \int d^2_\mathcal{X}(x,\mu)d\mathbb{P}(x)<\infty dX2(x,μ)dP(x)<对于所有的 y ∈ X y\in\mathcal{X} yX,Frechet平均值是执行下式的argmin优化
μ X = arg min ⁡ μ ∈ X ∫ d X 2 ( x , μ ) d P ( x ) . (7) \mu\mathcal{X}=\argmin_{\mu\in\mathcal{X}}\int d^2_\mathcal{X}(x,\mu)d\mathbb{P}(x).\tag{7} μX=μXargmindX2(x,μ)dP(x).(7)
概率度量定义的Frechet均值更为广义,可用于更常见的对象。
Frechet均值的优势。Frechet均值关于公式(7)有两个显著优点。1) 它为机器学习中许多众所周知的平均值概念提供了一个通用的构造,因此暗示了数据的许多有趣的属性。2) 它在结构比欧氏空间(例如度量空间或黎曼流形)更少的空间中提供了均值的概念,从而扩大了在这些空间中采用机器学习方法的可能性。
黎曼流形的Frechet均值。我们接着观察了流形中Frechet均值。对于任意一个黎曼空间 M \mathcal{M} M有度量 g x ( ⋅ , ⋅ ) g_x(\cdot,\cdot) gx(,)投影切线空间 T x M × T x M → R n \mathcal{T}_x\mathcal{M}\times\mathcal{T}_x\mathcal{M}\rightarrow\mathbb{R}^n TxM×TxMRn,其中 ∣ ∣ v ∣ ∣ g = g x ( v , v ) , ||v||_g=\sqrt{g_x(v,v)}, ∣∣vg=gx(v,v) , γ ( t ) : [ a , b ] → M \gamma(t):[a,b]\rightarrow\mathcal{M} γ(t):[a,b]M是一个测地线,规定距离 d M ( ⋅ , ⋅ ) d_\mathcal{M}(\cdot,\cdot) dM(,)是测地线的一阶积分。对于所有的 x , y ∈ M x,y\in\mathcal{M} x,yM,距离 d M ( x , y ) : = inf ⁡ ∫ a b ∣ ∣ γ ′ ( t ) ∣ ∣ g d t d_\mathcal{M}(x,y):=\inf\int^b_a||\gamma'(t)||_gdt dM(x,y):=infab∣∣γ(t)gdt,其中 γ ( t ) \gamma(t) γ(t)表示任何一个测地线因此 γ ( a ) = x , γ ( b ) = y . \gamma(a)=x,\gamma(b)=y. γ(a)=x,γ(b)=y.给定一个点集 X = { x 1 , x 2 , ⋯   , x m } ⊆ M \mathcal{X}=\{x_1,x_2,\cdots,x_m\}\subseteq\mathcal{M} X={x1,x2,,xm}M,同时设定每一个点 x i ∈ X x_i\in\mathcal{X} xiX的概率密度是 1 m \frac{1}{m} m1,加权的Frechet均值是进行下式的argmin优化
μ M = arg min ⁡ μ ∈ M ∑ i = 1 m ω i d M 2 ( x i , μ ) , (8) \mu_\mathcal{M}=\argmin_{\mu\in\mathcal{M}}\sum^m_{i=1}\omega_id^2_\mathcal{M}(x_i,\mu),\tag{8} μM=μMargmini=1mωidM2(xi,μ),(8)
其中 ω i \omega_i ωi表示 x i x_i xi的权重,同时 μ ∈ M \mu\in\mathcal{M} μM的约束规定 μ \mu μ可以收敛于具有无限候选项的 M . \mathcal{M}. M.给定在欧式几何中定义的 d M ( a , b ) : = ∣ ∣ a − b ∣ ∣ 2 d_\mathcal{M}(a,b):=||a-b||_2 dM(a,b):=∣∣ab2,同时对于所有的 i , ω i = 1 / m i,\omega_i=1/m i,ωi=1/m,然后将加权Frechet平均值简化为欧氏平均值,从而缩短了计算时间。该特定设置在kmeans聚类、最大平均差异优化等方面取得了很好的结果。

4.2 欧几里得均值

欧氏平均数是机器学习中最广泛采用的平均数。同时,欧氏平均值对于执行聚合操作(如注意力、批量归一化)非常重要。设 R n \mathcal{R}^n Rn表示曲率为零的欧氏流形,其相应的欧式度量定义为 g E = d i a g ( [ 1 , 1 , ⋯   , 1 ] ) . g^E=diag([1,1,\cdots,1]). gE=diag([1,1,,1]).对于 x , y ∈ R n \mathbf{x},\mathbf{y}\in\mathcal{R}^n x,yRn,欧式距离如下所示:
d R ( x , y ) = ∣ ∣ x − y ∣ ∣ 2 . (9) d_\mathcal{R}(\mathbf{x},\mathbf{y})=||\mathbf{x}-\mathbf{y}||_2.\tag{9} dR(x,y)=∣∣xy2.(9)
然后 ( R n , d R ) (\mathcal{R}^n,d_\mathcal{R}) (Rn,dR)是一个完备的距离空间。接下来,我们基于加权Frechet均值关于方程(8)给出了欧氏平均值的形式化描述。
命题1。给定一个点集 X = { x 1 , x 2 , ⋯   , x m } ⊆ R n \mathcal{X}=\{x_1,x_2,\cdots,x_m\}\subseteq\mathcal{R}^n X={x1,x2,,xm}Rn,欧式均值 μ R \mu_\mathcal{R} μR最小化下述问题:
min ⁡ μ ∈ R n ∑ i = 1 m ω i d R 2 ( x i , μ ) , (10) \min_{\mu\in\mathcal{R}^n}\sum_{i=1}^m\omega_id^2_\mathcal{R}(x_i,\mu),\tag{10} μRnmini=1mωidR2(xi,μ),(10)
其中 ω i ≥ 0 \omega_i\geq0 ωi0表示 x i x_i xi的权重系数。
( R n , d R ) (\mathcal{R}^n,d_\mathcal{R}) (Rn,dR)的完备性保证了方程(10)具有闭合梯度,因此存在唯一解。有了命题1,欧式均值 μ R \mu_\mathcal{R} μR是下式唯一闭合解
μ R = 1 m ∑ i = 1 m x i . (11) \mu_\mathcal{R}=\frac{1}{m}\sum_{i=1}^m x_i.\tag{11} μR=m1i=1mxi.(11)

4.3 非欧均值

最近的研究表明,双曲线几何比欧几里德几何具有更强的表达能力来建模层次特征。同时,欧氏平均值自然延伸到双曲几何上的Frechet平均值。接下来,我们讨论关于黎曼流形的Poincare和Lorentzian模型上的Frechet均值。Poincare和Lorentz模型的插图如图1所示。

4.3.1 Poincare质心

Poincare球模型 P n \mathcal{P}^n Pn有常负曲率对应于黎曼流形 ( P n , g x P ) , (\mathcal{P}^n,g_x^\mathcal{P}), (Pn,gxP),其中 P n = { x ∈ R n : ∣ ∣ x ∣ ∣ < 1 } \mathcal{P}^n=\{x\in\mathbb{R}^n:||x||<1\} Pn={xRn:∣∣x∣∣<1}表示开放单位球,定义为欧氏范数小于1的n维向量集。Poincare度量定义为 g x P = λ x 2 g E g_x^\mathcal{P}=\lambda_x^2g^E gxP=λx2gE,其中 λ x = 2 1 − ∣ ∣ x ∣ ∣ 2 \lambda_x=\frac{2}{1-||x||^2} λx=1∣∣x22表示共形因子,同时 g E g^E gE表示欧式度量。对于任意 x , y ∈ P n \mathbf{x},\mathbf{y}\in\mathcal{P}^n x,yPn,Poincare距离定义如[59]所示:
d P ( x , y ) = cosh ⁡ − 1 ( 1 + 2 ∣ ∣ x − y ∣ ∣ 2 ( 1 − ∣ ∣ x ∣ ∣ 2 ) ( 1 − ∣ ∣ y ∣ ∣ 2 ) ) . (12) d_\mathcal{P}(\mathbf{x},\mathbf{y})=\cosh^{-1}\left(1+2\frac{||\mathbf{x}-\mathbf{y}||^2}{(1-||\mathbf{x}||^2)(1-||\mathbf{y}||^2)}\right).\tag{12} dP(x,y)=cosh1(1+2(1∣∣x2)(1∣∣y2)∣∣xy2).(12)
然后 ( P n , d P ) (\mathcal{P}^n,d_\mathcal{P}) (Pn,dP)是距离空间。因此,基于Poincare距离,我们对Poincare质心有以下命题。
命题2。给定一个点集 X = { x 1 , x 2 , ⋯   , x m } ⊆ P n \mathcal{X}=\{x_1,x_2,\cdots,x_m\}\subseteq\mathcal{P}^n X={x1,x2,,xm}Pn,Poincare质心 μ P \mu_\mathcal{P} μP最小化下述问题:
min ⁡ μ ∈ P n ∑ i = 1 m ω i d P 2 ( x i , μ ) , (13) \min_{\mu\in\mathcal{P}^n}\sum_{i=1}^m\omega_id^2_\mathcal{P}(x_i,\mu),\tag{13} μPnmini=1mωidP2(xi,μ),(13)
其中 ω i ≥ 0 \omega_i\geq0 ωi0表示 x i x_i xi的权重系数。
Poincare质心 μ P \mu_\mathcal{P} μP没有闭合解,因此Nickel通过梯度下降来计算它。

4.3.2 Lorentzian质心

Lorentz模型。Lorentz模型 L n \mathcal{L}^n Ln有常曲率 − 1 / K -1/K 1/K避免因Poincare度量中的分数引起数值不稳定性,对于 x , y ∈ R n + 1 \mathbf{x},\mathbf{y}\in\mathbb{R}^{n+1} x,yRn+1,Lorentz标量积形式化如[60]所示:
⟨ x , y ⟩ L = − x 0 y 0 + ∑ i = 1 n x i y i ≤ − K . (14) \langle\mathbf{x},\mathbf{y}\rangle_\mathcal{L}=-x_0y_0+\sum_{i=1}^nx_iy_i\leq-K.\tag{14} x,yL=x0y0+i=1nxiyiK.(14)
这个n维双曲空间模型对应于黎曼流形 ( L , g x L ) (\mathcal{L},g_\mathbf{x}^\mathcal{L}) (L,gxL),其中 L = { x ∈ R n + 1 : ⟨ x , y ⟩ L = − K , x 0 > 0 } \mathcal{L}=\{\mathbf{x}\in\mathbb{R}^{n+1}:\langle\mathbf{x},\mathbf{y}\rangle_\mathcal{L}=-K,x_0>0\} L={xRn+1:x,yL=K,x0>0}(即两片n维双曲面的上片)同时 g x L = d i a g ( [ − 1 , 1 , ⋯   , 1 ] ) g_\mathbf{x}^\mathcal{L}=diag([-1,1,\cdots,1]) gxL=diag([1,1,,1])表示Lorentz度量。满足除三角形不等式以外的所有距离公理的 x , y ∈ R n + 1 \mathbf{x},\mathbf{y}\in\mathbb{R}^{n+1} x,yRn+1的平方Lorentz距离定义为[60]:
d L 2 ( x , y ) = ∣ ∣ x − y ∣ ∣ L 2 = − 2 K − 2 ⟨ x , y ⟩ L . (15) d^2_\mathcal{L}(\mathbf{x},\mathbf{y})=||\mathbf{x}-\mathbf{y}||_\mathcal{L}^2=-2K-2\langle\mathbf{x},\mathbf{y}\rangle_\mathcal{L}.\tag{15} dL2(x,y)=∣∣xyL2=2K2x,yL.(15)
命题3给出了表示Lorentz模型下非球面分布的Lorentz质心。
命题3。给定一个点集 X = { x 1 , x 2 , ⋯   , x m } ⊆ L n \mathcal{X}=\{x_1,x_2,\cdots,x_m\}\subseteq\mathcal{L}^n X={x1,x2,,xm}Ln,Lorentzian质心 μ L \mu_\mathcal{L} μL最小化下述问题:
min ⁡ μ ∈ L n ∑ i = 1 m ω i d L 2 ( x i , μ ) , (16) \min_{\mu\in\mathcal{L}^n}\sum_{i=1}^m\omega_id^2_\mathcal{L}(x_i,\mu),\tag{16} μLnmini=1mωidL2(xi,μ),(16)
其中 ω i ≥ 0 \omega_i\geq0 ωi0表示 x i x_i xi的权重系数。
Lorentzian质心 μ L \mu_\mathcal{L} μL是下式的唯一闭合解
μ L = K ∑ i = 1 m ω i x i ∣ ∣ ∣ ∑ i = 1 m ω i x i ∣ ∣ L ∣ , (17) \mu_\mathcal{L}=\sqrt{K}\frac{\sum^m_{i=1}\omega_ix_i}{|||\sum^m_{i=1}\omega_ix_i||_\mathcal{L}|},\tag{17} μL=K ∣∣∣i=1mωixiLi=1mωixi,(17)
其中 ∣ ∣ ∣ a ∣ ∣ L ∣ = ∣ ∣ ∣ a ∣ ∣ L 2 ∣ |||\mathbf{a}||_\mathcal{L}|=\sqrt{|||\mathbf{a}||^2_\mathcal{L}|} ∣∣∣aL=∣∣∣aL2 表示正类时向量 a \mathbf{a} a的虚Lorentzian范数的模。

4.3.3 Lorentzian焦点

在[61]中,Lorentz质心 μ L \mu_\mathcal{L} μL的欧氏范数减小,从而产生了对焦点的有效近似,对于非球面分布,它比Lorentz质心更具代表性。然而,由于不确定的参数扰动,近似值不能仅依赖于K。我们还应该控制系数 ω i \omega_i ωi以近似Lorentzian焦点。这里 ω i \omega_i ωi关于公式(17)可以写成[61]:
ω i = d L 2 ( x i , μ ) ∑ i = 1 m d L 2 ( x i , μ ) , (18) \omega_i=\frac{d_\mathcal{L}^2(x_i,\mu)}{\sum^m_{i=1}d_\mathcal{L}^2(x_i,\mu)},\tag{18} ωi=i=1mdL2(xi,μ)dL2(xi,μ),(18)
然后,我们在命题4中给出Lorentzian焦点的近似值。
命题4。给定一个点集 X = { x 1 , x 2 , ⋯   , x m } ⊆ L n \mathcal{X}=\{x_1,x_2,\cdots,x_m\}\subseteq\mathcal{L}^n X={x1,x2,,xm}Ln,Lorentzian焦点 μ F \mu_\mathcal{F} μF最小化下述问题:
min ⁡ μ ∈ L n ∑ i = 1 m ω i ⟨ x i , μ ⟩ L . (19) \min_{\mu\in\mathcal{L}^n}\sum_{i=1}^m\omega_i\langle x_i,\mu\rangle_\mathcal{L}.\tag{19} μLnmini=1mωixi,μL.(19)
然后Lorentzian焦点 μ F \mu_\mathcal{F} μF能够被下式所近似:
μ F = k ∑ i = 1 m ω i x i ∣ ∣ ∣ ∑ i = 1 m ω i x i ∣ ∣ L ∣ , (20) \mu_\mathcal{F}=\sqrt k\frac{\sum^m_{i=1}\omega_ix_i}{|||\sum^m_{i=1}\omega_ix_i||_\mathcal{L}|},\tag{20} μF=k ∣∣∣i=1mωixiLi=1mωixi,(20)
其中 ω i ≥ 0 \omega_i\geq0 ωi0遵循公式(18)。

4.4 核均值

核平均值可以在欧几里德几何和双曲几何中推广,它给出了关于Frechet平均值概率度量的几何平均值的核表达式。
我们首先回顾了再生Hilbert空间(RKHS)的一些性质。设 H \mathcal{H} H表示 X \mathcal{X} X上的一个RKHS,那么每个有界线性泛函都是由 H \mathcal{H} H中一个唯一向量的内积给出的。对于任意 x ∈ X x\in\mathcal{X} xX,存在一个唯一向量 k x ∈ H k_x\in\mathcal{H} kxH因此对于每个 f ∈ H f\in\mathcal{H} fH存在 f ( x ) = ⟨ f , k x ⟩ f(x)=\langle f,k_x\rangle f(x)=f,kx。函数 k x = K ( x , ⋅ ) k_x=K(x,\cdot) kx=K(x,)被称为点 x x x的再生核,其中 K ( x 1 , x 2 ) : X × X → R K(x_1,x_2):\mathcal{X}\times\mathcal{X}\rightarrow\mathbb{R} K(x1,x2):X×XR是正定的。对于 H \mathcal{H} H中任意的 k x , k y k_x,k_y kx,ky,Hilbert距离如[53]所示:
d H ( k x , k y ) = ∣ ∣ k x − k y ∣ ∣ = ⟨ k x − k y , k x − k y ⟩ . (21) d_\mathcal{H}(k_x,k_y)=||k_x-k_y||=\sqrt{\langle k_x-k_y,k_x-k_y\rangle}.\tag{21} dH(kx,ky)=∣∣kxky∣∣=kxky,kxky .(21)
然后 ( H , d H ) (\mathcal{H},d_\mathcal{H}) (H,dH)是一个完备的距离空间。根据等式(7),命题5给出了核平均值的形式化描述。
命题5。给定一个具有可度量再生核 K ( x 1 , x 2 ) : X × X → R K(x_1,x_2):\mathcal{X}\times\mathcal{X}\rightarrow\mathbb{R} K(x1,x2):X×XR的可分离RKHS H \mathcal{H} H,因此对于所有的 y ∈ X , ∫ d H 2 ( k x , k y ) d P ( x ) < ∞ , y\in\mathcal{X},\int d^2_\mathcal{H}(k_x,k_y)d\mathbb{P}(x)<\infty, yX,dH2(kx,ky)dP(x)<,其中 P \mathbb{P} P表示 X \mathcal{X} X上的一个概率度量。然后核平均 μ H \mu_\mathcal{H} μH最小化下述问题:
min ⁡ μ ∈ H ∫ d H 2 ( k x , μ ) d P ( x ) . (22) \min_{\mu\in\mathcal{H}}\int d^2_\mathcal{H}(k_x,\mu)d\mathbb{P}(x).\tag{22} μHmindH2(kx,μ)dP(x).(22)
基于完备的距离空间 ( H , d H ) (\mathcal{H},d_\mathcal{H}) (H,dH),以下定理给出了核平均的解,这与文献[62]中定义的经典核平均一致。
定理3。核均值 μ H \mu_\mathcal{H} μH是唯一的闭合解:
μ H = ∫ K ( x , ⋅ ) d P ( x ) , (23) \mu_\mathcal{H}=\int K(x,\cdot)d\mathbb{P}(x),\tag{23} μH=K(x,)dP(x),(23)
其中 K ( x , ⋅ ) K(x,\cdot) K(x,)说明核有一个固定在 x x x的参数,另一个是任意的。
定理3首次在Frechet均值中包含了核均值,从而保持了与其他标准均值(例如欧氏均值)的形式一致性。更多细节和证明见附录B部分。

5. 优化求解器

为了探索上述欧氏和非欧氏范式几何表示的优化解算器,我们将这些解算器分为三种基于梯度的方法:用于优化欧氏几何范式的欧氏梯度、用于优化双曲几何范式的黎曼梯度和用于优化欧式几何范式和双曲几何范例的斯坦因梯度,其详细信息如下所示。

5.1 欧式梯度

随机梯度下降(SGD)。SGD是寻找代价函数局部极小值的有效方法,它可以用于优化欧氏空间中形式化argmin问题表示的欧氏质心。
随机梯度下降。给定欧式空间中的一个最小化问题 min ⁡ x ∈ R n J ( x ) \min\limits_{x\in\mathbb{R}^n}J(x) xRnminJ(x),在t时刻,参数 x t x_t xt被更新为:
x t + 1 = x t − η ⋅ ∇ x J ( x ) , (24) x_{t+1}=x_t-\eta\cdot\nabla_xJ(x),\tag{24} xt+1=xtηxJ(x),(24)
其中 J ( x ) J(x) J(x)表示有参数 x x x的代价函数,同时 η \eta η表示学习率。

5.2 非欧梯度

流形优化旨在通过将欧氏空间中的各种约束优化问题转化为黎曼流形上的无约束优化问题来寻求这些问题的解。相应地,引入黎曼梯度下降(RGD)来执行迭代优化。利用该方案,黎曼优化领域得到了迅速发展。不足为奇的是,双曲线几何也采用RGD来优化Poincare球 P n \mathcal{P}^n Pn和Lorentz模型 L n \mathcal{L}^n Ln上不同的范式。
黎曼梯度下降。给定一个黎曼流形 M \mathcal{M} M上的最小化问题 min ⁡ x ∈ M J ( x ) \min\limits_{x\in\mathcal{M}}J(x) xMminJ(x),在t时刻 x t x_t xt通过指数映射 exp ⁡ x \exp_x expx来更新:
x t + 1 = exp ⁡ x t ( − η J ′ ( x t ) ) , (25) x_{t+1}=\exp_{x_t}(-\eta J'(x_t)),\tag{25} xt+1=expxt(ηJ(xt)),(25)
其中 J ′ ( x t ) J'(x_t) J(xt)表示正切空间 T x M \mathcal{T}_x\mathcal{M} TxM上的黎曼梯度同时 η \eta η表示学习率。
Poincare模型的指数映射。给定一个黎曼度量 g x ( ⋅ , ⋅ ) g_x(\cdot,\cdot) gx(,)能够在正切空间 T x M \mathcal{T}_x\mathcal{M} TxM上推导一个内积 ⟨ u , v ⟩ : = g x ( u , v ) \langle u,v\rangle:=g_x(u,v) u,v:=gx(u,v)。对于每一个点 x ∈ M x\in\mathcal{M} xM和向量 u ∈ T x M u\in\mathcal{T}_x\mathcal{M} uTxM,存在唯一的测地线 γ : [ 0 , 1 ] → M \gamma:[0,1]\rightarrow\mathcal{M} γ:[0,1]M其中 γ ( 0 ) = x , γ ′ = u \gamma(0)=x,\gamma'=u γ(0)=x,γ=u。指数映射 exp ⁡ x : T x M → M \exp_x:\mathcal{T}_x\mathcal{M}\rightarrow\mathcal{M} expx:TxMM被定义为 exp ⁡ x ( u ) = γ ( 1 ) \exp_x(u)=\gamma(1) expx(u)=γ(1),其中 d P ( x , exp ⁡ x ( u ) ) = g M ( u , u ) d_\mathcal{P}(x,\exp_x(u))=\sqrt{g_\mathcal{M}(u,u)} dP(x,expx(u))=gM(u,u) 。根据[51],
exp ⁡ x ( u ) = ( 1 − 2 ⟨ x , z ⟩ 2 − ∣ ∣ z ∣ ∣ 2 ) x + ( 1 + ∣ ∣ x ∣ ∣ 2 ) z 1 − 2 ⟨ x , z ⟩ 2 + ∣ ∣ x ∣ ∣ 2 ∣ ∣ z ∣ ∣ 2 , (26) \exp_x(u)=\frac{(1-2\langle x,z\rangle_2-||z||^2)x+(1+||x||^2)z}{1-2\langle x,z\rangle_2+||x||^2||z||^2},\tag{26} expx(u)=12x,z2+∣∣x2∣∣z2(12x,z2∣∣z2)x+(1+∣∣x2)z,(26)
其中 z = tanh ⁡ ( ∣ ∣ u ∣ ∣ 2 1 + ∣ ∣ x ∣ ∣ 2 ) u ∣ ∣ u ∣ ∣ z=\tanh(\frac{||u||^2}{1+||x||^2})_\frac{u}{||u||} z=tanh(1+∣∣x2∣∣u2)∣∣u∣∣u
Lorentz模型的指数映射。根据[57]中的命题3.2, exp ⁡ x ( u ) = γ ( 1 ) \exp_x(u)=\gamma(1) expx(u)=γ(1)在Lorentz模型 L n \mathcal{L}^n Ln上可以被表示为
exp ⁡ x ( u ) = cosh ⁡ ( ∣ ∣ u ∣ ∣ L ) x + u sinh ⁡ ( ∣ ∣ u ∣ ∣ L ) ∣ ∣ u ∣ ∣ L . (27) \exp_x(u)=\cosh(||u||_\mathcal{L})x+u\frac{\sinh(||u||_\mathcal{L})}{||u||_\mathcal{L}}.\tag{27} expx(u)=cosh(∣∣uL)x+u∣∣uLsinh(∣∣uL).(27)

5.3 Stein梯度

贝叶斯推断是一种统计推断,它调用贝叶斯定理来近似概率分布。变分推理通过概率优化逼近参数化分布,该概率优化涉及可处理变量的采样,如马尔可夫链蒙特卡罗(MCMC)。然而,贝叶斯近似误差和概率或后验参数分布估计的变分推断不易控制,导致校准结果不具有统计显著性。为了加强近似,Liu等人采用了Stein运算,该运算控制给定概率度量中两个概率分布之间距离的界限。根据这一建议,Liu等人提出了Stein变分梯度下降(SVGD)算法,该算法利用核化Stein差异(KSD)和平滑变换最小化两个概率分布 p p p q q q的KL散度,从而进行迭代概率分布逼近。
具体而言,MCMC通过采样估计后验分布的分母积分,从而带来计算效率低下的问题。设 p 0 ( x ) p_0(x) p0(x)表示先验, { D k } \{D_k\} {Dk}是独立同分布观察集合, Ω = { q ( x ) } \Omega=\{q(x)\} Ω={q(x)}是分布集,变分推理采用了一种新的思路,通过最小化目标后验分布 p ( x ) p(x) p(x)和另一个分布 q ∗ ( x ) q^*(x) q(x)之间的KL散度来缓解这一问题,从而近似于 p ( x ) p(x) p(x)
q ∗ ( x ) = arg min ⁡ q ( x ) ∈ Ω { K L ( q ( x ) ∣ ∣ p ( x ) ) ≡ W } , (28) q^*(x)=\argmin_{q(x)\in\Omega}\{KL(q(x)||p(x))\equiv\mathcal{W}\},\tag{28} q(x)=q(x)Ωargmin{KL(q(x)∣∣p(x))W},(28)
其中, p ˉ ( x ) : = p 0 ( x ) ∏ i = 1 N p ( D i ∣ x ) , Z = ∫ p ˉ ( x ) d x \bar p(x):=p_0(x)\prod\limits^N_{i=1}p(D_i|x),Z=\int\bar p(x)dx pˉ(x):=p0(x)i=1Np(Dix),Z=pˉ(x)dx表示需要复杂计算的归一化常量, W = E q [ log ⁡ q ( x ) ] − E q [ log ⁡ p ˉ ( x ) ] + log ⁡ Z \mathcal{W}=\mathbb{E}_q[\log q(x)]-\mathbb{E}_q[\log\bar p(x)]+\log Z W=Eq[logq(x)]Eq[logpˉ(x)]+logZ。因此,为了避免计算麻烦的归一化常数 Z Z Z并寻求通用的贝叶斯推理算法,Liu等人采用了Stein方法并提出了SVGD算法。更多详情见附录C部分。
考虑到Stein方法的Stein恒等式(方程(69))、Stein差异(方程(71))和核化Stein差异的概念,Liu等人重新思考了方程(28)中定义的变分推理的目标,他们认为分布集 Ω \Omega Ω可以通过对可处理的参考分布 q 0 ( x ) q_0(x) q0(x)进行平滑变换得到,其中 Ω \Omega Ω表示随机变量的分布集,其形式为 r = T ( x ) r=T(x) r=T(x),密度为:
q [ T ] ( r ) = q ( R ) ⋅ ∣ det ⁡ ( ∇ r R ) ∣ , (29) q_{[T]}(r)=q(\mathcal{R})\cdot|\det(\nabla_r\mathcal{R})|,\tag{29} q[T](r)=q(R)det(rR),(29)
其中 T : X → X T:\mathcal{X}\rightarrow\mathcal{X} T:XX表示一个平滑变换, R = T − 1 ( r ) \mathcal{R}=T^{-1}(r) R=T1(r)表示 T ( r ) T(r) T(r)的逆映射同时 ∇ r R \nabla_r\mathcal{R} rR表示 R \mathcal{R} R的Jacobian矩阵。对于密度, T T T应该存在一些限制,以确保方程(28)中的变分优化可行。例如, T T T必须是一个一对一变换,其对应的Jacobian矩阵不应在计算上难以处理。此外,使用[72],很难筛选出 T T T的最佳参数。
因此,为了绕过上述限制并最小化公式(28)中的KL散度,提出了一个增量变换 T ( x ) = x + ε φ ( x ) T(x)=x+\varepsilon\varphi(x) T(x)=x+εφ(x),其中 φ ( x ) \varphi(x) φ(x)表示控制扰动方向的平滑函数, ε \varepsilon ε表示扰动大小。利用定理5和引理2中,在 T ( x ) T(x) T(x)的有限变换中,如何从初始参考分布 q 0 q_0 q0近似目标分布 p p p?设 s s s表示总分布的数量,通过公式(30)获取分布 { q t } t = 1 s \{q_t\}^s_{t=1} {qt}t=1s路径的一个迭代过程被采用去回答这个问题:
q t + 1 = q t [ T t ∗ ] , T t ∗ ( x ) = x + ε t φ q t , p ∗ ( x ) , (30) q_{t+1}=q_t[T^*_t],\\ T^*_t(x)=x+\varepsilon_t\varphi^*_{q_t,p}(x),\tag{30} qt+1=qt[Tt],Tt(x)=x+εtφqt,p(x),(30)
其中 T t ∗ T_t^* Tt表示在第 t t t次迭代时的转换方向,然后在迭代 t t t时利用 ε t K S D ( q t , p ) \varepsilon_tKSD(q_t,p) εtKSD(qt,p)降低KL散度。然后,分布 q t q_t qt最终收敛到目标分布 p p p。为了执行上述迭代过程,Stein变分梯度下降(SVGD)采用定理4中提出的粒子迭代更新过程来近似公式(79)中的 φ q , p ∗ \varphi^*_{q,p} φq,p
定理4。设 p ( x ) p(x) p(x)表示目标分布, { x i 0 } i = 1 m \{x^0_i\}^m_{i=1} {xi0}i=1m表示初始粒子。而且,在迭代 t t t,设 ϑ = ∇ x j t log ⁡ p ( x j t ) , μ ( x j t , x ) = ∇ x j t k ( x j t , x ) \vartheta=\nabla_{x^t_j}\log p(x^t_j),\mu(x^t_j,x)=\nabla_{x^t_j}k(x^t_j,x) ϑ=xjtlogp(xjt),μ(xjt,x)=xjtk(xjt,x)表示一个常规项, Φ \Phi Φ表示 ε t φ ^ ∗ ( x ) \varepsilon_t\hat\varphi^*(x) εtφ^(x),粒子集利用公式(30)中定义的 T t ∗ T^*_t Tt来迭代更新, φ q t , p ∗ \varphi^*_{q_t,p} φqt,p q t q_t qt下的期望通过 { x i t } i = 1 m \{x^t_i\}^m_{i=1} {xit}i=1m的经验均值来近似:
x i t + Φ → x i t + 1 , (31) x^t_i+\Phi\rightarrow x^{t+1}_i,\tag{31} xit+Φxit+1,(31)
其中,
φ ^ ∗ ( x ) = 1 m ∑ j = 1 m [ k ( x j t , x ) ϑ + μ ( x j t , x ) ] . (32) \hat\varphi^*(x)=\frac{1}{m}\sum^m_{j=1}[k(x_j^t,x)\vartheta+\mu(x^t_j,x)].\tag{32} φ^(x)=m1j=1m[k(xjt,x)ϑ+μ(xjt,x)].(32)
对于 φ ^ ∗ ( x ) \hat\varphi^*(x) φ^(x),第一项 k ( x j t , x ) ϑ k(x_j^t,x)\vartheta k(xjt,x)ϑ表示核函数加权的所有点的梯度的加权和,核函数遵循平滑梯度方向,将粒子推向 p ( x ) p(x) p(x)的概率区域;第二项 μ ( x j t , x ) \mu(x^t_j,x) μ(xjt,x)表示防止点塌陷为 p ( x ) p(x) p(x)局部模式的正则项,比如让 x x x远离 x j t x^t_j xjt

6. 小数据表示的学习

随着对小数据学习需求的不断增长,我们探索在不同的未来方向下促进小数据表示的模型学习,包括迁移学习、元学习、强化学习、对比学习和图表示学习等,我们介绍这些学习主题,并解释小数据学习的潜力。

6.1 小数据的迁移学习

大多数机器学习理论都基于一个共同的假设:训练和测试数据遵循相同的分布。然而,这种假设过于严格,无法满足或在许多实际场景中可能不成立。迁移学习放松了这个假设的约束(即训练和测试数据可以从不同的分布或领域中提取),它旨在挖掘不同领域之间的领域不变特征和结构,以便进行有效的数据和知识迁移。具体来说,迁移学习试图通过利用从源域学习的知识来提高目标域中模型的能力,例如,将骑自行车的知识迁移到驾驶汽车。
根据[116],迁移学习的核心问题之一是:可以迁移哪些跨领域知识来提高目标领域模型的性能?虽然现有的解决方案可以在某些特定场景中有效地回答这个问题,但很少有通用的数据驱动解决方案。然而,从数据表示的角度来看,小数据学习为迁移学习中的跨领域知识开发提供了一个值得注意的范例。此外,大数据场景下的迁移学习效率低且计算成本高,而对小数据的学习可能会缓解此问题,并有助于获取更高效、更健壮的模型,以实现其强大的表示能力。此外,可能存在从源域传输的噪声或扰动数据,这可能会降低目标域模型的性能,对小数据的学习有助于在传输学习中消除这些不可信的数据,从而提高目标模型的性能。具体来说,我们从迁移学习的正式定义开始:
定义7。迁移学习。设 D s D_s Ds表示源域且学习任务 T s T_s Ts D t D_t Dt表示目标域并且它对应的学习任务是 T t T_t Tt。迁移学习旨在利用从 D s D_s Ds T s T_s Ts学到的知识,提高 D t D_t Dt中目标预测函数 f t f_t ft的学习性能,其中 D s ≠ D t D_s\neq D_t Ds=Dt,或者 T s ≠ T t . T_s\neq T_t. Ts=Tt.
根据源域和目标域及任务之间的不同情况,现有的迁移学习方法大致可分为三种情况:归纳迁移学习、转化迁移学习和无监督迁移学习。

  • 在归纳迁移学习中,1)某些标记数据在目标域中可用,目的是诱导预测模型,而不管标记数据在源域中是否可用;2) 源任务和目标任务是不同的,但源域和目标域之间没有这种约束。
  • 在转化迁移学习中,1)源域中存在大量标记数据,而目标域中缺少任何标记数据;2) 源任务和目标任务相同,但源域和目标域不同。
  • 在无监督迁移学习中,1)除了目标域的无监督任务外,源域和目标域都没有可用的标记数据;2) 目标和源任务是不同但相关的,而源域和目标域没有这样的约束。

在上述三种情况下,表1总结了基于待迁移数据类型的流行迁移学习策略。此外,深度学习在迁移学习中得到了广泛的探索,以利用从源域获得的知识构建深度神经网络。从形式上讲,深度迁移学习的定义如下。
定义8。深度迁移学习。设 D s D_s Ds表示源域且深度学习任务表示为 T s T_s Ts D t D_t Dt表示目标域并且深度学习任务是 T t T_t Tt,深度迁移学习旨在利用从 D s D_s Ds T s T_s Ts学到的知识,提高 D t D_t Dt中具有非线性目标预测函数 f t f_t ft的深度神经网络的性能,其中 D s ≠ D t D_s\neq D_t Ds=Dt,或者 T s ≠ T t . T_s\neq T_t. Ts=Tt.
与非深度迁移学习策略类似,深度迁移学习策略也可分为四类,如表2所示。将小数据学习引入到迁移学习中是很有潜力的。例如,在非深度迁移学习中,可以通过重新加权,利用从源域获得的重要且信息丰富的小数据来执行实例迁移;类推,在深度迁移学习中,我们也可以通过深度神经网络对小数据进行实例迁移。此外,在特征表示迁移学习的不同场景中,也可以使用小数据学习方法有效地提取领域不变特征。同样,在深度迁移学习的背景下,在基于实例的深度迁移学习源域中提取部分实例,重用在基于网络的深度迁移学习的源域中预先训练好的部分网络,并在深度迁移学习中提取适用于源域和目标域的可迁移表示,可以利用对小数据的学习能力获得更好的性能。总之,小数据学习可以用于各种迁移学习场景,仍有待深入研究。

6.2 小数据的元学习

传统的机器学习模型通常在给定任务专用的数据集上进行训练,从而导致泛化能力差的问题,即学习模型很难适应以前看不到的任务。为了克服这一困难,元学习利用广泛的元知识,例如,在各种学习任务中调整学习参数,来教学习模型学习看不见的任务。
因此,如何提取泛化良好的元知识已成为元学习中的一个关键问题。此外,在许多元学习场景中可能存在很少的有效数据和标签,因此探索如何提取有效数据或提高小数据模型的性能非常重要。小数据学习一直在尝试这一点,它可以为获取元知识提供新的思路,从而有助于缓解过拟合,提高模型的泛化能力。此外,在元训练阶段,对小数据的学习可能有助于选择具有代表性和影响力的元任务,从而获得稳健的元学习模型。具体来说,我们从三个不同的角度对元学习进行了全面概述。
任务分配视角。从任务分配的角度来看,元学习将任务视为模型的样本。此外,这种学习范式旨在学习一种通用的学习算法,该算法可以跨任务进行推广。具体来说,元学习的目标是学习一个通用的元知识 ϕ \phi ϕ,它可以最小化元任务的预期损失。让 q ( T ) q(\mathcal{T}) q(T)表示任务的分布, D D D表示元任务的数据集,元学习可以形式化为:
min ⁡ ϕ E T ∼ q ( T ) L ( D ; ϕ ) , (33) \min_\phi\mathop{\mathbb{E}}\limits_{\mathcal{T}\sim q(\mathcal{T})}\mathcal{L}(D;\phi),\tag{33} ϕminTq(T)EL(D;ϕ),(33)
其中 L ( D ; ϕ ) \mathcal{L}(D;\phi) L(D;ϕ)表示评价元学习模型性能的损失函数。为了解决优化问题,假设我们可以从 q ( T ) q(\mathcal{T}) q(T)采样获得一组源任务。在[121]中,元学习包括两个阶段:元训练阶段和元测试阶段。设 D s o u r c e = { ( D s o u r c e t r a i n , D s o u r c e v a l ) ( i ) } i = 1 M \mathcal{D}_{source}=\{(D_{source}^{train},D_{source}^{val})^{(i)}\}_{i=1}^M Dsource={(Dsourcetrain,Dsourceval)(i)}i=1M表示元训练阶段的 M M M源任务集合,其中 D s o u r c e t r a i n D_{source}^{train} Dsourcetrain D s o u r c e v a l D_{source}^{val} Dsourceval分别表示源任务的训练和测试数据,序号 i i i代表每一个任务; D t a r g e t = { ( D t a r g e t t r a i n , D t a r g e t t e s t ) ( i ) } i = 1 N \mathcal{D}_{target}=\{(D_{target}^{train},D_{target}^{test})^{(i)}\}_{i=1}^N Dtarget={(Dtargettrain,Dtargettest)(i)}i=1N表示在元测试阶段 N N N目标任务集合,其中 D t a r g e t t r a i n D_{target}^{train} Dtargettrain D t a r g e t t e s t D_{target}^{test} Dtargettest分别表示目标任务中的训练和测试数据。在这种情况下,元训练阶段是通过从 D s o u r c e \mathcal{D}_{source} Dsource中抽取不同源任务来学习最佳元知识 ϕ ∗ \phi^* ϕ并最大化对数可能性,因此它被形式化为:
max ⁡ ϕ log ⁡ p ( ϕ ∣ D s o u r c e ) . (34) \max_\phi\log p(\phi|\mathcal{D}_{source}).\tag{34} ϕmaxlogp(ϕDsource).(34)
通过求解这样一个极大值问题,我们获得了一个很好的泛化元知识 ϕ ∗ \phi^* ϕ,它用于促进对未知目标任务的模型学习。元测试阶段旨在借助 ϕ ∗ \phi^* ϕ D t a r g e t \mathcal{D}_{target} Dtarget中抽取的每个未知目标任务的训练数据,获得一个稳健的模型,该模型可以形式化为:
max ⁡ θ log ⁡ p ( θ ∣ ϕ ∗ , D t a r g e t t r a i n ) . (35) \max_\theta\log p(\theta|\phi^*,D_{target}^{train}).\tag{35} θmaxlogp(θϕ,Dtargettrain).(35)
因此,我们可以通过求解上述最大值问题得到一个参数为 θ ∗ \theta^* θ的模型,并通过执行从 D t a r g e t t e s t D_{target}^{test} Dtargettest中抽样的目标任务来评估其性能。
双层优化视角。双层优化是一个层次优化问题,即一个优化目标包含另一个内部优化目标作为约束。因此,从双层优化的角度来看,元训练阶段形式化为:
ϕ ∗ = arg min ⁡ ϕ ∑ i = 1 M L m e t a ( θ ∗ ( i ) ( ϕ ) , ϕ , D s o u r c e v a l ( i ) ) s . t . θ ∗ ( i ) ( ϕ ) = arg min ⁡ ϕ L t a s k ( θ , ϕ , D s o u r c e t r a i n ( i ) ) , (36) \phi^*=\argmin_\phi\sum_{i=1}^M\mathcal{L}^{meta}(\theta^{*(i)}(\phi),\phi,{D_{source}^{val}}^{(i)})\\ \mathrm{s.t.} \theta^{*(i)}(\phi)=\argmin_\phi\mathcal{L}^{task}(\theta,\phi,{D_{source}^{train}}^{(i)}),\tag{36} ϕ=ϕargmini=1MLmeta(θ(i)(ϕ),ϕ,Dsourceval(i))s.t.θ(i)(ϕ)=ϕargminLtask(θ,ϕ,Dsourcetrain(i)),(36)
其中 L m e t a \mathcal{L}^{meta} Lmeta L t a s k \mathcal{L}^{task} Ltask分别表示外部和内部损失目标。内部优化以外部优化中定义的 ϕ \phi ϕ为条件,但 ϕ \phi ϕ在内部优化阶段不能改变;外层优化利用从内层优化中获得的 θ ∗ ( i ) ( ϕ ) \theta^{*(i)}(\phi) θ(i)(ϕ)来优化元知识 ϕ \phi ϕ。元学习的双层优化方案如图2所示。
前馈视角。在[121]中,存在不同的元学习方法,它们以前馈方式合成模型。设 γ = x T e ϕ ( D t r a i n ) \gamma=\mathbf{x}^T\mathbf{e}_\phi(\mathcal{D}^{train}) γ=xTeϕ(Dtrain)元训练线性回归目标的一个简单示例,从前馈角度优化元训练任务的分布,定义为:
min ⁡ ϕ E T ∼ q ( T ) ∑ ( x , y ) ∈ D v a l [ ( γ − y ) 2 ] , (37) \min_\phi\mathop{\mathbb{E}}\limits_{\mathcal{T}\sim q(\mathcal{T})}\sum_{(x,y)\in\mathcal{D}^{val}}[(\gamma-y)^2],\tag{37} ϕminTq(T)E(x,y)Dval[(γy)2],(37)
其中训练集 D t r a i n \mathcal{D}^{train} Dtrain被嵌入到定义了线性回归权重的向量 e ϕ \mathbf{e}_\phi eϕ中,因此根据验证集 D v a l \mathcal{D}^{val} Dval预测样本 x x x
通过以上三个角度,我们还可以将小数据学习引入不同的元学习场景,因为元学习可以利用小数据学习方法获得的知识来完成看不见的任务。例如,元学习关注元知识 ϕ \phi ϕ的选择,对小数据的学习可能有助于选择 ϕ \phi ϕ,例如为内部级任务分配不同的影响因素,从而影响内部级优化过程中的最终梯度方向。此外,任务采样对元学习模型起着不可或缺的作用,小数据学习可以帮助在元训练阶段对重要的元任务进行采样:从双层优化的角度来看,可以采用小数据学习方法来指导内部优化的任务采样,以获得更好的 θ ∗ \theta^* θ,最终可以提高元学习模型的性能。此外,通过[121],可以将小数据学习引入元学习的不同应用,如参数初始化、嵌入函数、模块化元学习。因此,将小数据学习引入元学习是有希望的。

6.3 小数据的增强学习

强化学习是一种人工智能范式,它强调通过奖励预期行为和/或惩罚意外行为来最大化预期收益。在强化学习中,有两个交互对象:代理和环境。代理可以感知环境的状态并奖励环境的反馈,从而做出合理的决策。也就是说,代理的决策功能根据环境的状态采取不同的行动,而学习功能则根据环境的奖励来调整政策,环境可以在代理的行动影响下调整其状态,并将相应的奖励反馈给代理。
然而,使用[136],强化学习仍然面临许多挑战,其中之一是:从有限的样本中学习真实的系统。此外,深度强化学习策略需要主动的在线数据收集,这意味着在这一过程中收集大规模数据可能成本高昂。在小数据上学习可能有助于从以前收集的交互数据中提取有价值的先验知识,它使我们能够预先训练和部署能够有效学习的代理。此外,通过对小数据的学习提取有效的数据有助于模型获得更好的泛化性能。因此,小数据学习可以被视为强化学习的一种新的数据驱动范式。
具体而言,强化学习策略可分为基于价值的策略、基于策略的策略和行为批评策略。
基于价值的策略。基于价值的策略被引入,用于估算特定状态下的预期值。状态值函数 V π ( s ) V_\pi(\mathbf{s}) Vπ(s)表示给定状态 s \mathbf{s} s和策略 π \pi π的预期回报,形式化为:
V π ( s ) = E [ R ∣ s , π ] . (38) V_\pi(\mathbf{s})=\mathbb{E}[\mathcal{R}|\mathbf{s},\pi].\tag{38} Vπ(s)=E[Rs,π].(38)
由于 V π ( s ) V_\pi(\mathbf{s}) Vπ(s)被设计用来评估策略 π \pi π,所以的策略都能被评估去获得最优策略 π ∗ \pi^* π并且相应的状态-价值函数 V π ∗ ( s ) V_{\pi^*}(\mathbf{s}) Vπ(s)被定义为:
V π ∗ ( s ) = max ⁡ π V π ( s ) , ∀ s ∈ S , (39) V_{\pi^*}(\mathbf{s})=\max_\pi V_\pi(\mathbf{s}),\forall\mathbf{s}\in S,\tag{39} Vπ(s)=πmaxVπ(s),sS,(39)
其中 S S S表示状态集。因此,我们可以通过在 s t \mathbf{s}_t st处的所有操作中进行贪婪搜索,并采取最大化以下目标的操作 a \mathbf{a} a来获得 π ∗ \pi^* π
O = E s t + 1 ∼ T ( s t + 1 ∣ s t , a ) [ V π ∗ ( s t + 1 ) ] , (40) O=\mathbb{E}_{\mathbf{s}_{t+1}\sim\mathcal{T}(\mathbf{s}_{t+1}|\mathbf{s}_t,\mathbf{a})}[V_{\pi^*}(\mathbf{s}_{t+1})],\tag{40} O=Est+1T(st+1st,a)[Vπ(st+1)],(40)
其中, T ( s t + 1 ∣ s t , a ) \mathcal{T}(\mathbf{s}_{t+1}|\mathbf{s}_t,\mathbf{a}) T(st+1st,a)是所谓的过渡动力学,它构造了时间 t t t的状态-动作对到时间 t + 1 t+1 t+1的一组状态的映射。然而,根据[130], T \mathcal{T} T在RL设置中不可用是常识。因此,引入了所谓的 Q \mathcal{Q} Q函数: Q π ( s , a ) \mathcal{Q}_\pi(\mathbf{s},\mathbf{a}) Qπ(s,a)作为 V π ( s ) V_{\pi}(\mathbf{s}) Vπ(s)的替代:
Q π ( s , a ) = E [ R ∣ s , a , π ] , (41) \mathcal{Q}_\pi(\mathbf{s},\mathbf{a})=\mathbb{E}[\mathcal{R}|\mathbf{s},\mathbf{a},\pi],\tag{41} Qπ(s,a)=E[Rs,a,π],(41)
其中初始化动作 a \mathbf{a} a和后续的策略 π \pi π被预先给定。 Q π ( s , a ) \mathcal{Q}_\pi(\mathbf{s},\mathbf{a}) Qπ(s,a)表示在策略 π \pi π之后的状态 s \mathbf{s} s中执行操作 a \mathbf{a} a的预期返回值。因此,给定 Q π ( s , a ) \mathcal{Q}_\pi(\mathbf{s},\mathbf{a}) Qπ(s,a),可以通过在所有操作之间进行贪婪搜索来获得最优策略 π ∗ \pi^* π,相应的 V π ∗ ( s ) V_{\pi^*}(\mathbf{s}) Vπ(s)可以定义为:
V π ∗ ( s ) = max ⁡ a Q π ( s , a ) . (42) V_{\pi^*}(\mathbf{s})=\max_\mathbf{a}\mathcal{Q}_\pi(\mathbf{s},\mathbf{a}).\tag{42} Vπ(s)=amaxQπ(s,a).(42)
因此,在这样的方案中学习 Q π \mathcal{Q}_\pi Qπ是至关重要的。设 H \mathcal{H} H表示 Q π ( s t + 1 , π ( s t + 1 ) ) \mathcal{Q}_\pi(\mathbf{s}_{t+1},\pi(\mathbf{s}_{t+1})) Qπ(st+1,π(st+1)) Q π \mathcal{Q}_\pi Qπ的递归形式可以通过利用马尔可夫性质的概念和贝尔曼方程得到:
Q π ( s t , a t ) = E s t + 1 [ r t + 1 , γ H ] , (43) \mathcal{Q}_\pi(\mathbf{s}_t,\mathbf{a}_t)=\mathbb{E}_{\mathbf{s}_{t+1}}[r_{t+1},\gamma\mathcal{H}],\tag{43} Qπ(st,at)=Est+1[rt+1,γH],(43)
其中, r t + 1 r_{t+1} rt+1表示时间 t + 1 t+1 t+1时的即时奖励, γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ[0,1]表示调节短期奖励和长期奖励权重的贴现因子。当 γ \gamma γ接近0时,代理更关心短期回报;相反,当 γ \gamma γ接近1时,代理人更关心长期报酬。
基于策略的战略。与基于价值的战略不同,基于策略的战略不依赖于价值函数,而是贪婪地在策略空间中搜索最优策略 π ∗ \pi^* π。大多数策略搜索策略围绕所有策略执行本地优化,这些策略分别由一组策略参数 η i \eta_i ηi参数化。策略参数的更新采用基于梯度的方法,该方法遵循预期收益 E E E的梯度,并具有预定义的步长 α \alpha α
η i + 1 = η i + α ∇ η E . (44) \eta_{i+1}=\eta_i+\alpha\nabla_\eta E.\tag{44} ηi+1=ηi+αηE.(44)
有多种方法可以估计梯度 ∇ η E \nabla_\eta E ηE。例如,在有限差分梯度中,梯度的估计可以通过计算 G G G扰动策略参数来获得。给定 Δ E g ≈ E ( η i + Δ η g ) − E r e f \Delta E_g\approx E(\eta_i+\Delta{\eta_g})-E_{ref} ΔEgE(ηi+Δηg)Eref,其中 g = [ 1 , 2 , ⋯   , G ] g=[1,2,\cdots,G] g=[1,2,,G]表示扰动, Δ E g \Delta E_g ΔEg表示 g g g对预期收益 E E E的影响估计, E r e f E_{ref} Eref表示参考收益(例如,未扰动参数的收益),设 L = △ Υ ⊤ △ Υ L=\bigtriangleup\Upsilon^\top\bigtriangleup\Upsilon L=ΥΥ ∇ η E \nabla_\eta E ηE能被评估
∇ η E ≈ L − 1 △ Υ ⊤ △ E ~ , (45) \nabla_\eta E\approx L^{-1}\bigtriangleup\Upsilon^\top\bigtriangleup\tilde E,\tag{45} ηEL1ΥE~,(45)
其中 △ Υ \bigtriangleup\Upsilon Υ表示包括所有扰动 Δ η g \Delta{\eta_g} Δηg样本的矩阵同时 △ E ~ \bigtriangleup\tilde E E~表示包含相应 Δ E g \Delta E_g ΔEg的矩阵。
行动者批评策略。行动者批评策略旨在将策略搜索策略和学习价值功能的优点结合起来。这里,“actor”表示策略 π \pi π,“critical”表示价值函数。“行动者”通过“批评”的反馈进行学习,这意味着行动者批评策略可以通过持续学习获得有效的策略,从而获得高回报。与一般的策略梯度策略不同,它利用几个蒙特卡罗回报的平均值作为基线,行动者批评者策略可以从完全回报和TD误差中学习。一旦策略梯度策略或价值函数策略取得进展,行动者批评策略也可能得到改进。行动者批评策略的详细说明如图3所示。
小数据学习也可以有效地发挥其作用,并显示出强化学习的巨大潜力。例如,小数据学习方法可以用于基于价值的策略,同时通过影响预期收益来评估所有策略,以获得最优策略 π ∗ \pi^* π。此外,在基于策略的策略中,在直接策略搜索最优策略的过程中,小数据学习方法可以有效地充当辅助作用,如干扰策略梯度的方向,从而影响策略搜索的最终决策,小数据学习方法可以帮助调整“批评家”的分数。综上所述,在各种强化学习场景中,小数据学习可能会起到重要的辅助作用,以提高模型的泛化性能和鲁棒性,这两个领域的整合仍有待深入探索。

6.4 小数据的对比学习

自监督学习因其能够避免注释大规模数据集的成本而受到关注。它主要利用上游任务从非监督数据中挖掘监督信息。利用构建的监督信息,我们可以进行模型学习,并为下游任务获得有价值的表示。与此同时,对比学习最近已成为自我监督学习中的一个重要子话题,其目的是学习一种能够将正对组合得更紧密,并在潜在的嵌入空间中将负对推到一边的表示法,以消除对比度损失。对比学习中的学习步骤如图4所示。
Wu等人认为,对比学习通常通过数据增强方法为每个数据实例生成多个视图。从同一样本生成的两个视图是正对,而从不同的数据样本生成的是负对。最终目标是最大化两个组合正对的一致性与两个独立正对的相同性,视图之间的一致性可以通过互信息(MI)估计来衡量,如下所示
M I ( v i , v j ) = E p ( v i , v j ) [ log ⁡ p ( v i , v j ) p ( v i ) p ( v j ) ] , (46) MI(v_i,v_j)=\mathbb{E}_{p(v_i,v_j)}[\log\frac{p(v_i,v_j)}{p(v_i)p(v_j)}],\tag{46} MI(vi,vj)=Ep(vi,vj)[logp(vi)p(vj)p(vi,vj)],(46)
其中 v i v_i vi v j v_j vj表示不同的视图, p ( v i , v j ) p(v_i,v_j) p(vi,vj)表示 v i v_i vi v j v_j vj的联合分布。除此之外, p ( v i ) p(v_i) p(vi) p ( v j ) p(v_j) p(vj)分别表示 v i v_i vi v j v_j vj的边缘分布。
尽管对比学习努力学习有价值的表征,但在不同的对比学习场景中,可能常常存在很少的有效数据,从而限制了目标的实现。小数据学习充分考虑了这些情况,致力于在小数据场景下提供高效和通用的解决方案。而且,如何寻找具有代表性的样本来生成对比对是对比学习中最重要的问题之一。此外,在对比学习中采用适当的数据增强策略以获得有效的正样本,可以大大提高模型的表示能力和泛化能力。因此,小数据学习可以被视为锚定样本选择和数据增强策略指导的新视角。此外,在[162]中,对比学习受益于严格负样本。小数据学习有助于发现真正的严格负样本,从而提高对比学习模型的性能。通过以上观点,小数据学习值得进一步探索,以促进对比学习的发展。
小数据学习可能对对比学习中的视图选择起到有效作用,即选择正对(通过数据增强方法)或负对(通过负抽样方法)。更具体地说,通过小数据学习方法选择的代表性样本可以被视为锚,因此我们可以通过各种数据增强方法获得它们的增强版本。根据该方案,锚的增强版本可以被视为正样本,其余训练数据被视为负样本。此外,对小数据的学习可能有助于提取真正的严格负样本,从而提高模型的性能,它也有助于评估和设计合理的 L c o n t r a s t i v e \mathcal{L}_{contrastive} Lcontrastive,以获得稳健的对比学习模型。总之,小数据学习可以应用于整个管道的不同部分,并有助于对比学习模型获得极大的通用性和良好的性能。

6.5 小数据的图表示学习

图是描述复杂系统(如社交网络、推荐系统)的常见数据结构。在过去的几年中,由于图的强大表达能力,图表示学习逐渐吸引了机器学习社区的关注,其目的是建立能够有效学习非欧氏数据的模型。与此同时,各种各样的图神经网络应运而生,它们在结构化数据挖掘任务中显示出巨大的潜力,例如节点分类、链接预测或图分类。
然而,当这些图数据挖掘任务遇到许多无监督/有监督的场景,其中几乎没有有效的数据或标签,如何提高这些任务在图上的性能,并在这些情况下获得稳健的模型?同时,仍有许多有意义的子课题有待探索,例如关系结构发现、图神经网络的表征能力,这些都可能还需要从数据表示的角度提出有效的想法。对于上述问题,小数据学习可以提供必要和有力的支持,它可以促进图表示学习的发展,因为它具有可观的数据发现效率和强大的表示能力。
特别是,图5给出了GNN的一般设计流程。根据该设计流程的方案,GNN可分为循环图神经网络、卷积图神经网络,图自编码器和时空图神经网络。分类法的详细描述如[164]所示。
循环图神经网络(RecGNNS)。RecGNN用于学习循环神经网络的节点表示。具体来说,RecGNN在节点上利用相同的循环模型来获得高级表示。在该方案下,让 l v q = x e ( v , q ) l_{vq}=x_e(v,q) lvq=xe(v,q)表示边连接节点 v v v和节点 q q q的特征,节点 v v v t t t时刻的隐藏状态由下式更新
h v ( t ) = ∑ q ∈ N ( v ) f ( x v , x q , l v q , h v ( t − 1 ) ) , (47) h^{(t)}_v=\sum_{q\in N(v)}f(x_v,x_q,l_{vq},h^{(t-1)}_v),\tag{47} hv(t)=qN(v)f(xv,xq,lvq,hv(t1)),(47)
其中 N ( v ) N(v) N(v)表示节点 v v v的邻居集合, x v x_v xv x q x_q xq分别表示 v v v q q q的节点特征, f ( ⋅ ) f(\cdot) f()表示循环函数,它必须是一个收缩映射,以便将不同的节点映射到同一个潜在空间,从而缩小嵌入节点之间的距离。以下是一系列的RecGNN,如图回波状态网络(GraphESN)、门限图神经网络(GGNN)和随机稳态嵌入(SSE)。
卷积图神经网络(ConvGNNs)。ConvGNN借鉴传统的网格数据卷积运算,通过图卷积运算和特征聚合,提取节点的高级表示。具体来说,ConvGNN方法可以分为基于谱的方法和基于空间的方法。基于谱的方法从图形信号处理的角度采用图卷积运算,基于空间的方法从信息传播的角度定义图卷积。对于基于谱的ConvGNN,让 l l l表示层索引, g θ = Ω i , j ( l ) g_\theta=\Omega^{(l)}_{i,j} gθ=Ωi,j(l)表示卷积滤波器,它是由可学习参数组成的对角矩阵, c l − 1 c_{l-1} cl1表示输入通道数, H ( l − 1 ) H^{(l-1)} H(l1)表示输入图信号,基于谱的convGNN的图卷积层定义如下:
H ( l ) = σ ( ∑ i = 1 c l − 1 U Ω ( l ) U ⊤ H ( l − 1 ) ) , (48) H^{(l)}=\sigma(\sum^{c_{l-1}}_{i=1}U\Omega^{(l)}U^\top H^{(l-1)}),\tag{48} H(l)=σ(i=1cl1UΩ(l)UH(l1)),(48)
其中表示由特征向量组成的矩阵,可通过对归一化拉普拉斯矩阵进行分解而获得。在接下来的工作中,ChebNet使用切比雪夫多项式对滤波器 g θ g_\theta gθ进行近似,GCN引入了ChebNet的一阶近似,这减少了计算复杂性。此后,AGCN、DGCN等各种变体扩展到GCN。
图的神经网络(NN4G)是第一个基于空间的ConvGNN,它通过邻域信息聚合来执行图卷积,并利用残差连接和跳过连接来保存每个层的信息。设 Γ \Gamma Γ表示 ∑ i = 1 l − 1 ∑ q ∈ N ( v ) Ω ( l ) h q ( l − 1 ) \sum_{i=1}^{l-1}\sum_{q\in N(v)}\Omega^{(l)}h_q^{(l-1)} i=1l1qN(v)Ω(l)hq(l1),NN4G的隐层状态形式化为:
h v ( l ) = f ( W ( l ) x v + Γ ) , (49) h^{(l)}_v=f(W^{(l)}x_v+\Gamma),\tag{49} hv(l)=f(W(l)xv+Γ),(49)
其中 W ( l ) W^{(l)} W(l)是由可学习参数组成的权重矩阵, Ω ( l ) \Omega^{(l)} Ω(l)表示由滤波器参数组成的矩阵。设 Ψ = ∑ i = 1 l − 1 A Ω ( l ) H ( l − 1 ) \Psi=\sum^{l-1}_{i=1}A\Omega^{(l)}H^{(l-1)} Ψ=i=1l1AΩ(l)H(l1),等式(49)也可以利用矩阵形式给出:
H ( l ) = f ( W ( l ) X + Ψ ) , (50) H^{(l)}=f(W^{(l)}X+\Psi),\tag{50} H(l)=f(W(l)X+Ψ),(50)
其中 A A A表示图的邻接矩阵,表示节点之间的连接信息。此外,扩散卷积神经网络(DCNN)、分区图卷积(PGC)、消息传递神经网络(MPNN)、图同构网络(GIN)、图注意力网络(GAT)和各种基于空间的卷积GNN变体也应运而生。
图自编码器(GAEs)。GAE将节点或图编码到一个潜在空间,并从潜在表示中解码相应的信息。换句话说,GAE通过编码器-解码器体系结构学习嵌入,其中编码器旨在将网络嵌入到一个潜在空间,解码器从嵌入中解码图形信息。按照这种方式,出现了一系列GAE变体,如图表示的深度神经网络(DNGR)、结构深度网络嵌入(SDNE)、变分图自编码器(VGAE)、反正则变分图编码器(ARVGA)、GraphSage。以GraphSage为例,设 d e c ( ⋅ ) dec(\cdot) dec()是一个包含多层感知机的解码器, z v z_v zv z q z_q zq表示图中两个节点的嵌入, Q Q Q是负样本的数量, D 1 = d e c ( z v , z q ) , D 2 = − d e c ( z v , z v i ) , D_1=dec(z_v,z_q),D_2=-dec(z_v,z_{v_i}), D1=dec(zv,zq),D2=dec(zv,zvi),GraphSage认为,具有以下损失的负采样可以保留节点的重要信息,例如两个节点之间的关系信息,
L ( z v ) = − log ⁡ ( D 1 ) − Q E v i ∼ D i ( v ) log ⁡ ( D 2 ) , (51) L(z_v)=-\log(D_1)-QE_{v_i\sim D_i(v)}\log(D_2),\tag{51} L(zv)=log(D1)QEviDi(v)log(D2),(51)
其中节点 z v i z_{v_i} zvi表示从 D i ( v ) D_i(v) Di(v)采样的 z v z_v zv中的一个远距离节点, D i ( v ) D_i(v) Di(v)表示负采样分布, L ( z v ) L(z_v) L(zv)认为靠近的节点倾向于共享相似的表示,而远距离节点具有不同的表示。
时空图神经网络(STGNNs)。STGNN的目标是从时空图中学习隐藏模式。换句话说,STGNN同时考虑了图的空间依赖性和时间依赖性。使用[164],它可以分为基于RNN的方法和基于CNN的方法。基于RNN的方法可以通过利用图卷积来处理输入图和提交给循环单元的隐藏状态,从而平衡空间和时间依赖性。设 G 1 = G c o n v ( X ( t ) , A ; W ) , G 2 = G c o n v ( H ( t − 1 ) , A ; U ) G_1=Gconv(X^{(t)},A;W),G_2=Gconv(H^{(t-1)},A;U) G1=Gconv(X(t),A;W),G2=Gconv(H(t1),A;U),一个带有图卷积的简单RNN给出如下:
H ( t ) = σ ( G 1 + G 2 + b ) , (52) H^{(t)}=\sigma(G_1+G_2+b),\tag{52} H(t)=σ(G1+G2+b),(52)
其中 X ( t ) X^{(t)} X(t)表示时间 t t t节点的特征矩阵, G c o n v ( ⋅ ) Gconv(\cdot) Gconv()表示图卷积层, b b b表示偏差。图卷积循环网络(GCRN)、扩散卷积循环神经网络(DCRNN)和其他变体遵循这种方式。然而,基于RNN的方法在迭代传播阶段需要大量的计算时间。此外,基于RNN的方法存在消失/爆炸梯度问题。相比之下,基于CNN的方法以非递归方式运行,这意味着它们具有并行计算、稳定梯度和低内存需求的优点。时空图卷积网络(CGCN)、时空图卷卷积网络(ST-GCN)和一系列其他变体遵循这一范式。
对小数据的学习真的有利于图表示学习吗?答案是:完全正确。例如,在图统计特征的背景下,节点中心性度量包括度中心性、贴近中心性、特征向量中心性、中间中心性等。采用小数据学习方法探索更多的中心性度量来衡量图中节点的重要性是很有希望的。此外,对小数据的学习可能会引入一些新的想法,这些想法侧重于提取有效的数据,以便在只有少量数据的情况下进行图表示学习,例如图的自监督学习。此外,在一些图神经网络中,我们还可以引入对小数据的学习,以获得更好的邻域聚合或消息传递方案,例如定义来自邻居的消息对节点的重要性,从而提高模型在下游任务中的性能。总之,整合小数据学习和图表示学习以探索更多可能的协作场景是很有潜力的。

7. 挑战性学习场景

在本节中,我们将介绍一些具有挑战性但实用的学习环境。在小数据体制下,它们甚至变得很麻烦,然而,也出现了新的机会,这可以扩大小数据方法的应用范围。

7.1 深度学习场景

深度学习是最近的热门话题之一。它极大地推动了各种任务的最新进展。然而,深度模型由于其庞大的参数通常需要大量数据,这导致对应用程序的不友好调整。为了解决这个具有挑战性的问题,提出了许多工作来减少模型训练的数据量。因此,我们总结了一些相关技术,并用小数据为深入学习提供了可能的未来方向。
为了充分利用有限的标记示例,数据增强是在不需要额外数据的情况下提高性能的最重要的技术之一。它在不改变语义的情况下转换示例,以帮助模型学习。随着生成对抗网络(GAN)的最新进展,一些研究还建议生成更多的示例来扩充训练集。另一种方法是利用未标记的数据。可以将伪标签分配给未标记的数据,这可以通过联合训练、半监督学习来实现。或者,也可以使用无监督的表示学习方法,例如对比学习,来增强特征提取。它在未标记的数据上构造一个上游任务用于表征学习,然后适应下游任务。为了证明该技术的有效性,Chen等人报告称,他们仅使用10%的标签来微调预先训练的网络,并在ImageNet ILSVRC-2012数据集中的90个时间段内实现与所有标签从头训练的模型相当的性能。主动学习和迁移学习也广泛应用于深度模型的训练。前者有选择地查询信息数据以进行标记,而后者引入外部知识以帮助模型训练(例如,通过领域调整)。这两种方法都经过了很好的验证,可以降低训练有效深度模型的标签要求。
未来可能的发展方向可能包括可解释的深度学习方法,以便我们能够结合先前的知识来帮助学习小数据。此外,有效的小数据模型选择方法也可以通过选择合适的网络架构来提高性能。

7.2 弱监督场景

大多数机器学习研究都假设数据可以用基准标签进行精确注释。然而,在许多真实的学习场景中,由于缺乏完美的注释器,监督无法满足这一假设,这导致标签噪音大、不准确。前者包括标记错误的训练数据,后者包括多余的标签、不足的标签和粗糙的标签。在小数据体制下,这样的学习场景变得更加困难。为了帮助克服这一障碍,我们回顾了一些相关的方法,并为在这一具有挑战性的环境下研究小数据提供了可能的方向。
标签噪音大。为了解决小数据中的噪声监督问题,可能的解决方案包括噪声级控制和鲁棒学习方法。例如,前者可以通过主动学习来查询简单但信息丰富的示例,或通过高质量注释员的查询来实现,以便在有限的预算内降低噪音水平。低成本制度的另一个相关技术可能是主动标签清洗,它试图积极纠正最有价值的错误标签数据。我们注意到,仅通过有限的示例识别信息噪声数据将更具挑战性。对于后一种情况,我们进行了一些相关的探索,即噪声小样本学习,以学习小数据的鲁棒表示。例如,Gao等人提出了一种混合注意力技术来解决噪声较少的关系分类任务。他们将注意力模块应用于原型网络,以强调关键实例和特征,从而减轻噪声的影响。Liang等人提出了一种transformer结构中采用的特征聚合方法,通过重新加权图像来捕获这些噪声。实验结果表明,与目前最先进的小样本学习方法相比,他们提出的方法在噪声环境中可以取得更好的性能。
对于未来可能的发展方向,我们认为迁移学习和元学习通过引入额外的知识,可以有效地提高模型对基于小数据的噪声的鲁棒性。此外,利用未标记的数据(例如,半监督学习、对比学习)也可以为学习有限的噪声标签提供有用的信息。
标签不准确。对于小数据环境下的不精确标签,有一些先锋性的工作试图利用未标记数据来改进表征学习。例如,Xie和Huang处理了半监督的部分多标签学习,其中每个标记的数据都用所有相关标签和一些冗余标签进行注释。他们利用未标记的数据来学习低维嵌入并获得更好的性能。其他可能的技术包括图表示学习,它非常适合不精确的监督设置,因为它在标签完成方面具有巨大潜力。迁移学习也是一种常用的方法,用于补充相关完全受监督的源域中缺少的监督,例如,Cao等人提出了一种类别迁移框架,以帮助仅使用类标签注释的图像上的目标检测模型训练。它可以处理重叠和非重叠类别转移,因此具有广泛的应用。
展望未来,我们还认为,非监督学习技术,如对比学习、聚类,可能有助于对不精确的监督小数据进行模型训练。另外,主动学习和不精确的标签查询也可能是一个有前途的方向。因为在某些情况下,模型可能不需要完全监督的示例的所有信息,因此查询基本部分监督可能是一个更具成本效益的选择。

7.3 多标签场景

多标签学习研究了每个实例与多个类别关联的设置,即将数据映射到具有 C C C类别的 z C z^C zC维标签空间。准确地注释多个类别可能很困难,而且成本很高。因此,自然产生了对小数据的学习需求,以降低多标签学习的应用门槛。接下来,我们将介绍一些相关的探索以及针对这一具有挑战性的环境可能的未来方向。
有限监督下的多标签学习已被广泛研究。一些相关的方法包括半监督多标签学习、部分多标签学习、主动多标签学习、缺失标签的多标签学习和噪声标签等。最近,对小样本多标签学习的研究表明了利用过量知识在小数据上训练多标签分类器的可行性。这些技术充分利用了标签相关性和数据分布。例如,低秩正则化是一种常用的约束,用于合并类相关性的先验知识以减少训练数据。基于图的方法利用数据拓扑信息来处理缺失标签、半监督数据等问题。主动学习方法也被用来处理标记预算低的问题,其中一些方法基于不同的标准执行实例级查询并评估数据的不确定性,而另一些方法则查询实例标签对以进行细粒度监督。
未来的方向可能包括元多标签学习。因为标签相关性先验对小数据设置至关重要,这可能是由最近的趋势分析技术(即元学习)从历史学习经验中得出的。预计还将开发更有效的多标签学习主动查询方法。

8 挑战性应用

在许多实际应用中,数据收集或标注的成本非常昂贵,这导致了有限的训练数据,给模型学习带来了挑战。这种现象为小数据技术带来了机遇。本节总结了小数据的一些主要应用领域,包括计算机视觉、自然语言处理和其他主题。

8.1 计算机视觉

计算机视觉涉及图像识别、目标检测、语义分割、视频处理等,在我们的日常生活中有着广泛的应用。由于深度模型强大的特征提取能力,计算机视觉的发展水平得到了显著提升。然而,由于越来越复杂的模型,对标记数据的要求也提升到了一个新的水平,这对于某些应用程序来说可能是不可能的。例如,在大多数医学图像分析任务中,由于涉及昂贵的设备和对标注的大量专业知识要求,标记的示例非常稀少。特别是对于罕见疾病,数据和可靠的标注都是有限的。因此,有必要开发小数据技术来处理这种情况。现有的探索包括设计有效查询的主动学习算法、从相关领域迁移知识、利用未标记数据等。然而,医学图像的小数据学习仍然是一个具有挑战性的问题。遥感图像分析是另一个缺乏大量标记数据的典型任务。这不仅是因为数据的隐私,而且是因为每个图像中对象的丰富数量。一些研究试图通过提出弱监督学习方法来解决这个问题,以放松对精确标注的要求。此外,还利用了新的数据增强方法,以有限的示例帮助模型训练。主动学习也是遥感图像中的一种流行技术。不确定性和多样性是遥感数据选择的两个常用标准。
计算机视觉中的其他重要应用还可包括视频处理、3D图像分析等。

8.2 自然语言处理

自然语言处理(NLP)系统处理人类语言的语义解析、翻译、语音识别、摘要等。它是人机交互的核心技术之一。然而,需要大量标记的示例来训练领先的NLP模型,例如Transformer,这对于某些应用可能是禁止的。例如,在文本摘要任务中,其目标是提取长文档的关键词、大纲或摘要,注释者需要阅读整篇文章以提供准确的摘要。这一过程通常是费力和乏味的。因此,在许多情况下,通常无法获得大量标记数据。此外,由于高维特征和标签空间,使用小数据学习可能非常具有挑战性。为解决这个问题进行了一些探索。Karn等人提出了一种用于文本摘要的小样本学习方法,该方法利用合成数据对模型进行预训练。已经研究了数据增强以提高小样本文本摘要学习的模型性能。贝叶斯主动学习也被用来降低标记成本。预计今后将探索更有效的技术来处理这项任务。另一个重要应用是问答和对话系统。它包括语音识别、语义解析、对话生成等功能,这导致了数据标注的沉重负担。此外,由于学习任务的难度,小数据通常不能产生高性能。提出了几种主动学习方法来缓解这一问题。而迁移学习和强化学习也被用于减少对话系统中的训练数据。然而,小数据问答系统和对话系统的应用仍存在巨大的发展空间。
除上述主题外,语音转录、语音唤醒、机器翻译等也可以是小数据学习的重要应用。

8.3 推荐系统

推荐系统是我们日常生活中最重要的应用之一。它基于用户的历史行为(例如,用户项目评级、交易)向用户推荐可能感兴趣的内容,并已广泛应用于电子商务、音乐、视频共享、社交媒体平台等。推荐系统的主要问题之一是冷启动问题,即新用户的历史数据很少或没有,并且数据通常是私有的,并且获取成本很高。因此,需要为推荐系统开发小数据技术。然而,该应用中的目标通常是丰富和稀疏的,并且特征维数也很高,这使得小数据学习困难。处理该问题的一个解决方案是引入额外的知识,例如社交媒体、相关源域、链接的开放数据仓库。此外,一些研究假设从用户循环可以获得一个小问卷,以缓解冷启动问题。一种相关的方法可以是主动学习,它尝试选择最基本的用户项条目进行查询。然而,这个问题仍有待进一步探索。

8.4 时序数据

时间序列数据在我们的生活中非常常见(例如,温度记录、股市趋势、监测),它由一系列连续的数据点组成。然而,许多时间序列数据面临缺乏足够的标签、不完整的序列问题,并且每个数据的注释都很费力。现有研究采用主动学习来选择性地标记信息量最大的数据,以有限的预算改进模型;或者通过为模型训练分配伪标签来利用未标记数据,这可以通过标签传播和模型响应来实现。预计将对时间序列数据的小数据学习进行进一步研究。

8.5 生物学

近年来,机器学习被广泛应用于帮助现代生物学研究。典型应用包括自动基因组注释、蛋白质结合预测、代谢功能预测等。然而,获得生物学数据通常需要长时间培养(例如,细胞培养),或涉及昂贵的设备,这给收集大规模标记数据带来了挑战。此外,生物医学数据通常是高维和稀疏的,其中许多甚至是不完整和有偏见的。由于这些挑战,训练生物任务的有效模型可能相当困难,特别是当标记数据有限时。一些探索采用主动学习来减少标签获取;迁移学习也被用来重建不完整数据;图神经网络和矩阵分解技术应用于疾病基因关联识别任务。需要进一步研究处理小数据的更有效方法。

9. 结论

在本文中,我们首先给出了小数据学习的形式化定义,然后在PAC框架下对其误差和标签复杂度的有监督和无监督泛化分析提供了理论保证。从几何角度来看,小数据的学习可以通过欧几里得几何表示和非欧几里德几何表示来表征,其中,它们的几何平均表示是根据弗雷彻特平均值的统一表达式来表示和分析的。为了优化这些几何平均值,研究了欧几里得梯度、黎曼梯度和斯坦梯度。除了这些技术内容外,还总结了小数据学习的一些潜在未来方向,并介绍和讨论了它们的相关高级挑战性场景和应用。

你可能感兴趣的:(综述文章,机器学习,机器学习,人工智能)