Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.
MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?
我们有两组数据 Z = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) ) ⊆ X × Y Z = ((x_1, y_1), (x_2, y_2), \ldots, (x_m, y_m)) \subseteq \mathcal{X} \times \mathcal{Y} Z=((x1,y1),(x2,y2),…,(xm,ym))⊆X×Y, Z ′ = ( ( x 1 ′ , y 1 ′ ) , ( x 2 ′ , y 2 ′ ) , … , ( x n ′ , y n ′ ) ) ⊆ X × Y Z' = ((x_1', y_1'), (x_2', y_2'), \ldots, (x_n', y_n')) \subseteq \mathcal{X} \times \mathcal{Y} Z′=((x1′,y1′),(x2′,y2′),…,(xn′,yn′))⊆X×Y, 分别来自分布 P r ( x , y ) \mathrm{Pr}(x, y) Pr(x,y)和 P r ′ ( x , y ) \mathrm{Pr}'(x, y) Pr′(x,y).
一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数
R ( P r , θ , ℓ ( x , y , θ ) ) = E ( x , y ) ∼ P r [ ℓ ( x , y , θ ) ] , R(\mathrm{Pr}, \theta, \ell(x, y, \theta)) = \mathbb{E}_{(x, y) \sim \mathrm{Pr}} [\ell(x, y, \theta)], R(Pr,θ,ℓ(x,y,θ))=E(x,y)∼Pr[ℓ(x,y,θ)],
但是我们真正想要优化的是 R ( P r ′ , θ , ℓ ( x , y , θ ) ) R(\mathrm{Pr}', \theta, \ell(x, y, \theta)) R(Pr′,θ,ℓ(x,y,θ)), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到
R [ P r ′ , θ , ℓ ( x , y , θ ) ] = E ( x , y ) ∈ P r ′ [ ℓ ( x , y , θ ) ] = E ( x , y ) ∼ P r [ P r ′ ( x , y ) P r ( x , y ) ℓ ( x , y , θ ) ] , R[\mathrm{Pr}', \theta, \ell(x, y, \theta)] = \mathbb{E}_{(x, y) \in \mathrm{Pr'}} [\ell(x, y, \theta)]=\mathbb{E}_{(x, y) \sim \mathrm{Pr}} [\frac{\mathrm{Pr}'(x, y)}{\mathrm{Pr}(x, y)} \ell(x, y, \theta)], R[Pr′,θ,ℓ(x,y,θ)]=E(x,y)∈Pr′[ℓ(x,y,θ)]=E(x,y)∼Pr[Pr(x,y)Pr′(x,y)ℓ(x,y,θ)],
并记 β ( x , y ) : = P r ′ ( x , y ) P r ( x , y ) \beta(x, y) := \frac{\mathrm{Pr}'(x, y)}{\mathrm{Pr}(x, y)} β(x,y):=Pr(x,y)Pr′(x,y)(若成立), 则
R [ P r ′ , θ , ℓ ( x , y , θ ) ] = R [ P r , θ , β ( x , y ) ℓ ( x , y , θ ) ] . R[\mathrm{Pr}', \theta, \ell(x, y, \theta)] = R[\mathrm{Pr}, \theta, \beta(x, y)\ell(x, y, \theta)]. R[Pr′,θ,ℓ(x,y,θ)]=R[Pr,θ,β(x,y)ℓ(x,y,θ)].
这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计 β ( x , y ) \beta(x, y) β(x,y), 本文研究一种特殊的情况:
P r ( x , y ) = P ( y ∣ x ) P r ( x ) , P r ′ ( x , y ) = P ( y ∣ x ) P r ′ ( x ) , \mathrm{Pr}(x, y) = \mathrm{P}(y|x) \mathrm{Pr}(x) , \quad \mathrm{Pr}'(x, y) = \mathrm{P}(y|x) \mathrm{Pr}'(x), Pr(x,y)=P(y∣x)Pr(x),Pr′(x,y)=P(y∣x)Pr′(x),
即 covariate shift, 此时
β ( x , y ) = P r ( x ) P r ′ ( x ) . \beta(x, y) = \frac{\mathrm{Pr}(x)}{\mathrm{Pr}'(x)}. β(x,y)=Pr′(x)Pr(x).
首先, 根据MMD我们知道, 两个分布差异性可以量化为
M M D [ F , p , q ] : = sup f ∈ F ( E p [ f ( x ) ] − E q [ f ( y ) ] ) , \mathrm{MMD}[\mathcal{F},p,q] := \sup_{f \in \mathcal{F}} (\mathbb{E}_p [f(x)] - \mathbb{E}_q[f(y)]), MMD[F,p,q]:=f∈Fsup(Ep[f(x)]−Eq[f(y)]),
当我们限制 F \mathcal{F} F为 universal RKHS H \mathcal{H} H的时候, 上式可表示为
M M D [ H , p , q ] = sup ∥ f ∥ H ≤ 1 E p [ f ( x ) ] − E q [ f ( x ) ] = sup ∥ f ∥ H ≤ 1 E p [ ⟨ ϕ x , f ⟩ H ] − E q [ ⟨ ϕ x , f ⟩ H ] = ∥ μ p − μ q ∥ H . \mathrm{MMD}[\mathcal{H}, p, q] = \sup_{\|f\|_{\mathcal{H}} \le 1} \mathbb{E}_p [f(x)] - \mathbb{E}_q [f(x)] = \sup_{\|f\|_{\mathcal{H}} \le 1} \mathbb{E}_p [\langle \phi_x, f\rangle_{\mathcal{H}}] - \mathbb{E}_q [\langle \phi_x, f\rangle_{\mathcal{H}}] = \|\mu_p-\mu_q\|_{\mathcal{H}}. MMD[H,p,q]=∥f∥H≤1supEp[f(x)]−Eq[f(x)]=∥f∥H≤1supEp[⟨ϕx,f⟩H]−Eq[⟨ϕx,f⟩H]=∥μp−μq∥H.
在此处, 我们关注(用 ϕ ( x ) \phi(x) ϕ(x)表示 ϕ x \phi_x ϕx)
∥ μ ( P r ′ ) − E x ∼ P r ( x ) [ β ( x ) ϕ ( x ) ] ∥ , \|\mu(\mathrm{Pr}') - \mathbb{E}_{x \sim \mathrm{Pr}(x)} [\beta(x) \phi(x)]\|, ∥μ(Pr′)−Ex∼Pr(x)[β(x)ϕ(x)]∥,
即我们希望找到一个权重 β ( x ) \beta(x) β(x)使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:
min β ∥ μ ( P r ′ ) − E x ∼ P r ( x ) [ β ( x ) ϕ ( x ) ] ∥ s . t . β ( x ) ≥ 0 , E x ∼ P r ( x ) [ β ( x ) ] = 1. \min_{\beta} \quad \|\mu(\mathrm{Pr}') - \mathbb{E}_{x \sim \mathrm{Pr}(x)} [\beta(x) \phi(x)]\| \\ \mathrm{s.t.}\quad \beta(x) \ge 0, \mathbb{E}_{x \sim \mathrm{Pr}(x)}[\beta(x)] = 1. βmin∥μ(Pr′)−Ex∼Pr(x)[β(x)ϕ(x)]∥s.t.β(x)≥0,Ex∼Pr(x)[β(x)]=1.
在实际问题中, 我们只有分布中的有限的采样, 也就是开头的 Z , Z ′ Z, Z' Z,Z′, 上述问题变为
∥ 1 m ∑ i = 1 m β i ϕ ( x i ) − 1 n ∑ i = 1 n ϕ ( x i ′ ) ∥ 2 = 1 m 2 β T K β − 2 m n κ T β + c o n s t , \|\frac{1}{m} \sum_{i=1}^m \beta_i \phi(x_i)- \frac{1}{n} \sum_{i=1}^n \phi(x_i')\|^2 = \frac{1}{m^2}\beta^T K \beta - \frac{2}{mn}\kappa^T \beta + \mathrm{const}, ∥m1i=1∑mβiϕ(xi)−n1i=1∑nϕ(xi′)∥2=m21βTKβ−mn2κTβ+const,
其中 κ i : = ∑ j = 1 n k ( x i , x j ′ ) \kappa_i := \sum_{j=1}^{n} k(x_i, x_j') κi:=∑j=1nk(xi,xj′). 于是, 我们优化如下的问题
min β 1 2 β T K β − m n κ T β s . t . β i ∈ [ 0 , B ] , ∣ ∑ i = 1 m β i − m ∣ ≤ m ϵ . \min_{\beta} \quad \frac{1}{2} \beta^T K \beta - \frac{m}{n}\kappa^T\beta \\ \mathrm{s.t.} \quad \beta_i \in [0, B], |\sum_{i=1}^m \beta_i - m| \le m\epsilon. βmin21βTKβ−nmκTβs.t.βi∈[0,B],∣i=1∑mβi−m∣≤mϵ.
限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.