A theory of learning from different domains

本文要解决的问题

  1. 在)什么条件下,由源域训练的分类器能在目标域上取得很好的效果
  2. 鉴于目标域中只有少量的标记数据,在训练过程中,我们应该怎样利用拥有大量已标记数据的源域使得在测试的时候目标误差最低。

相关概念

1.域适应(domain adaptation)

域适应模型

  我们考虑二分类的域适应问题。
  定义领域为分布 D \mathcal{D} D,输入 X \mathcal{X} X,标签函数 f : X → [ 0 , 1 ] f:\mathcal{X}\to[0,1] f:X[0,1].源域 < D S , f S > <\mathcal{D}_S,f_S> <DS,fS>,目标域 < D T , f T > <\mathcal{D}_T,f_T> <DT,fT>.
  假设另一个函数为 h : X → [ 0 , 1 ] h:\mathcal{X}\to[0,1] h:X[0,1],则假设函数 h h h与真实标签函数的差定义为: ϵ S ( h , f ) = E X ∼ D S [ ∣ h ( x ) − f ( x ) ∣ ] \epsilon_S(h,f)=E_{X\sim\mathcal{D}_S}[|h(x)-f(x)|] ϵS(h,f)=EXDS[h(x)f(x)].
  使用记号 ϵ S ( h ) = ϵ S ( h , f S ) \epsilon_S(h)=\epsilon_S(h,f_S) ϵS(h)=ϵS(h,fS)

源域和目标域误差估计

  在源域上训练一个分类器,计算这个分类器在目标域上的泛化误差。
  我们用 L 1 L^1 L1来衡量两个分布之间的差异 d 1 ( D , D ′ ) = 2 sup ⁡ B ∈ B ∣ P r D [ B ] − P r D ′ [ B ] ∣ d_1(\mathcal{D},\mathcal{D'})=2\sup_{B\in\mathcal{B}}|Pr_\mathcal{D}[B]-Pr_\mathcal{D'}[B]| d1(D,D)=2BBsupPrD[B]PrD[B]其中 B \mathcal{B} B D \mathcal{D} D D ′ \mathcal{D'} D的可测子集。
定理一:对任意假设函数 h h h ϵ T ( h ) ≤ ϵ S ( h ) + d 1 ( D S , D T ) + min ⁡ { E D S [ ∣ f S ( x ) − f T ( x ) ∣ ] , E D T [ ∣ f S ( x ) − f T ( x ) ∣ ] } \epsilon_T(h)\leq\epsilon_S(h)+d_1(\mathcal{D}_S,\mathcal{D}_T)+\min\{E_{\mathcal{D}_S}[|f_S(x)-f_T(x)|],E_{\mathcal{D}_T}[|f_S(x)-f_T(x)|]\} ϵT(h)ϵS(h)+d1(DS,DT)+min{EDS[fS(x)fT(x)],EDT[fS(x)fT(x)]}.
证明: ϵ T ( h ) = ϵ T ( h , f T ) \epsilon_T(h)=\epsilon_T(h,f_T) ϵT(h)=ϵT(h,fT) ϵ S ( h ) = ϵ S ( h , f S ) \epsilon_S(h)=\epsilon_S(h,f_S) ϵS(h)=ϵS(h,fS)。记 D S \mathcal{D}_S DS D T \mathcal{D}_T DT的概率密度函数为 ϕ S \phi_S ϕS ϕ T \phi_T ϕT
ϵ T ( h ) = ϵ T ( h ) + ϵ S ( h ) − ϵ S ( h ) + ϵ S ( h , f T ) − ϵ S ( h , f T ) \epsilon_T(h)= \epsilon_T(h)+\epsilon_S(h)-\epsilon_S(h)+\epsilon_S(h,f_T)-\epsilon_S(h,f_T) ϵT(h)=ϵT(h)+ϵS(h)ϵS(h)+ϵS(h,fT)ϵS(h,fT) ≤ ϵ S ( h ) + ∣ ϵ S ( h ) − ϵ S ( h ) ∣ + ∣ ϵ S ( h , f T ) − ϵ S ( h , f T ) ∣ \leq\epsilon_S(h)+|\epsilon_S(h)-\epsilon_S(h)|+|\epsilon_S(h,f_T)-\epsilon_S(h,f_T)| ϵS(h)+ϵS(h)ϵS(h)+ϵS(h,fT)ϵS(h,fT) = ϵ S ( h ) + ∣ E X ∼ D S [ ∣ h ( x ) − f T ( x ) ∣ ] − E X ∼ D S [ ∣ h ( x ) − f S ( x ) ∣ ] ∣ + ∣ ∣ E X ∼ D T [ ∣ h ( x ) − f T ( x ) ∣ ] − ∣ E X ∼ D S [ ∣ h ( x ) − f T ( x ) ∣ ] ∣ =\epsilon_S(h)+|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]-E_{X\sim\mathcal{D}_S}[|h(x)-f_S(x)|]|+||E_{X\sim\mathcal{D}_T}[|h(x)-f_T(x)|]-|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]| =ϵS(h)+EXDS[h(x)fT(x)]EXDS[h(x)fS(x)]+EXDT[h(x)fT(x)]EXDS[h(x)fT(x)] ≤ ϵ S ( h ) + E X ∼ D S [ ∣ f S ( x ) − f T ( x ) ∣ ] + ∫ ∣ ϕ S ( x ) − ϕ T ( x ) ∣ ∣ h ( x ) − f T ( x ) ∣ d x \leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+\int|\phi_S(x)-\phi_T(x)||h(x)-f_T(x)| \mathrm{d}x ϵS(h)+EXDS[fS(x)fT(x)]+ϕS(x)ϕT(x)h(x)fT(x)dx ≤ ϵ S ( h ) + E X ∼ D S [ ∣ f S ( x ) − f T ( x ) ∣ ] + d 1 ( D S , D T ) . \leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+d_1(\mathcal{D}_S,\mathcal{D}_T). ϵS(h)+EXDS[fS(x)fT(x)]+d1(DS,DT).
分析:
  上面的不等式右边的第一项是 源域分类器在源域中的误差;第三项是 标签函数在两个域之间的差异。
  第二项的问题:
    1. 对任意分布, d 1 ( D S , D T ) d_1(\mathcal{D}_S,\mathcal{D}_T) d1(DS,DT)不能被有限样本正确估计。
     2. 它包含了所有可测集的最大值, L 1 L^1 L1度量方式太严谨了,以至于夸大了边界
  由于 我们只对假设函数 h h h在某一些类上的误差感兴趣,所以我们要把注意力集中到可计算误差的子集上。

H \mathcal{H} H—散度

  给定两个在领域 X \mathcal{X} X上的分布: D \mathcal{D} D D ′ \mathcal{D'} D。令 H \mathcal{H} H X \mathcal{X} X上的假设类集合。 h h h是集合 I ( h ) I(h) I(h)的特征函数,即 x ∈ I ( x ) ⟺ h ( x ) = 1 x\in I(x)\Longleftrightarrow h(x)=1 xI(x)h(x)=1.分布 D \mathcal{D} D D ′ \mathcal{D'} D H \mathcal{H} H—散度为 d H ( D , D ′ ) = 2 sup ⁡ h ∈ H ∣ P r D [ I ( h ) ] − P r D ′ [ I ( h ) ] ∣ . d_\mathcal{H}(\mathcal{D},\mathcal{D'})=2\sup_{h\in\mathcal{H}}|Pr_\mathcal{D}[I(h)]-Pr_\mathcal{D'}[I(h)]|. dH(D,D)=2hHsupPrD[I(h)]PrD[I(h)].优点:

  1. 对于有限VC维的假设类 H \mathcal{H} H H \mathcal{H} H—散度能通过有限的样本估计。
  2. 对于任意的假设类 H \mathcal{H} H H \mathcal{H} H—散度小于等于 L 1 L^1 L1散度
    注:
    1.假设类(hypothesis class):在一般的分类中,假设类是您正在考虑的一组可能的分类函数; 学习算法从假设类中选择一个函数。
    2.特征函数:设 X X X是非空集合,
    φ A ( x ) = { 1 , x ∈ A 0 , x ∉ A \varphi_A(x)= \begin{cases} 1,x\in A \\ 0,x\notin A \end{cases} φA(x)={1,xA0,x/A3.本文探讨的是二分类问题,标签 y = 1 y=1 y=1 or y = 0 y=0 y=0。所以 h ( x ) = 1 h(x)=1 h(x)=1,表示标签为1的样本。又 x ∈ I ( x ) ⟺ h ( x ) = 1 x\in I(x)\Longleftrightarrow h(x)=1 xI(x)h(x)=1。所以此时 x ∈ I ( x ) x\in I(x) xI(x)是指 x x x是标签为1的样本。

    定理二 假设空间 H \mathcal{H} H V C VC VC维是 d d d。如果 U S , H T \mathcal{U}_S , \mathcal{H}_T US,HT是大小为 m ′ m' m,分别服从于 D S \mathcal{D}_S DS D T \mathcal{D}_T DT的无标签样本,那么对于任意的 δ ∈ ( 0 , 1 ) \delta\in(0,1) δ(0,1),对于任意的 h ∈ H h\in\mathcal{H} hH ϵ T ( h ) ≤ ϵ S ( h ) + 1 2 d ^ H Δ U ( U S , U T ) + 4 2 d log ⁡ ( 2 m ′ ) + log ⁡ ( 2 δ ) m ′ + λ \epsilon_T(h)\leq\epsilon_S(h)+\frac 12\hat d_{\mathcal{H}\Delta\mathcal{U}}(\mathcal{U}_S,\mathcal{U}_T)+4 \sqrt {\frac{2d\log(2m')+\log(\frac2\delta)}{m'}} +\lambda ϵT(h)ϵS(h)+21d^HΔU(US,UT)+4m2dlog(2m)+log(δ2) +λ
    定理二说明:对于分类器 h h h,目标域误差小于源域的误差加上样本点的散度再加上一些常数。

你可能感兴趣的:(理论基础,域适应,迁移学习,误差)