1.域适应(domain adaptation)
我们考虑二分类的域适应问题。
定义领域为分布 D \mathcal{D} D,输入 X \mathcal{X} X,标签函数 f : X → [ 0 , 1 ] f:\mathcal{X}\to[0,1] f:X→[0,1].源域 < D S , f S > <\mathcal{D}_S,f_S> <DS,fS>,目标域 < D T , f T > <\mathcal{D}_T,f_T> <DT,fT>.
假设另一个函数为 h : X → [ 0 , 1 ] h:\mathcal{X}\to[0,1] h:X→[0,1],则假设函数 h h h与真实标签函数的差定义为: ϵ S ( h , f ) = E X ∼ D S [ ∣ h ( x ) − f ( x ) ∣ ] \epsilon_S(h,f)=E_{X\sim\mathcal{D}_S}[|h(x)-f(x)|] ϵS(h,f)=EX∼DS[∣h(x)−f(x)∣].
使用记号 ϵ S ( h ) = ϵ S ( h , f S ) \epsilon_S(h)=\epsilon_S(h,f_S) ϵS(h)=ϵS(h,fS)
在源域上训练一个分类器,计算这个分类器在目标域上的泛化误差。
我们用 L 1 L^1 L1来衡量两个分布之间的差异 d 1 ( D , D ′ ) = 2 sup B ∈ B ∣ P r D [ B ] − P r D ′ [ B ] ∣ d_1(\mathcal{D},\mathcal{D'})=2\sup_{B\in\mathcal{B}}|Pr_\mathcal{D}[B]-Pr_\mathcal{D'}[B]| d1(D,D′)=2B∈Bsup∣PrD[B]−PrD′[B]∣其中 B \mathcal{B} B是 D \mathcal{D} D和 D ′ \mathcal{D'} D′的可测子集。
定理一:对任意假设函数 h h h, ϵ T ( h ) ≤ ϵ S ( h ) + d 1 ( D S , D T ) + min { E D S [ ∣ f S ( x ) − f T ( x ) ∣ ] , E D T [ ∣ f S ( x ) − f T ( x ) ∣ ] } \epsilon_T(h)\leq\epsilon_S(h)+d_1(\mathcal{D}_S,\mathcal{D}_T)+\min\{E_{\mathcal{D}_S}[|f_S(x)-f_T(x)|],E_{\mathcal{D}_T}[|f_S(x)-f_T(x)|]\} ϵT(h)≤ϵS(h)+d1(DS,DT)+min{EDS[∣fS(x)−fT(x)∣],EDT[∣fS(x)−fT(x)∣]}.
证明: 令 ϵ T ( h ) = ϵ T ( h , f T ) \epsilon_T(h)=\epsilon_T(h,f_T) ϵT(h)=ϵT(h,fT), ϵ S ( h ) = ϵ S ( h , f S ) \epsilon_S(h)=\epsilon_S(h,f_S) ϵS(h)=ϵS(h,fS)。记 D S \mathcal{D}_S DS和 D T \mathcal{D}_T DT的概率密度函数为 ϕ S \phi_S ϕS和 ϕ T \phi_T ϕT
ϵ T ( h ) = ϵ T ( h ) + ϵ S ( h ) − ϵ S ( h ) + ϵ S ( h , f T ) − ϵ S ( h , f T ) \epsilon_T(h)= \epsilon_T(h)+\epsilon_S(h)-\epsilon_S(h)+\epsilon_S(h,f_T)-\epsilon_S(h,f_T) ϵT(h)=ϵT(h)+ϵS(h)−ϵS(h)+ϵS(h,fT)−ϵS(h,fT) ≤ ϵ S ( h ) + ∣ ϵ S ( h ) − ϵ S ( h ) ∣ + ∣ ϵ S ( h , f T ) − ϵ S ( h , f T ) ∣ \leq\epsilon_S(h)+|\epsilon_S(h)-\epsilon_S(h)|+|\epsilon_S(h,f_T)-\epsilon_S(h,f_T)| ≤ϵS(h)+∣ϵS(h)−ϵS(h)∣+∣ϵS(h,fT)−ϵS(h,fT)∣ = ϵ S ( h ) + ∣ E X ∼ D S [ ∣ h ( x ) − f T ( x ) ∣ ] − E X ∼ D S [ ∣ h ( x ) − f S ( x ) ∣ ] ∣ + ∣ ∣ E X ∼ D T [ ∣ h ( x ) − f T ( x ) ∣ ] − ∣ E X ∼ D S [ ∣ h ( x ) − f T ( x ) ∣ ] ∣ =\epsilon_S(h)+|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]-E_{X\sim\mathcal{D}_S}[|h(x)-f_S(x)|]|+||E_{X\sim\mathcal{D}_T}[|h(x)-f_T(x)|]-|E_{X\sim\mathcal{D}_S}[|h(x)-f_T(x)|]| =ϵS(h)+∣EX∼DS[∣h(x)−fT(x)∣]−EX∼DS[∣h(x)−fS(x)∣]∣+∣∣EX∼DT[∣h(x)−fT(x)∣]−∣EX∼DS[∣h(x)−fT(x)∣]∣ ≤ ϵ S ( h ) + E X ∼ D S [ ∣ f S ( x ) − f T ( x ) ∣ ] + ∫ ∣ ϕ S ( x ) − ϕ T ( x ) ∣ ∣ h ( x ) − f T ( x ) ∣ d x \leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+\int|\phi_S(x)-\phi_T(x)||h(x)-f_T(x)| \mathrm{d}x ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+∫∣ϕS(x)−ϕT(x)∣∣h(x)−fT(x)∣dx ≤ ϵ S ( h ) + E X ∼ D S [ ∣ f S ( x ) − f T ( x ) ∣ ] + d 1 ( D S , D T ) . \leq\epsilon_S(h)+E_{X\sim\mathcal{D}_S}[|f_S(x)-f_T(x)|]+d_1(\mathcal{D}_S,\mathcal{D}_T). ≤ϵS(h)+EX∼DS[∣fS(x)−fT(x)∣]+d1(DS,DT).
分析:
上面的不等式右边的第一项是 源域分类器在源域中的误差;第三项是 标签函数在两个域之间的差异。
第二项的问题:
1. 对任意分布, d 1 ( D S , D T ) d_1(\mathcal{D}_S,\mathcal{D}_T) d1(DS,DT)不能被有限样本正确估计。
2. 它包含了所有可测集的最大值, L 1 L^1 L1度量方式太严谨了,以至于夸大了边界
由于 我们只对假设函数 h h h在某一些类上的误差感兴趣,所以我们要把注意力集中到可计算误差的子集上。
给定两个在领域 X \mathcal{X} X上的分布: D \mathcal{D} D和 D ′ \mathcal{D'} D′。令 H \mathcal{H} H为 X \mathcal{X} X上的假设类集合。 h h h是集合 I ( h ) I(h) I(h)的特征函数,即 x ∈ I ( x ) ⟺ h ( x ) = 1 x\in I(x)\Longleftrightarrow h(x)=1 x∈I(x)⟺h(x)=1.分布 D \mathcal{D} D和 D ′ \mathcal{D'} D′的 H \mathcal{H} H—散度为 d H ( D , D ′ ) = 2 sup h ∈ H ∣ P r D [ I ( h ) ] − P r D ′ [ I ( h ) ] ∣ . d_\mathcal{H}(\mathcal{D},\mathcal{D'})=2\sup_{h\in\mathcal{H}}|Pr_\mathcal{D}[I(h)]-Pr_\mathcal{D'}[I(h)]|. dH(D,D′)=2h∈Hsup∣PrD[I(h)]−PrD′[I(h)]∣.优点: