给出数学优化模型 m i n f ( x ) s . t . g ( x ) ≤ 0 h ( x ) = 0 \begin{aligned} & min\quad f(x) \\& \begin{aligned} s.t.& \quad g(x)\le 0 \\& \quad h(x) =0 \end{aligned} \end{aligned} minf(x)s.t.g(x)≤0h(x)=0的拉格朗日函数、拉格朗日对偶函数、对偶优化模型的定义和数学表达,并证明若原始模型的最优值为p,对偶模型的最优值为d,那么一定有
d ≤ p . d\le p. d≤p.
将原问题定义标为公式(1.1)的定义域记为 ψ \psi ψ, x = ( x 1 , x 2 , . . . , x d ) ∈ R d x=(x_1,x_2,...,x_d)\in \mathbb{R}^d x=(x1,x2,...,xd)∈Rd为 d d d维优化向量,设有 m m m个不等式约束和 n n n个等式约束。
D e f i n e 1 Define1 Define1 拉格朗日函数:对原优化问题(1.1),针对不等式约束 g ( x ) ≤ 0 g(x)\le 0 g(x)≤0引入拉格朗日乘子 α = ( α 1 , α 2 , . . . , α m ) \alpha=(\alpha_1,\alpha_2,...,\alpha_m) α=(α1,α2,...,αm),针对等式约束 h ( x ) = 0 h(x) =0 h(x)=0引入拉格朗日乘子 β = ( β 1 , β 2 , . . . , β n ) \beta=(\beta_1,\beta_2,...,\beta_n) β=(β1,β2,...,βn),相应的拉格朗日函数 L : R d × R m × R n ↦ R L:\mathbb{R}^d \times\mathbb{R}^m \times\mathbb{R}^n \mapsto \mathbb{R} L:Rd×Rm×Rn↦R为
L ( x , α , β ) = f ( x ) + α T g ( x ) + β T h ( x ) L(x,\alpha,\beta)=f(x)+\alpha^Tg(x)+\beta^Th(x) L(x,α,β)=f(x)+αTg(x)+βTh(x)
D e f i n e 2 Define2 Define2 拉格朗日函数对偶函数 Γ : R m × R n ↦ R \Gamma:\mathbb{R}^m \times\mathbb{R}^n \mapsto \mathbb{R} Γ:Rm×Rn↦R为:
Γ ( α , β ) = i n f x ∈ ψ L ( x , α , β ) = i n f x ∈ ψ ( f ( x ) + α T g ( x ) + β T h ( x ) ) \begin{aligned}\Gamma(\alpha,\beta) & =\underset{x\in \psi }{inf} \ L(x,\alpha,\beta) \\& =\underset{x\in \psi }{inf}(f(x)+\alpha^Tg(x)+\beta^Th(x)) \end{aligned} Γ(α,β)=x∈ψinf L(x,α,β)=x∈ψinf(f(x)+αTg(x)+βTh(x))
D e f i n e 3 Define3 Define3 对偶优化模型:
m a x α , β Γ ( α , β ) s . t . α ≥ 0. \underset{\alpha,\beta}{max} \quad \Gamma(\alpha,\beta) \quad s.t. \quad \alpha \ge 0. α,βmaxΓ(α,β)s.t.α≥0.,其中 α \alpha α和 β \beta β称为对偶变量。
证明 d ≤ p d\le p d≤p:由原问题定义可知,对于任意 α ≥ 0 \alpha \ge 0 α≥0,都有
α T g ( x ) ≤ 0 β T h ( x ) = 0 \begin{aligned} \alpha^Tg(x) \le 0 \\\beta^Th(x) = 0 \end{aligned} αTg(x)≤0βTh(x)=0,对于 ∀ x ~ ∈ ψ , \forall \tilde{x} \in \psi, ∀x~∈ψ,有
Γ ( α , β ) = i n f x ∈ ψ ( L ( x , α , β ) = f ( x ) + α T g ( x ) + β T h ( x ) ) ≤ i n f x ∈ ψ ( f ( x ) ) = m i n f ( x ) = : p \begin{aligned}\Gamma(\alpha,\beta) & =\underset{x\in \psi }{inf}(L(x,\alpha,\beta) =f(x)+\alpha^Tg(x)+\beta^Th(x)) \\ & \le \underset{x\in \psi }{inf}(f(x))=min\ f(x)=:p \end{aligned} Γ(α,β)=x∈ψinf(L(x,α,β)=f(x)+αTg(x)+βTh(x))≤x∈ψinf(f(x))=min f(x)=:p
于是对任意 α ≥ 0 \alpha \ge 0 α≥0都有
Γ ( α , β ) ≤ m a x Γ ( α , β ) = : d ≤ p \Gamma(\alpha,\beta)\le max\ \Gamma(\alpha,\beta)=:d\le p Γ(α,β)≤max Γ(α,β)=:d≤p,即对偶函数给出了主问题目标函数最优值的下界。
描述二分类问题的设定,构建支持向量机的经典的最大间隔模型,并计算其对偶模型。
描述:二分类问题即给定一个样本作为输入,输出的结果只有两种:该样本为正样本或该样本为负样本。
最大间隔模型构建:
给定训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \} D={(x1,y1),(x2,y2),...,(xm,ym)}, y i ∈ { − 1 , + 1 } , y_i\in \left \{ -1,+1 \right \}, yi∈{−1,+1},支持向量机试图找到恰好位于两类训练样本“正中间”的划分超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0
样本点 x i x_i xi到超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0的距离为 d ( x i ) d(x_i) d(xi)
d ( x i ) = ∣ w T x i + b ∣ ∥ w ∥ = y i ( w T ⋅ x i + b ) ∥ w ∥ d(x_i)=\frac{\left | w^Tx_i+b \right | }{\left \| w \right \| }=\frac{y_i(w^T·x_i+b)}{\left \| w \right \| } d(xi)=∥w∥∣∣wTxi+b∣∣=∥w∥yi(wT⋅xi+b)
距离超平面最近的几个训练样本为支持向量,两异类支持向量到超平面的距离之和 2 ∥ w ∥ \frac{2}{\left \| w \right \| } ∥w∥2为间隔,记为 r r r
最大间隔模型
m a x r = d m i n − + d m i n + s . t . d m i n − = d m i n + y i ( w T x i + b ) > 0 \begin{aligned} &max\ r = d^-_{min}+d^+_{min} \\&s.t. \quad \quad d^-_{min}=d^+_{min} \\& \quad \quad \quad \ \ y_i(w^Tx_i+b)>0 \end{aligned} max r=dmin−+dmin+s.t.dmin−=dmin+ yi(wTxi+b)>0由前知, d = y i ( w T x i + b ) ∥ w ∥ d=\frac{y_i(w^Tx_i+b)}{\left \| w \right \| } d=∥w∥yi(wTxi+b),存在一个 ϵ > 0 \epsilon>0 ϵ>0,满足 y i ( w T x i + b ) ≥ ϵ y_i(w^Tx_i+b)\ge \epsilon yi(wTxi+b)≥ϵ,所求最大间隔转化为
m a x w , b 2 ϵ ∥ w ∥ s . t . y i ( w T x i + b ) ≥ ϵ , ∀ x i \begin{aligned} &\underset{w,b}{max} \quad \frac{2\epsilon}{\left \| w \right \| } \\&s.t. \quad y_i(w^Tx_i+b)\ge \epsilon,\forall x_i \end{aligned} w,bmax∥w∥2ϵs.t.yi(wTxi+b)≥ϵ,∀xi令 w ^ = w ϵ \hat{w} =\frac{w}{\epsilon} w^=ϵw, b ^ = b ϵ \hat{b} =\frac{b}{\epsilon} b^=ϵb得
m i n w ^ , b ^ ∥ w ^ ∥ 2 2 s . t . y i ( w ^ T x i + b ^ ) ≥ 1 \begin{aligned} & \underset{\hat{w},\hat{b} }{min} \ \frac{\left \| \hat{w} \right \|^2 }{2} \\ & s.t. \ y_i(\hat{w} ^Tx_i+\hat{b} )\ge 1 \end{aligned} w^,b^min 2∥w^∥2s.t. yi(w^Txi+b^)≥1令其拉格朗日函数为
L ( w ^ , b ^ , α ) = ∥ w ∥ 2 2 + ∑ i = 1 m α i ( 1 − y i ( w ^ T ⋅ x i + b ^ ) ) \mathcal{L}(\hat{w},\hat{b},\alpha) = \frac{\left \| w \right \|^2 }{2}+\sum_{i=1}^{m}\alpha_i(1-y_i(\hat{w}^{T}· x_i+\hat{b} )) L(w^,b^,α)=2∥w∥2+i=1∑mαi(1−yi(w^T⋅xi+b^))
其中 m m m为样本个数, α = [ α 1 , α 2 , . . . , α m ] T , α i ≥ 0 , m > 0 \alpha =\left [ \alpha_1,\alpha_2,...,\alpha_m \right ]^T,\alpha_i\ge0,m >0 α=[α1,α2,...,αm]T,αi≥0,m>0
令 L ( w ^ , b ^ , α ) \mathcal{L}(\hat{w},\hat{b},\alpha) L(w^,b^,α)对 w ^ \hat{w} w^和 b ^ \hat{b} b^的偏导为0,可得
{ ∑ i = 1 m α i ⋅ y i ⋅ x i = w ^ ① ∑ i = 1 m α i ⋅ y i = 0 ② \left\{\begin{matrix} \sum_{i=1}^{m}\alpha_i·y_i·x_i = \hat{w} & ①\\ \sum_{i=1}^{m} \alpha_i·y_i=0 &② \end{matrix}\right. {∑i=1mαi⋅yi⋅xi=w^∑i=1mαi⋅yi=0①②将①代入拉格朗日函数 L ( w ^ , b ^ , α ) \mathcal{L}(\hat{w},\hat{b},\alpha) L(w^,b^,α),并考虑②的约束,即得原问题的对偶问题
m i n α 1 2 ∑ i = 1 m ∑ j = 1 m α i ⋅ α j ⋅ y i ⋅ y j ⋅ x i T ⋅ x j − ∑ i = 1 m α i s . t . ∑ i = 1 m α i ⋅ y i = 0 α i ≥ 0 ( i ∈ [ m ] ) \begin{aligned} &\underset{\alpha}{min} \quad \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i·\alpha_j·y_i·y_j·x_i^T·x_j-\sum_{i=1}^{m}\alpha_i \\& s.t. \quad \sum_{i=1}^{m}\alpha_i·y_i=0 \\ & \quad \quad \quad \alpha_i \ge 0 \ (i\in[m]) \end{aligned} αmin21i=1∑mj=1∑mαi⋅αj⋅yi⋅yj⋅xiT⋅xj−i=1∑mαis.t.i=1∑mαi⋅yi=0αi≥0 (i∈[m])
上述过程满足KKT条件
{ ∑ i = 1 m α i ⋅ y i ⋅ x i = w ^ ∑ i = 1 m α i ⋅ y i = 0 α i ≥ 0 y i ( w ^ T ⋅ x i + b ^ ) − 1 ≥ 0 α i ( y i ( w ^ T ⋅ x i + b ^ ) − 1 ) = 0 \left\{\begin{aligned} & \sum_{i=1}^{m}\alpha_i·y_i·x_i=\hat{w} \\ & \sum_{i=1}^{m}\alpha_i·y_i=0 \\ & \alpha_i \ge 0 \\ & y_i(\hat{w}^T·x_i+\hat{b})-1 \ge0 \\ & \alpha_i(y_i(\hat{w}^T·x_i+\hat{b})-1) = 0 \end{aligned}\right. ⎩⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎧i=1∑mαi⋅yi⋅xi=w^i=1∑mαi⋅yi=0αi≥0yi(w^T⋅xi+b^)−1≥0αi(yi(w^T⋅xi+b^)−1)=0
给出不可知PAC可学的定义,要求给出每一个要素的数学表达
首先给出不可知PAC可学的相关要素数学表达。
有时 c ∉ H c \notin \mathcal{H} c∈/H,即学习算法无法学得目标概念的 ϵ \epsilon ϵ近似,但必存在一个泛化误差最小的假设,以此为目标可将PAC学习推广到 c ∉ H c \notin \mathcal{H} c∈/H的情况,称为不可知PAC学习。
D e f i n e Define Define 不可知PAC可学:令 m m m表示从分布 D \mathcal{D} D独立分布采样得到的样本数目, 0 < ϵ 0<\epsilon 0<ϵ, δ < 1 \delta<1 δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 L \mathfrak{L} L和多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) poly(·,·,·,·) poly(⋅,⋅,⋅,⋅),使得对于任何 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m\ge poly(1/\epsilon,1/\delta ,size(x),size(c)) m≥poly(1/ϵ,1/δ,size(x),size(c)), L \mathfrak{L} L能从假设空间 H \mathcal{H} H中输出满足(3.1)的假设 h h h,
P ( E ( h ) − m i n h ′ ∈ H E ( h ′ ) ≤ ϵ ) ≥ 1 − δ , P(E(h)-\underset{h'\in\mathcal{H}}{min} E(h')\le \epsilon )\ge 1-\delta, P(E(h)−h′∈HminE(h′)≤ϵ)≥1−δ,则称假设空间 H \mathcal{H} H是不可知PAC可学的。
给出二分类问题假设空间的VC维定义,要求详细给出每一个要素的数学表达
首先给出与VC维定义相关要素的数学表达
D e f i n e Define Define VC维:假设空间 H \mathcal{H} H的VC维是能被 H \mathcal{H} H打散的最大样本集的大小,即 V C ( H ) = m a x { m : Π H ( m ) = 2 m } , VC(\mathcal{H})=max\left \{ m:\Pi _\mathcal{H}(m) =2^m\right \}, VC(H)=max{m:ΠH(m)=2m}, V C ( H ) = d VC(\mathcal{H})=d VC(H)=d表明存在大小为 d d d的样本集都能被假设空间 H \mathcal{H} H打散。
给出实数值函数空间的Rademacher复杂度的定义,要求详细给出每一个要素的数学表达。
首先我们给出Rademacher复杂度的相关要素表达。
考虑实值函数空间 F : Z ↦ R \mathcal{F}:\mathcal{Z} \mapsto \mathbb{R} F:Z↦R,令样本集 S = { s 1 , s 2 , . . . , s m } S=\left \{ s_1,s_2,...,s_m \right \} S={s1,s2,...,sm},其中 s i ∈ Z s_i\in \mathcal{Z} si∈Z.
给定数据集 S = { ( s 1 , y 1 ) , . . . , ( s m , y m ) } S=\left \{ (s_1,y_1),...,(s_m,y_m) \right \} S={(s1,y1),...,(sm,ym)}, f ∈ F f\in \mathcal{F} f∈F的经验误差为
E ^ ( f ) = 1 m ∑ i = 1 m I ( f ( s i ) ≠ y i ) = 1 m ∑ i = 1 m 1 − y i f ( s i ) 2 = 1 2 − 1 2 m ∑ i = 1 m y i f ( s i ) , \begin{aligned} \hat{E }(f) & = \frac{1}{m}\sum_{i=1}^{m} \mathbb{I}(f(s_i)\ne y_i) \\& =\frac{1}{m}\sum_{i=1}^{m} \frac{1-y_if(s_i)}{2} \\& =\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m} y_if(s_i) , \end{aligned} E^(f)=m1i=1∑mI(f(si)=yi)=m1i=1∑m21−yif(si)=21−2m1i=1∑myif(si),其中 1 m ∑ i = 1 m y i f ( s i ) \frac{1}{m}\sum_{i=1}^{m} y_if(s_i) m1∑i=1myif(si)体现了预测值 f ( s i ) f(s_i) f(si)与样本真实标记 y i y_i yi之间的一致性。若 ∀ i ∈ [ m ] \forall i\in \left [ m \right ] ∀i∈[m], f ( s i ) = y i f(s_i)=y_i f(si)=yi,则 1 m ∑ i = 1 m y i f ( s i ) \frac{1}{m}\sum_{i=1}^{m} y_if(s_i) m1∑i=1myif(si)取得最大值1,也就是说具有最小经验误差的假设是
a r g m a x f ∈ F 1 m ∑ i = 1 m y i f ( s i ) , \underset{f\in \mathcal{F} }{arg\ max} \frac{1}{m}\sum_{i=1}^{m} y_if(s_i), f∈Farg maxm1i=1∑myif(si),现实任务中样本的标记有时会受到噪声的影响,考虑随机变量 σ i \sigma _i σi,它以0.5的概率取值+1,以0.5的概率取值-1,称其为Rademaher随机变量。基于 σ i \sigma _i σi可将上述公式改写为 s u p f ∈ F 1 m ∑ i = 1 m σ i f ( s i ) sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^{m} \sigma_i f(s_i) supf∈Fm1∑i=1mσif(si)。
对 σ = ( σ 1 ; . . . ; σ m ) \sigma=(\sigma_1;...;\sigma_m) σ=(σ1;...;σm),函数空间 F \mathcal{F} F关于 S S S的经验Rademacher复杂度为
R ^ S ( F ) = E σ [ s u p f ∈ F 1 m ∑ i = 1 m σ i f ( s i ) ] , \hat{\mathfrak{R} } _S(\mathcal{F})=\mathbb{E}_{\sigma}\left [ \underset{f\in \mathcal{F}}{sup}\frac{1}{m}\sum_{i=1}^{m} \sigma_i f(s_i) \right ], R^S(F)=Eσ[f∈Fsupm1i=1∑mσif(si)],
相较于给定的 S S S,我们通常更加关心 S S S服从分布 D \mathcal{D} D时函数空间的复杂度。
因此,函数空间 F \mathcal{F} F关于 Z \mathcal{Z} Z在分布 D \mathcal{D} D上的Rademacher复杂度为
R m ( F ) = E S ⊂ Z : ∣ S ∣ = m [ R ^ S ( F ) ] . \mathfrak{R}_m(\mathcal{F} ) =\mathbb{E} _{S\subset \mathcal{Z}:|S|=m }\left [ \hat{\mathfrak{R}} _S(\mathcal{F}) \right ]. Rm(F)=ES⊂Z:∣S∣=m[R^S(F)].*在Rademacher复杂度定义中, σ i \sigma_i σi是 { − 1 , + 1 } \left \{ -1,+1 \right \} {−1,+1}上服从均匀分布的随机变量。
给出替换样本均匀稳定性、移除样本均匀稳定性、替换样本假设稳定性、移除样本假设稳定性的定义,要求详细给出每一个要素的数学表达。
首先给出与算法稳定性定义相关的要素与表达。
D e f i n e 1 Define1 Define1 替换样本均匀稳定性:对任意数据集 S S S和样本 z , z ′ ∈ X × Y z,z'\in\mathcal{X}\times\mathcal{Y} z,z′∈X×Y ,若学习算法 L \mathfrak{L} L满足
∣ ℓ ( L S , z ) − ℓ ( L S i , z ′ , z ) ∣ ≤ β ( i ∈ [ m ] ) , \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{i,z'}} ,z) \right | \le \beta \quad (i\in \left [ m \right ] ), ∣ℓ(LS,z)−ℓ(LSi,z′,z)∣≤β(i∈[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell ℓ的替换样本 β \beta β-均匀稳定性.
D e f i n e 2 Define2 Define2 移除样本均匀稳定性:对任意数据集 S S S和样本 z ∈ X × Y z\in \mathcal{X} \times \mathcal{Y} z∈X×Y,若学习算法 L \mathfrak{L} L满足
∣ ℓ ( L S , z ) − ℓ ( L S ∖ i , z ) ∣ ≤ γ ( i ∈ [ m ] ) , \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{\setminus i}} ,z) \right | \le \gamma \quad (i\in \left [ m \right ] ), ∣ℓ(LS,z)−ℓ(LS∖i,z)∣≤γ(i∈[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell ℓ的移除样本 γ \gamma γ-均匀稳定性.
考虑到均匀稳定性要求对任意的数据集 S S S和样本 z z z有 D e f i n e 1 Define1 Define1 或 D e f i n e 2 Define2 Define2成立,这是一个较强的条件.我们适当放松这个条件:对数据集 S S S和样本 z z z取期望,在期望条件下考虑训练集的扰动对算法输出函数的影响,就产生了如下的假设稳定性.
D e f i n e 3 Define3 Define3 替换样本假设稳定性(hypothesis stability):若学习算法 L \mathfrak{L} L满足
E S , z i ′ ∼ D m + 1 [ ∣ ℓ ( L S , z ) − ℓ ( L S i , z ′ , z ) ∣ ] ≤ β ( i ∈ [ m ] ) , \mathbb{E}_{S,z_{i}'\sim\mathcal{D}^{m+1} } \left [ \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{i,z'}} ,z) \right | \right ] \le \beta \quad (i\in \left [ m \right ] ), ES,zi′∼Dm+1[∣ℓ(LS,z)−ℓ(LSi,z′,z)∣]≤β(i∈[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell ℓ的替换样本 β \beta β-假设稳定性.
D e f i n e 4 Define4 Define4 移除样本假设稳定性:若学习算法 L \mathfrak{L} L满足
E S , z ∼ D m [ ∣ ℓ ( L S , z ) − ℓ ( L S ∖ i , z ) ∣ ] ≤ γ ( i ∈ [ m ] ) , \mathbb{E}_{S,z\sim\mathcal{D}^{m} } \left [ \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{\setminus i}} ,z) \right | \right ] \le \gamma \quad (i\in \left [ m \right ] ), ES,z∼Dm[∣ℓ(LS,z)−ℓ(LS∖i,z)∣]≤γ(i∈[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell ℓ的移除样本 γ \gamma γ-假设稳定性.
给出基于 h i n g e hinge hinge函数的支持向量机、基于 ϵ \epsilon ϵ不敏感的支持向量回归、基于平方函数的岭回归三类模型的定义,要求详细给出每一个要素的数学表达。
对样本空间 X ⊆ R d \mathcal{X} \subseteq \mathbb{R} ^d X⊆Rd,标记空间 Y = { − 1 , + 1 } \mathcal{Y} =\left \{ -1,+1 \right \} Y={−1,+1},以及训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \} D={(x1,y1),(x2,y2),...,(xm,ym)},
给定样本 ( x , y ) ∈ X × Y (x,y)\in \mathcal{X}\times \mathcal{Y} (x,y)∈X×Y和 w ∈ R d w\in \mathbb{R}^d w∈Rd,
D e f i n e 1 Define1 Define1 基于hinge函数的支持向量机
考虑hinge函数 ℓ h i n g e ( w , ( x , y ) ) = m a x ( 0 , 1 − y w T x ) \ell _{hinge}(w,(x,y))=max(0,1-yw^Tx) ℓhinge(w,(x,y))=max(0,1−ywTx)目标函数
F D ( w ) = 1 m ∑ i = 1 m m a x ( 0 , 1 − y i w T x i ) + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}max(0,1-y_iw^Tx_i)+\lambda \left \| w \right \| ^2 FD(w)=m1i=1∑mmax(0,1−yiwTxi)+λ∥w∥2其中 w ∈ R d w\in \mathbb{R} ^d w∈Rd, λ \lambda λ为正则化参数。
D e f i n e 2 Define2 Define2 基于 ϵ \epsilon ϵ-不敏感函数的支持向量回归
考虑 ϵ \epsilon ϵ-不敏感函数
ℓ ϵ ( w , ( x , y ) ) = { 0 i f ∣ w T x − y ∣ ≤ ϵ ∣ w T x − y ∣ − ϵ i f ∣ w T x − y ∣ > ϵ \ell_{\epsilon}(w,(x,y))=\left\{\begin{matrix} 0 & if \left | w^Tx-y \right |\le \epsilon \\ \left | w^Tx-y \right |- \epsilon & if \left | w^Tx-y \right | > \epsilon \end{matrix}\right. ℓϵ(w,(x,y))={0∣∣wTx−y∣∣−ϵif∣∣wTx−y∣∣≤ϵif∣∣wTx−y∣∣>ϵ
目标函数 F D ( w ) = 1 m ∑ i = 1 m ℓ ϵ ( w , ( x i , y i ) ) + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}\ell_{\epsilon}(w,(x_i,y_i))+\lambda \left \| w \right \| ^2 FD(w)=m1i=1∑mℓϵ(w,(xi,yi))+λ∥w∥2
其中 w ∈ R d w\in \mathbb{R} ^d w∈Rd, λ \lambda λ为正则化参数。
D e f i n e 3 Define3 Define3 基于平方函数的岭回归模型的定义
考虑平方函数 ℓ 2 ( w , ( x , y ) ) = ( w T x − y ) 2 \ell_2(w,(x,y))=(w^Tx-y)^2 ℓ2(w,(x,y))=(wTx−y)2
考虑线性岭回归,目标函数: F D ( w ) = 1 m ∑ i = 1 m ( w T x i − y i ) T + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}(w^Tx_i-y_i)^T+\lambda \left \| w \right \|^2 FD(w)=m1∑i=1m(wTxi−yi)T+λ∥w∥2其中 w ∈ R d w\in \mathbb{R} ^d w∈Rd, λ \lambda λ为正则化参数。
给出二分类问题算法一致性的定义,要求相信给出每一个要素的数学表达。
首先给出算法一致性相关要素的数学表达。
考虑样本空间 X ⊆ R d \mathcal{X}\subseteq \mathbb{R}^d X⊆Rd和标记空间 Y = { − 1 , + 1 } \mathcal{Y}=\left \{ -1,+1 \right \} Y={−1,+1},假设 D \mathcal{D} D是 X × Y \mathcal{X}\times\mathcal{Y} X×Y上的联合分布,对分类器 h : X ↦ Y h:\mathcal{X}\mapsto\mathcal{Y} h:X↦Y,可定义分类器 h h h在分布 D \mathcal{D} D上的分类错误率为泛化风险,即
R ( h ) = P ( x , y ) ∼ D ( h ( x ) ≠ y ) = E ( x , y ) ∼ D [ I ( h ( x ) ≠ y ] R(h)=P_{(x,y)\sim\mathcal{D}}(h(x)\ne y)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left [ \mathbb{I}(h(x)\ne y\right ] R(h)=P(x,y)∼D(h(x)=y)=E(x,y)∼D[I(h(x)=y]。这里 I ( ⋅ ) \mathbb{I}(·) I(⋅)为指示函数。
在分布 D \mathcal{D} D上取得最小错误率的分类器,我们称之为贝叶斯最优分类器,用 h ∗ h^* h∗表示,即 h ∗ ∈ a r g m i n h { R ( h ) } . h^*\in argmin_h\left \{ R(h) \right \}. h∗∈argminh{R(h)}.贝叶斯最优分类器的泛化风险被称为贝叶斯风险,记为
R ∗ = R ( h ∗ ) = m i n h { R ( h ) } R^*=R(h^*)=\underset{h}{min}\left \{ R(h) \right \} R∗=R(h∗)=hmin{R(h)}一致性理论研究随着训练数据规模的不断增加,甚至趋于无穷的极限过程中,通过训练集学得的分类器的泛化风险是否趋于贝叶斯风险。
一致性的定义:当 m ⟶ + ∞ m\longrightarrow +\infty m⟶+∞时,若学习算法 A A A满足
E D m ∼ D m [ R ( L D m ) ] ⟶ R ( h ∗ ) , \mathbb{E}_{D_{m}\sim \mathcal{D}^m }\left [ R(\mathfrak{L}_{D_{m}} ) \right ]\longrightarrow R(h^*), EDm∼Dm[R(LDm)]⟶R(h∗),则称学习算法具有一致性。
对于凸优化问题 m i n W f ( x ) , \underset{\mathcal{W} }{min} \ f(x), Wmin f(x),给出固定步长梯度下降法的基本流程。证明:若目标函数是 α − L i p s c h i t z \alpha -Lipschitz α−Lipschitz连续函数,并且 W \mathcal{W} W是有界的,那么固定步长梯度下降的收敛率 O ( 1 / T ) O(1/\sqrt{T}) O(1/T).
对于一般的凸优化问题,可以采用梯度下降达到 O ( 1 / T ) O(1/\sqrt{T}) O(1/T)的收敛率,其基本流程如下:
其中, η t \eta_t ηt为步长。投影操作的定义为
Π W ( z ) = a r g m i n x ∈ W ∥ x − z ∥ \Pi _\mathcal{W}(z) = \underset{x\in \mathcal{W}}{argmin} \ \left \| x-z \right \| ΠW(z)=x∈Wargmin ∥x−z∥定理 梯度下降收敛率 若目标函数是 α − L i p s c h i t z \alpha -Lipschitz α−Lipschitz连续函数,并且 W \mathcal{W} W是有界的,那么固定步长梯度下降的收敛率 O ( 1 / T ) O(1/\sqrt{T}) O(1/T)
证明 假设可行域 W \mathcal{W} W直径为 Γ \Gamma Γ,并且目标函数满足 α − L i p s c h i t z \alpha-Lipschitz α−Lipschitz连续,即对于任意 u , v ∈ W u,v\in \mathcal{W} u,v∈W, ∥ u − v ∥ ≤ Γ , ∥ ∇ f ( u ) ∥ ≤ l . \left \| u-v \right \| \le \Gamma,\left \| \nabla f(u) \right \| \le l. ∥u−v∥≤Γ,∥∇f(u)∥≤l.为了简化分析,考虑固定的步长 η t = η \eta _t=\eta ηt=η。对于任意的 w ∈ W w\in \mathcal{W} w∈W, f ( w t ) − f ( w ) ≤ ⟨ ∇ f ( w t ) , w t − w ⟩ = 1 η ⟨ w t − w t + 1 ′ , w t − w ⟩ = 1 2 η ( ∥ w t − w ∥ ) 2 − ∥ w t + 1 ′ − w ∥ 2 + ∥ w t − w t + 1 ′ ∥ 2 ) = 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 ) + η 2 ∥ ∇ f ( w t ) ∥ 2 ≤ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 ∥ ∇ f ( w t ) ∥ 2 \begin{aligned} f(w_t)-f(w)\le \left \langle \nabla f(w_t),w_t-w \right \rangle & = \frac{1}{\eta}\left \langle w_t-w'_{t+1},w_t-w \right \rangle\\ & = \frac{1}{2\eta} (\left \| w_t-w \right \| )^2-\left \| w'_{t+1}-w \right \|^2+\left \| w_t-w'_{t+1} \right \|^2 )\\ & = \frac{1}{2\eta} (\left \| w_t-w \right \| ^2-\left \| w'_{t+1}-w \right \|^2)+\frac{\eta}{2}\left \| \nabla f(w_t) \right \|^2 \\ & \le \frac{1}{2\eta} (\left \| w_t-w \right \| ^2-\left \| w_{t+1}-w \right \|^2)+\frac{\eta}{2}\left \| \nabla f(w_t) \right \|^2 \end{aligned} f(wt)−f(w)≤⟨∇f(wt),wt−w⟩=η1⟨wt−wt+1′,wt−w⟩=2η1(∥wt−w∥)2−∥∥wt+1′−w∥∥2+∥∥wt−wt+1′∥∥2)=2η1(∥wt−w∥2−∥∥wt+1′−w∥∥2)+2η∥∇f(wt)∥2≤2η1(∥wt−w∥2−∥wt+1−w∥2)+2η∥∇f(wt)∥2
最后一个不等号利用了凸集合投影操作的非扩展性质:
∥ Π W ( x ) − Π W ( z ) ∥ ≤ ∥ x − z ∥ , ∀ x , z . \left \| \Pi _{\mathcal{W}}(x)-\Pi _{\mathcal{W}}(z) \right \| \le\left \| x-z \right \|,\forall x,z. ∥ΠW(x)−ΠW(z)∥≤∥x−z∥,∀x,z.
注意到目标函数满足 α − \alpha- α−Lipschitz连续,由上述两个式子可得
f ( w t ) − f ( w ) ≤ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 l 2 f(w_t)-f(w)\le \frac{1}{2\eta}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2) +\frac{\eta}{2}l^2 f(wt)−f(w)≤2η1(∥wt−w∥2−∥wt+1−w∥2)+2ηl2
对上述从 t = 1 t=1 t=1到 T T T求和,有
∑ t = 1 T f ( w t ) − T f ( w ) ≤ 1 2 η ( ∥ w 1 − w ∥ 2 − ∥ w T + 1 − w ∥ 2 ) + η T 2 l 2 ≤ 1 2 η ∥ w 1 − w ∥ 2 + η T 2 l 2 ≤ 1 2 η Γ 2 + η T 2 l 2 . \begin{aligned} \sum_{t=1}^{T}f(w_t)-Tf(w) & \le \frac{1}{2\eta}(\left \| w_1-w \right \|^2-\left \| w_{T+1}-w \right \|^2)+\frac{\eta T}{2}l^2\\ & \le \frac{1}{2\eta}\left \| w_1-w \right \|^2+\frac{\eta T}{2}l^2 \le \frac{1}{2\eta}\Gamma^2+\frac{\eta T}{2}l^2. \end{aligned} t=1∑Tf(wt)−Tf(w)≤2η1(∥w1−w∥2−∥wT+1−w∥2)+2ηTl2≤2η1∥w1−w∥2+2ηTl2≤2η1Γ2+2ηTl2.
最后依据Jensen不等式可得 f ( w ˉ T ) − f ( w ) = f ( 1 T ∑ t = 1 T w t ) − f ( w ) ≤ 1 T ∑ t = 1 T f ( w t ) − f ( w ) ≤ Γ 2 2 η T + η l 2 2 . \begin{aligned} f(\bar{w}_T)-f(w)& =f(\frac{1}{T}\sum_{t=1}^{T}w_t)-f(w) \\ & \le \frac{1}{T}\sum_{t=1}^{T}f(w_t)-f(w) \le \frac{\Gamma^2}{2\eta T}+\frac{\eta l^2}{2}. \end{aligned} f(wˉT)−f(w)=f(T1t=1∑Twt)−f(w)≤T1t=1∑Tf(wt)−f(w)≤2ηTΓ2+2ηl2.
因此, f ( w ˉ T ) − m i n w ∈ W f ( w ) ≤ Γ 2 2 η T + η l 2 2 = l Γ T = O ( 1 T ) . f(\bar{w}_T)-\underset{w \in \mathcal{W}}{min} \ f(w) \le \frac{\Gamma^2}{2\eta T}+\frac{\eta l^2}{2}=\frac{l\Gamma}{\sqrt{T}}=O(\frac{1}{\sqrt{T}}). f(wˉT)−w∈Wmin f(w)≤2ηTΓ2+2ηl2=TlΓ=O(T1).
其中步长设置为 η = Γ / ( l T ) . \eta=\Gamma/(lT). η=Γ/(lT).定理得证。
*Jensen不等式,定义对任意凸函数 f ( ⋅ ) f(·) f(⋅),有 f ( E [ X ] ) ≤ E [ f ( X ) ] . f(\mathbb{E}[X]) \le \mathbb{E}[f(X)]. f(E[X])≤E[f(X)].由Jensen不等式可知 ( E [ X ] ) 2 ≤ E [ X ] 2 . (\mathbb{E}[X])^2\le \mathbb{E}[X]^2. (E[X])2≤E[X]2.
对于在线凸优化问题,给出在线梯度下降法的基本流程。证明:若目标函数是 α \alpha α-Lipschitz连续函数,并且定义域 W W W是有界的,那么在线梯度下降的遗憾界 O ( T ) O(\sqrt{T}) O(T).
在线梯度下降基本流程
证明 令可行域 W \mathcal{W} W的直径为 Γ \Gamma Γ且所有在线函数是 l − l- l−Lipschitz连续,即 ∥ u − v ∥ ≤ Γ , ∀ u , v ∈ W ; ∥ ∇ f t ( w ) ∥ ≤ l , ∀ t ∈ [ T ] , w ∈ W . \begin{aligned} \left \| u-v \right \| \le \Gamma,\ \forall u,v\in \mathcal{W};\\ \left \| \nabla f_t(w) \right \| \le l,\ \forall t\in [T], w\in \mathcal{W} . \end{aligned} ∥u−v∥≤Γ, ∀u,v∈W;∥∇ft(w)∥≤l, ∀t∈[T],w∈W.
将步长设置为 η t = Γ / ( l t ) \eta_t=\Gamma/(l\sqrt{t}) ηt=Γ/(lt),并定义 w t + 1 ′ = w t − η t ∇ f t ( w t ) . w'_{t+1}=w_t-\eta_t\nabla f_t(w_t). wt+1′=wt−ηt∇ft(wt).
对于任意的 w ∈ W , w\in \mathcal{W}, w∈W,
f t ( w t ) − f t ( w ) ≤ ⟨ ∇ f t ( w t ) , w t − w ⟩ = 1 η t ⟨ w t − w t + 1 ′ , w t − w ⟩ = 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 + ∥ w t − w t + 1 ′ ∥ 2 ) = 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 ) + η t 2 ∥ ∇ f t ( w t ) ∥ 2 ≤ 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η t 2 ∥ ∇ f t ( w t ) ∥ 2 ≤ 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η t 2 l 2 . \begin{aligned} f_t(w_t)-f_t(w) & \le \left \langle \nabla f_t(w_t),w_t-w \right \rangle=\frac{1}{\eta t}\left \langle w_t-w'_{t+1},w_t-w \right \rangle\\ & = \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w'_{t+1}-w \right \|^2+\left \|w_t-w'_{t+1}\right \|^2)\\ & = \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w'_{t+1}-w \right \|^2)+\frac{\eta t}{2}\left \| \nabla f_t(w_t) \right \|^2\\ & \le \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2 )+ \frac{\eta t}{2}\left \| \nabla f_t(w_t) \right \|^2\\ & \le \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2 )+\frac{\eta t }{2}l^2. \end{aligned} ft(wt)−ft(w)≤⟨∇ft(wt),wt−w⟩=ηt1⟨wt−wt+1′,wt−w⟩=2ηt1(∥wt−w∥2−∥∥wt+1′−w∥∥2+∥∥wt−wt+1′∥∥2)=2ηt1(∥wt−w∥2−∥∥wt+1′−w∥∥2)+2ηt∥∇ft(wt)∥2≤2ηt1(∥wt−w∥2−∥wt+1−w∥2)+2ηt∥∇ft(wt)∥2≤2ηt1(∥wt−w∥2−∥wt+1−w∥2)+2ηtl2.
对从 t = 1 t=1 t=1到 T T T求和,得到 ∑ t = 1 T f t ( w t ) − ∑ t = 1 T f t ( w ) ≤ 1 2 η 1 ∥ w 1 − w ∥ 2 − 1 2 η T ∥ w T + 1 − w ∥ 2 + 1 2 ∑ t = 2 T ( 1 η t − 1 η t − 1 ) ∥ w t − w ∥ 2 + l 2 2 ∑ t = 1 T η t . \begin{aligned} \sum_{t=1}^{T}f_t(w_t)-\sum_{t=1}^{T}f_t(w) & \le \frac{1}{2\eta_1}\left \| w_1-w \right \|^2-\frac{1}{2\eta_T}\left \| w_{T+1}-w \right \|^2 +\\ & \frac{1}{2}\sum_{t=2}^{T}(\frac{1}{\eta_t}-\frac{1}{\eta_{t-1}}) \left \| w_t-w\right \|^2+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t. \end{aligned} t=1∑Tft(wt)−t=1∑Tft(w)≤2η11∥w1−w∥2−2ηT1∥wT+1−w∥2+21t=2∑T(ηt1−ηt−11)∥wt−w∥2+2l2t=1∑Tηt.
根据上述三式以及 η t < η t − 1 \eta_t <\eta_{t-1} ηt<ηt−1,可以进一步化简为
∑ t = 1 T f t ( w t ) − ∑ t = 1 T f t ( w ) ≤ Γ 2 2 η 1 + Γ 2 2 ∑ t = 2 T ( 1 η t − 1 η t − 1 ) + l 2 2 ∑ t = 1 T η t = Γ 2 2 η T + l 2 2 ∑ t = 1 T η t = Γ l T 2 + Γ l 2 ∑ t = 1 T 1 t ≤ 3 Γ l 2 T . \begin{aligned} \sum_{t=1}^{T}f_t(w_t)-\sum_{t=1}^{T}f_t(w) & \le \frac{\Gamma^2}{2\eta_1}+\frac{\Gamma^2}{2}\sum_{t=2}^{T}(\frac{1}{\eta_t}-\frac{1}{\eta_{t-1}})+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t\\ & = \frac{\Gamma^2}{2\eta_T}+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t \\ & = \frac{\Gamma l \sqrt{T} }{2}+\frac{\Gamma l}{2}\sum_{t=1}^{T} \frac{1}{\sqrt{t} } \\ & \le \frac{3\Gamma l}{2}\sqrt{T}. \end{aligned} t=1∑Tft(wt)−t=1∑Tft(w)≤2η1Γ2+2Γ2t=2∑T(ηt1−ηt−11)+2l2t=1∑Tηt=2ηTΓ2+2l2t=1∑Tηt=2ΓlT+2Γlt=1∑Tt1≤23ΓlT.因此,有 ∑ t = 1 T f t ( w t ) − m i n w ∈ W ∑ t = 1 T f t ( w ) ≤ 3 Γ l 2 T = O ( T ) . \sum_{t=1}^{T}f_t(w_t)-\underset{w\in \mathcal{W}}{min}\sum_{t=1}^{T}f_t(w)\le \frac{3\Gamma l}{2}\sqrt{T}=O(\sqrt{T}). t=1∑Tft(wt)−w∈Wmint=1∑Tft(w)≤23ΓlT=O(T).定理得证。