【机器学习数学基础-周志华】重要概念总结

dddd

  • 第01题 拉格朗日对偶
    • 题目
    • 答案
  • 第02题 最大间隔模型
    • 题目
    • 答案
  • 第03题 不可知PAC可学
    • 题目
    • 答案
  • 第04题 二分类VC维
    • 题目
    • 答案
  • 第05题 Rademacher复杂度
    • 题目
    • 答案
  • 第06题 稳定性
    • 题目
    • 答案
  • 第07题 hinge函数
    • 题目
    • 答案
  • 第08题 一致性
    • 题目
    • 答案
  • 第09题 固定步长梯度
    • 题目
    • 答案
  • 第10题 在线梯度与遗憾界
    • 题目
    • 答案

第01题 拉格朗日对偶

题目

给出数学优化模型 m i n f ( x ) s . t . g ( x ) ≤ 0 h ( x ) = 0 \begin{aligned} & min\quad f(x) \\& \begin{aligned} s.t.& \quad g(x)\le 0 \\& \quad h(x) =0 \end{aligned} \end{aligned} minf(x)s.t.g(x)0h(x)=0的拉格朗日函数、拉格朗日对偶函数、对偶优化模型的定义和数学表达,并证明若原始模型的最优值为p,对偶模型的最优值为d,那么一定有
d ≤ p . d\le p. dp.

答案

将原问题定义标为公式(1.1)的定义域记为 ψ \psi ψ, x = ( x 1 , x 2 , . . . , x d ) ∈ R d x=(x_1,x_2,...,x_d)\in \mathbb{R}^d x=(x1,x2,...,xd)Rd d d d维优化向量,设有 m m m个不等式约束和 n n n个等式约束。

D e f i n e 1 Define1 Define1 拉格朗日函数:对原优化问题(1.1),针对不等式约束 g ( x ) ≤ 0 g(x)\le 0 g(x)0引入拉格朗日乘子 α = ( α 1 , α 2 , . . . , α m ) \alpha=(\alpha_1,\alpha_2,...,\alpha_m) α=(α1,α2,...,αm),针对等式约束 h ( x ) = 0 h(x) =0 h(x)=0引入拉格朗日乘子 β = ( β 1 , β 2 , . . . , β n ) \beta=(\beta_1,\beta_2,...,\beta_n) β=(β1,β2,...,βn),相应的拉格朗日函数 L : R d × R m × R n ↦ R L:\mathbb{R}^d \times\mathbb{R}^m \times\mathbb{R}^n \mapsto \mathbb{R} L:Rd×Rm×RnR
L ( x , α , β ) = f ( x ) + α T g ( x ) + β T h ( x ) L(x,\alpha,\beta)=f(x)+\alpha^Tg(x)+\beta^Th(x) L(x,α,β)=f(x)+αTg(x)+βTh(x)

D e f i n e 2 Define2 Define2 拉格朗日函数对偶函数 Γ : R m × R n ↦ R \Gamma:\mathbb{R}^m \times\mathbb{R}^n \mapsto \mathbb{R} Γ:Rm×RnR为:
Γ ( α , β ) = i n f x ∈ ψ   L ( x , α , β ) = i n f x ∈ ψ ( f ( x ) + α T g ( x ) + β T h ( x ) ) \begin{aligned}\Gamma(\alpha,\beta) & =\underset{x\in \psi }{inf} \ L(x,\alpha,\beta) \\& =\underset{x\in \psi }{inf}(f(x)+\alpha^Tg(x)+\beta^Th(x)) \end{aligned} Γ(α,β)=xψinf L(x,α,β)=xψinf(f(x)+αTg(x)+βTh(x))

D e f i n e 3 Define3 Define3 对偶优化模型:
m a x α , β Γ ( α , β ) s . t . α ≥ 0. \underset{\alpha,\beta}{max} \quad \Gamma(\alpha,\beta) \quad s.t. \quad \alpha \ge 0. α,βmaxΓ(α,β)s.t.α0.,其中 α \alpha α β \beta β称为对偶变量。

证明 d ≤ p d\le p dp:由原问题定义可知,对于任意 α ≥ 0 \alpha \ge 0 α0,都有
α T g ( x ) ≤ 0 β T h ( x ) = 0 \begin{aligned} \alpha^Tg(x) \le 0 \\\beta^Th(x) = 0 \end{aligned} αTg(x)0βTh(x)=0,对于 ∀ x ~ ∈ ψ , \forall \tilde{x} \in \psi, x~ψ,
Γ ( α , β ) = i n f x ∈ ψ ( L ( x , α , β ) = f ( x ) + α T g ( x ) + β T h ( x ) ) ≤ i n f x ∈ ψ ( f ( x ) ) = m i n   f ( x ) = : p \begin{aligned}\Gamma(\alpha,\beta) & =\underset{x\in \psi }{inf}(L(x,\alpha,\beta) =f(x)+\alpha^Tg(x)+\beta^Th(x)) \\ & \le \underset{x\in \psi }{inf}(f(x))=min\ f(x)=:p \end{aligned} Γ(α,β)=xψinf(L(x,α,β)=f(x)+αTg(x)+βTh(x))xψinf(f(x))=min f(x)=:p
于是对任意 α ≥ 0 \alpha \ge 0 α0都有
Γ ( α , β ) ≤ m a x   Γ ( α , β ) = : d ≤ p \Gamma(\alpha,\beta)\le max\ \Gamma(\alpha,\beta)=:d\le p Γ(α,β)max Γ(α,β)=:dp,即对偶函数给出了主问题目标函数最优值的下界。

第02题 最大间隔模型

题目

描述二分类问题的设定,构建支持向量机的经典的最大间隔模型,并计算其对偶模型。

答案

描述:二分类问题即给定一个样本作为输入,输出的结果只有两种:该样本为正样本或该样本为负样本。
最大间隔模型构建:
给定训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \} D={(x1,y1),(x2,y2),...,(xm,ym)} y i ∈ { − 1 , + 1 } , y_i\in \left \{ -1,+1 \right \}, yi{1,+1},支持向量机试图找到恰好位于两类训练样本“正中间”的划分超平面: w T x + b = 0 w^Tx+b=0 wTx+b=0
样本点 x i x_i xi到超平面 w T x + b = 0 w^Tx+b=0 wTx+b=0的距离为 d ( x i ) d(x_i) d(xi)
d ( x i ) = ∣ w T x i + b ∣ ∥ w ∥ = y i ( w T ⋅ x i + b ) ∥ w ∥ d(x_i)=\frac{\left | w^Tx_i+b \right | }{\left \| w \right \| }=\frac{y_i(w^T·x_i+b)}{\left \| w \right \| } d(xi)=wwTxi+b=wyi(wTxi+b)
距离超平面最近的几个训练样本为支持向量,两异类支持向量到超平面的距离之和 2 ∥ w ∥ \frac{2}{\left \| w \right \| } w2为间隔,记为 r r r
最大间隔模型
m a x   r = d m i n − + d m i n + s . t . d m i n − = d m i n +    y i ( w T x i + b ) > 0 \begin{aligned} &max\ r = d^-_{min}+d^+_{min} \\&s.t. \quad \quad d^-_{min}=d^+_{min} \\& \quad \quad \quad \ \ y_i(w^Tx_i+b)>0 \end{aligned} max r=dmin+dmin+s.t.dmin=dmin+  yi(wTxi+b)>0由前知, d = y i ( w T x i + b ) ∥ w ∥ d=\frac{y_i(w^Tx_i+b)}{\left \| w \right \| } d=wyi(wTxi+b),存在一个 ϵ > 0 \epsilon>0 ϵ>0,满足 y i ( w T x i + b ) ≥ ϵ y_i(w^Tx_i+b)\ge \epsilon yi(wTxi+b)ϵ,所求最大间隔转化为
m a x w , b 2 ϵ ∥ w ∥ s . t . y i ( w T x i + b ) ≥ ϵ , ∀ x i \begin{aligned} &\underset{w,b}{max} \quad \frac{2\epsilon}{\left \| w \right \| } \\&s.t. \quad y_i(w^Tx_i+b)\ge \epsilon,\forall x_i \end{aligned} w,bmaxw2ϵs.t.yi(wTxi+b)ϵ,xi w ^ = w ϵ \hat{w} =\frac{w}{\epsilon} w^=ϵw b ^ = b ϵ \hat{b} =\frac{b}{\epsilon} b^=ϵb
m i n w ^ , b ^   ∥ w ^ ∥ 2 2 s . t .   y i ( w ^ T x i + b ^ ) ≥ 1 \begin{aligned} & \underset{\hat{w},\hat{b} }{min} \ \frac{\left \| \hat{w} \right \|^2 }{2} \\ & s.t. \ y_i(\hat{w} ^Tx_i+\hat{b} )\ge 1 \end{aligned} w^,b^min 2w^2s.t. yi(w^Txi+b^)1令其拉格朗日函数为
L ( w ^ , b ^ , α ) = ∥ w ∥ 2 2 + ∑ i = 1 m α i ( 1 − y i ( w ^ T ⋅ x i + b ^ ) ) \mathcal{L}(\hat{w},\hat{b},\alpha) = \frac{\left \| w \right \|^2 }{2}+\sum_{i=1}^{m}\alpha_i(1-y_i(\hat{w}^{T}· x_i+\hat{b} )) L(w^,b^,α)=2w2+i=1mαi(1yi(w^Txi+b^))
其中 m m m为样本个数, α = [ α 1 , α 2 , . . . , α m ] T , α i ≥ 0 , m > 0 \alpha =\left [ \alpha_1,\alpha_2,...,\alpha_m \right ]^T,\alpha_i\ge0,m >0 α=[α1,α2,...,αm]T,αi0,m>0
L ( w ^ , b ^ , α ) \mathcal{L}(\hat{w},\hat{b},\alpha) L(w^,b^,α) w ^ \hat{w} w^ b ^ \hat{b} b^的偏导为0,可得
{ ∑ i = 1 m α i ⋅ y i ⋅ x i = w ^ ① ∑ i = 1 m α i ⋅ y i = 0 ② \left\{\begin{matrix} \sum_{i=1}^{m}\alpha_i·y_i·x_i = \hat{w} & ①\\ \sum_{i=1}^{m} \alpha_i·y_i=0 &② \end{matrix}\right. {i=1mαiyixi=w^i=1mαiyi=0将①代入拉格朗日函数 L ( w ^ , b ^ , α ) \mathcal{L}(\hat{w},\hat{b},\alpha) L(w^,b^,α),并考虑②的约束,即得原问题的对偶问题
m i n α 1 2 ∑ i = 1 m ∑ j = 1 m α i ⋅ α j ⋅ y i ⋅ y j ⋅ x i T ⋅ x j − ∑ i = 1 m α i s . t . ∑ i = 1 m α i ⋅ y i = 0 α i ≥ 0   ( i ∈ [ m ] ) \begin{aligned} &\underset{\alpha}{min} \quad \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i·\alpha_j·y_i·y_j·x_i^T·x_j-\sum_{i=1}^{m}\alpha_i \\& s.t. \quad \sum_{i=1}^{m}\alpha_i·y_i=0 \\ & \quad \quad \quad \alpha_i \ge 0 \ (i\in[m]) \end{aligned} αmin21i=1mj=1mαiαjyiyjxiTxji=1mαis.t.i=1mαiyi=0αi0 (i[m])
上述过程满足KKT条件
{ ∑ i = 1 m α i ⋅ y i ⋅ x i = w ^ ∑ i = 1 m α i ⋅ y i = 0 α i ≥ 0 y i ( w ^ T ⋅ x i + b ^ ) − 1 ≥ 0 α i ( y i ( w ^ T ⋅ x i + b ^ ) − 1 ) = 0 \left\{\begin{aligned} & \sum_{i=1}^{m}\alpha_i·y_i·x_i=\hat{w} \\ & \sum_{i=1}^{m}\alpha_i·y_i=0 \\ & \alpha_i \ge 0 \\ & y_i(\hat{w}^T·x_i+\hat{b})-1 \ge0 \\ & \alpha_i(y_i(\hat{w}^T·x_i+\hat{b})-1) = 0 \end{aligned}\right. i=1mαiyixi=w^i=1mαiyi=0αi0yi(w^Txi+b^)10αi(yi(w^Txi+b^)1)=0

第03题 不可知PAC可学

题目

给出不可知PAC可学的定义,要求给出每一个要素的数学表达

答案

首先给出不可知PAC可学的相关要素数学表达。

  1. 考虑样本空间 X \mathcal{X} X和标记空间 Y \mathcal{Y} Y;
  2. x x x:给定样本集 S = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } S=\left \{ (x_{1},y_{1} ),(x_{2},y_{2} ),...,(x_{m},y_{m} ) \right \} S={(x1,y1),(x2,y2),...,(xm,ym)} x i ∈ X x_i\in \mathcal{X} xiX;
  3. D \mathcal{D} D:假设 D \mathcal{D} D X × Y \mathcal{X}\times\mathcal{Y} X×Y上的联合分布, S S S中所有样本都是独立同分布从 D \mathcal{D} D采样而得;
  4. c c c:令 c c c表示概念,是从样本空间 X \mathcal{X} X到标记空间 Y \mathcal{Y} Y的映射,决定样本 x x x的真实标记 y y y;
  5. L , H , h \mathfrak{L},\mathcal{H},h L,H,h:给定学习算法 L \mathfrak{L} L,它所考虑的所有可能概念的集合成为假设空间(hypothesisspace),用符号 H \mathcal{H} H表示。对 h ∈ H h\in\mathcal{H} hH,由于学习算法事先不知道它是否真是目标概念,因此称为假设。
  6. E ( h ) E(h) E(h):令 h h h为从 X \mathcal{X} X Y \mathcal{Y} Y的一个映射,其泛化误差(generalization error)为 E ( h ; D ) = P ( x , y ) ∼ D ( h ( x ) ≠ y ) = E ( x , y ) ∼ D [ I ( h ( x ) ≠ y ) ] , E(h;\mathcal{D})=P_{(x,y)\sim\mathcal{D}}(h(x)\ne y)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left [ \mathbb{I}(h(x)\ne y) \right ] , E(h;D)=P(x,y)D(h(x)=y)=E(x,y)D[I(h(x)=y)],其中 I ( x ) \mathbb{I(x)} I(x)表示判断函数;
  7. ϵ , δ \epsilon,\delta ϵ,δ: ϵ \epsilon ϵ为假设的精度,为 E ( h ) E(h) E(h)的上限,即 E ( h ) ≤ ϵ E(h)\le\epsilon E(h)ϵ,通常用 ϵ \epsilon ϵ表示预先设定的学得模型所应满足的误差要求,亦称误差参数. δ \delta δ为置信度,一般取 δ = 2 e x p ( − 2 m ϵ 2 ) \delta=2exp(-2m\epsilon^2) δ=2exp(2mϵ2)

有时 c ∉ H c \notin \mathcal{H} c/H,即学习算法无法学得目标概念的 ϵ \epsilon ϵ近似,但必存在一个泛化误差最小的假设,以此为目标可将PAC学习推广到 c ∉ H c \notin \mathcal{H} c/H的情况,称为不可知PAC学习。

D e f i n e Define Define 不可知PAC可学:令 m m m表示从分布 D \mathcal{D} D独立分布采样得到的样本数目, 0 < ϵ 0<\epsilon 0<ϵ δ < 1 \delta<1 δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 L \mathfrak{L} L和多项式函数 p o l y ( ⋅ , ⋅ , ⋅ , ⋅ ) poly(·,·,·,·) poly(,,,),使得对于任何 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m\ge poly(1/\epsilon,1/\delta ,size(x),size(c)) mpoly(1/ϵ,1/δ,size(x),size(c)) L \mathfrak{L} L能从假设空间 H \mathcal{H} H中输出满足(3.1)的假设 h h h
P ( E ( h ) − m i n h ′ ∈ H E ( h ′ ) ≤ ϵ ) ≥ 1 − δ , P(E(h)-\underset{h'\in\mathcal{H}}{min} E(h')\le \epsilon )\ge 1-\delta, P(E(h)hHminE(h)ϵ)1δ,则称假设空间 H \mathcal{H} H是不可知PAC可学的。

  • 样本复杂度:满足PAC学习算法 L \mathfrak{L} L所需的 m ≥ p o l y ( 1 / ϵ , 1 / δ , s i z e ( x ) , s i z e ( c ) ) m\ge poly(1/\epsilon,1/\delta ,size(x),size(c)) mpoly(1/ϵ,1/δ,size(x),size(c))中最小的 m m m,称为学习算法 L \mathfrak{L} L的样本复杂度。

第04题 二分类VC维

题目

给出二分类问题假设空间的VC维定义,要求详细给出每一个要素的数学表达

答案

首先给出与VC维定义相关要素的数学表达

  1. H , m \mathcal{H},m H,m:令 H \mathcal{H} H表示假设空间,其中的假设是从 X \mathcal{X} X Y = { − 1 , + 1 } \mathcal{Y}=\left \{ -1,+1 \right \} Y={1,+1}的映射,对于样本集 S = { x 1 , x 2 , . . . , x m } ⊂ X S=\left \{ x_1,x_2,...,x_m \right \}\subset \mathcal{X} S={x1,x2,...,xm}X H \mathcal{H} H在样本集 S S S上的限制是 S S S从到 { − 1 , + 1 } m \left \{ -1,+1 \right \}^m {1,+1}m的一族映射: H ∣ S = { ( h ( x 1 ) , . . . , h ( x m ) ) ∣ h ∈ H } , \mathcal{H}_{|S}=\left \{ (h(x_1),...,h(x_m))|h\in \mathcal{H} \right \} , HS={(h(x1),...,h(xm))hH},其中 h h h S S S上的限制是一个 m m m维向量。
  2. Π H ( m ) \Pi _\mathcal{H}(m) ΠH(m):对 m ∈ N m\in \mathbb{N} mN,假设空间 H \mathcal{H} H的增长函数 Π H ( m ) \Pi _\mathcal{H}(m) ΠH(m)表示为 Π H ( m ) = m a x { x 1 , x 2 , . . . , x m } ⊂ X ∣ { ( h ( x 1 ) , . . . , h ( x m ) ) ∣ h ∈ H } ∣ , \Pi _\mathcal{H}(m)=\underset{\left \{ x_1,x_2,...,x_m \right \}\subset \mathcal{X} }{max} \left | \left \{ (h(x_1),...,h(x_m))|h\in \mathcal{H} \right \} \right |, ΠH(m)={x1,x2,...,xm}Xmax{(h(x1),...,h(xm))hH},对于大小为 m m m的样本集 S S S,有 Π H ( m ) = m a x ∣ S ∣ = m ∣ H ∣ S ∣ \Pi _\mathcal{H}(m)=\underset{|S|=m}{max} |\mathcal{H}_{|S} | ΠH(m)=S=mmaxHS
  3. 对分&打散:对于二分类问题,对 m m m个样本最多有个 2 m 2^m 2m可能的结果,假设空间 H \mathcal{H} H中的假设对 S S S中的样本赋予标记的每种可能结果称为对 S S S的一种对分(dichotomy)。如果假设空间 H \mathcal{H} H能实现样本集 S S S上的所有对分,即 ∣ H ∣ S ∣ = 2 m |\mathcal{H}_{|S}|=2^m HS=2m,则称样本集 S S S能被假设空间 H \mathcal{H} H打散,此时 Π H ( m ) = 2 m \Pi _\mathcal{H}(m)=2^m ΠH(m)=2m

D e f i n e Define Define VC维:假设空间 H \mathcal{H} H的VC维是能被 H \mathcal{H} H打散的最大样本集的大小,即 V C ( H ) = m a x { m : Π H ( m ) = 2 m } , VC(\mathcal{H})=max\left \{ m:\Pi _\mathcal{H}(m) =2^m\right \}, VC(H)=max{m:ΠH(m)=2m}, V C ( H ) = d VC(\mathcal{H})=d VC(H)=d表明存在大小为 d d d的样本集都能被假设空间 H \mathcal{H} H打散。

第05题 Rademacher复杂度

题目

给出实数值函数空间的Rademacher复杂度的定义,要求详细给出每一个要素的数学表达。

答案

首先我们给出Rademacher复杂度的相关要素表达。

考虑实值函数空间 F : Z ↦ R \mathcal{F}:\mathcal{Z} \mapsto \mathbb{R} F:ZR,令样本集 S = { s 1 , s 2 , . . . , s m } S=\left \{ s_1,s_2,...,s_m \right \} S={s1,s2,...,sm},其中 s i ∈ Z s_i\in \mathcal{Z} siZ.
给定数据集 S = { ( s 1 , y 1 ) , . . . , ( s m , y m ) } S=\left \{ (s_1,y_1),...,(s_m,y_m) \right \} S={(s1,y1),...,(sm,ym)} f ∈ F f\in \mathcal{F} fF的经验误差为
E ^ ( f ) = 1 m ∑ i = 1 m I ( f ( s i ) ≠ y i ) = 1 m ∑ i = 1 m 1 − y i f ( s i ) 2 = 1 2 − 1 2 m ∑ i = 1 m y i f ( s i ) , \begin{aligned} \hat{E }(f) & = \frac{1}{m}\sum_{i=1}^{m} \mathbb{I}(f(s_i)\ne y_i) \\& =\frac{1}{m}\sum_{i=1}^{m} \frac{1-y_if(s_i)}{2} \\& =\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m} y_if(s_i) , \end{aligned} E^(f)=m1i=1mI(f(si)=yi)=m1i=1m21yif(si)=212m1i=1myif(si),其中 1 m ∑ i = 1 m y i f ( s i ) \frac{1}{m}\sum_{i=1}^{m} y_if(s_i) m1i=1myif(si)体现了预测值 f ( s i ) f(s_i) f(si)与样本真实标记 y i y_i yi之间的一致性。若 ∀ i ∈ [ m ] \forall i\in \left [ m \right ] i[m] f ( s i ) = y i f(s_i)=y_i f(si)=yi,则 1 m ∑ i = 1 m y i f ( s i ) \frac{1}{m}\sum_{i=1}^{m} y_if(s_i) m1i=1myif(si)取得最大值1,也就是说具有最小经验误差的假设是
a r g   m a x f ∈ F 1 m ∑ i = 1 m y i f ( s i ) , \underset{f\in \mathcal{F} }{arg\ max} \frac{1}{m}\sum_{i=1}^{m} y_if(s_i), fFarg maxm1i=1myif(si),现实任务中样本的标记有时会受到噪声的影响,考虑随机变量 σ i \sigma _i σi,它以0.5的概率取值+1,以0.5的概率取值-1,称其为Rademaher随机变量。基于 σ i \sigma _i σi可将上述公式改写为 s u p f ∈ F 1 m ∑ i = 1 m σ i f ( s i ) sup_{f\in \mathcal{F}}\frac{1}{m}\sum_{i=1}^{m} \sigma_i f(s_i) supfFm1i=1mσif(si)
σ = ( σ 1 ; . . . ; σ m ) \sigma=(\sigma_1;...;\sigma_m) σ=(σ1;...;σm),函数空间 F \mathcal{F} F关于 S S S的经验Rademacher复杂度为
R ^ S ( F ) = E σ [ s u p f ∈ F 1 m ∑ i = 1 m σ i f ( s i ) ] , \hat{\mathfrak{R} } _S(\mathcal{F})=\mathbb{E}_{\sigma}\left [ \underset{f\in \mathcal{F}}{sup}\frac{1}{m}\sum_{i=1}^{m} \sigma_i f(s_i) \right ], R^S(F)=Eσ[fFsupm1i=1mσif(si)],
相较于给定的 S S S,我们通常更加关心 S S S服从分布 D \mathcal{D} D时函数空间的复杂度。
因此,函数空间 F \mathcal{F} F关于 Z \mathcal{Z} Z在分布 D \mathcal{D} D上的Rademacher复杂度为
R m ( F ) = E S ⊂ Z : ∣ S ∣ = m [ R ^ S ( F ) ] . \mathfrak{R}_m(\mathcal{F} ) =\mathbb{E} _{S\subset \mathcal{Z}:|S|=m }\left [ \hat{\mathfrak{R}} _S(\mathcal{F}) \right ]. Rm(F)=ESZ:S=m[R^S(F)].*在Rademacher复杂度定义中, σ i \sigma_i σi { − 1 , + 1 } \left \{ -1,+1 \right \} {1,+1}上服从均匀分布的随机变量。

第06题 稳定性

题目

给出替换样本均匀稳定性、移除样本均匀稳定性、替换样本假设稳定性、移除样本假设稳定性的定义,要求详细给出每一个要素的数学表达。

答案

首先给出与算法稳定性定义相关的要素与表达。

  1. 考虑样本空间 X \mathcal{X} X和标记空间 Y \mathcal{Y} Y;
  2. D \mathcal{D} D是空间 X × Y \mathcal{X}\times\mathcal{Y} X×Y上的一个联合分布;
  3. 训练集 S = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } S=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right\} S={(x1,y1),(x2,y2),...,(xm,ym)}基于独立同分布采样所得,记 z = ( x , y ) z=(x,y) z=(x,y);
  4. z ′ ∼ D z'\sim \mathcal{D} zD,为符合联合分布 D \mathcal{D} D中一个样本 ( x ′ , y ′ ) ∈ X × Y . (x',y')\in\mathcal{X}\times\mathcal{Y}. (x,y)X×Y.
  5. 给定学习算法 L \mathfrak{L} L,令 L S : X ↦ Y \mathfrak{L}_S: \mathcal{X}\mapsto \mathcal{Y} LS:XY表示基于训练集 S S S学习所得的输出函数,记输出函数对应的标记空间为 Y ′ \mathcal{Y'} Y;
  6. 设损失函数 ℓ : Y ′ × Y ↦ R + \ell:\mathcal{Y'}\times\mathcal{Y}\mapsto\mathbb{R}_+ :Y×YR+,对样本 z z z ℓ ( L S , z ) = ℓ ( L S ( x ) , y ) \ell(\mathfrak{L}_S,z)=\ell(\mathfrak{L}_S(x),y) (LS,z)=(LS(x),y);
  7. 在稳定性研究中,一般考虑训练集 S S S的两种扰动:移除样本和替换样本,其定义如下:
    7.1 S ∖ i S^{\setminus i} Si表示移除训练集 S S S中第 i i i个样本而得到的数据集,即 S ∖ i = { z 1 , z 2 , . . . , z i − 1 , z i + 1 , . . . , z m } S^{\setminus i}=\left \{ z_1,z_2,...,z_{i-1},z_{i+1},...,z_m \right \} Si={z1,z2,...,zi1,zi+1,...,zm}
    7.2 S i , z i ′ S^{ i,z'_i} Si,zi表示将训练集 S S S中第 i i i个样本 z i = ( x i , y i ) z_i=(x_i,y_i) zi=(xi,yi)替换为 z i ′ = ( x i ′ , y i ′ ) z'_i=(x'_i,y'_i) zi=(xi,yi)所得的数据集,即 S i , z i ′ = { z 1 , z 2 , . . . , z i − 1 , z i ′ , z i + 1 , . . . , z m } S^{ i,z'_i}=\left \{ z_1,z_2,...,z_{i-1},z'_i,z_{i+1},...,z_m\right \} Si,zi={z1,z2,...,zi1,zi,zi+1,...,zm}

D e f i n e 1 Define1 Define1 替换样本均匀稳定性:对任意数据集 S S S和样本 z , z ′ ∈ X × Y z,z'\in\mathcal{X}\times\mathcal{Y} z,zX×Y ,若学习算法 L \mathfrak{L} L满足
∣ ℓ ( L S , z ) − ℓ ( L S i , z ′ , z ) ∣ ≤ β ( i ∈ [ m ] ) , \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{i,z'}} ,z) \right | \le \beta \quad (i\in \left [ m \right ] ), (LS,z)(LSi,z,z)β(i[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell 的替换样本 β \beta β-均匀稳定性.

D e f i n e 2 Define2 Define2 移除样本均匀稳定性:对任意数据集 S S S和样本 z ∈ X × Y z\in \mathcal{X} \times \mathcal{Y} zX×Y,若学习算法 L \mathfrak{L} L满足
∣ ℓ ( L S , z ) − ℓ ( L S ∖ i , z ) ∣ ≤ γ ( i ∈ [ m ] ) , \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{\setminus i}} ,z) \right | \le \gamma \quad (i\in \left [ m \right ] ), (LS,z)(LSi,z)γ(i[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell 的移除样本 γ \gamma γ-均匀稳定性.

考虑到均匀稳定性要求对任意的数据集 S S S和样本 z z z D e f i n e 1 Define1 Define1 D e f i n e 2 Define2 Define2成立,这是一个较强的条件.我们适当放松这个条件:对数据集 S S S和样本 z z z取期望,在期望条件下考虑训练集的扰动对算法输出函数的影响,就产生了如下的假设稳定性.

D e f i n e 3 Define3 Define3 替换样本假设稳定性(hypothesis stability):若学习算法 L \mathfrak{L} L满足
E S , z i ′ ∼ D m + 1 [ ∣ ℓ ( L S , z ) − ℓ ( L S i , z ′ , z ) ∣ ] ≤ β ( i ∈ [ m ] ) , \mathbb{E}_{S,z_{i}'\sim\mathcal{D}^{m+1} } \left [ \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{i,z'}} ,z) \right | \right ] \le \beta \quad (i\in \left [ m \right ] ), ES,ziDm+1[(LS,z)(LSi,z,z)]β(i[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell 的替换样本 β \beta β-假设稳定性.

D e f i n e 4 Define4 Define4 移除样本假设稳定性:若学习算法 L \mathfrak{L} L满足
E S , z ∼ D m [ ∣ ℓ ( L S , z ) − ℓ ( L S ∖ i , z ) ∣ ] ≤ γ ( i ∈ [ m ] ) , \mathbb{E}_{S,z\sim\mathcal{D}^{m} } \left [ \left | \ell (\mathfrak{L}_{S} ,z)-\ell (\mathfrak{L}_{S^{\setminus i}} ,z) \right | \right ] \le \gamma \quad (i\in \left [ m \right ] ), ES,zDm[(LS,z)(LSi,z)]γ(i[m]),
则称算法 L \mathfrak{L} L满足关于损失函数 ℓ \ell 的移除样本 γ \gamma γ-假设稳定性.

第07题 hinge函数

题目

给出基于 h i n g e hinge hinge函数的支持向量机、基于 ϵ \epsilon ϵ不敏感的支持向量回归、基于平方函数的岭回归三类模型的定义,要求详细给出每一个要素的数学表达。

答案

对样本空间 X ⊆ R d \mathcal{X} \subseteq \mathbb{R} ^d XRd,标记空间 Y = { − 1 , + 1 } \mathcal{Y} =\left \{ -1,+1 \right \} Y={1,+1},以及训练集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\left \{ (x_1,y_1),(x_2,y_2),...,(x_m,y_m) \right \} D={(x1,y1),(x2,y2),...,(xm,ym)}

给定样本 ( x , y ) ∈ X × Y (x,y)\in \mathcal{X}\times \mathcal{Y} (x,y)X×Y w ∈ R d w\in \mathbb{R}^d wRd

D e f i n e 1 Define1 Define1 基于hinge函数的支持向量机
考虑hinge函数 ℓ h i n g e ( w , ( x , y ) ) = m a x ( 0 , 1 − y w T x ) \ell _{hinge}(w,(x,y))=max(0,1-yw^Tx) hinge(w,(x,y))=max(0,1ywTx)目标函数
F D ( w ) = 1 m ∑ i = 1 m m a x ( 0 , 1 − y i w T x i ) + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}max(0,1-y_iw^Tx_i)+\lambda \left \| w \right \| ^2 FD(w)=m1i=1mmax(0,1yiwTxi)+λw2其中 w ∈ R d w\in \mathbb{R} ^d wRd λ \lambda λ为正则化参数。

D e f i n e 2 Define2 Define2 基于 ϵ \epsilon ϵ-不敏感函数的支持向量回归
考虑 ϵ \epsilon ϵ-不敏感函数
ℓ ϵ ( w , ( x , y ) ) = { 0 i f ∣ w T x − y ∣ ≤ ϵ ∣ w T x − y ∣ − ϵ i f ∣ w T x − y ∣ > ϵ \ell_{\epsilon}(w,(x,y))=\left\{\begin{matrix} 0 & if \left | w^Tx-y \right |\le \epsilon \\ \left | w^Tx-y \right |- \epsilon & if \left | w^Tx-y \right | > \epsilon \end{matrix}\right. ϵ(w,(x,y))={0wTxyϵifwTxyϵifwTxy>ϵ
目标函数 F D ( w ) = 1 m ∑ i = 1 m ℓ ϵ ( w , ( x i , y i ) ) + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}\ell_{\epsilon}(w,(x_i,y_i))+\lambda \left \| w \right \| ^2 FD(w)=m1i=1mϵ(w,(xi,yi))+λw2
其中 w ∈ R d w\in \mathbb{R} ^d wRd λ \lambda λ为正则化参数。

D e f i n e 3 Define3 Define3 基于平方函数的岭回归模型的定义
考虑平方函数 ℓ 2 ( w , ( x , y ) ) = ( w T x − y ) 2 \ell_2(w,(x,y))=(w^Tx-y)^2 2(w,(x,y))=(wTxy)2
考虑线性岭回归,目标函数: F D ( w ) = 1 m ∑ i = 1 m ( w T x i − y i ) T + λ ∥ w ∥ 2 F_D(w)=\frac{1}{m}\sum_{i=1}^{m}(w^Tx_i-y_i)^T+\lambda \left \| w \right \|^2 FD(w)=m1i=1m(wTxiyi)T+λw2其中 w ∈ R d w\in \mathbb{R} ^d wRd λ \lambda λ为正则化参数。

第08题 一致性

题目

给出二分类问题算法一致性的定义,要求相信给出每一个要素的数学表达。

答案

首先给出算法一致性相关要素的数学表达。
考虑样本空间 X ⊆ R d \mathcal{X}\subseteq \mathbb{R}^d XRd和标记空间 Y = { − 1 , + 1 } \mathcal{Y}=\left \{ -1,+1 \right \} Y={1,+1},假设 D \mathcal{D} D X × Y \mathcal{X}\times\mathcal{Y} X×Y上的联合分布,对分类器 h : X ↦ Y h:\mathcal{X}\mapsto\mathcal{Y} h:XY,可定义分类器 h h h在分布 D \mathcal{D} D上的分类错误率为泛化风险,即
R ( h ) = P ( x , y ) ∼ D ( h ( x ) ≠ y ) = E ( x , y ) ∼ D [ I ( h ( x ) ≠ y ] R(h)=P_{(x,y)\sim\mathcal{D}}(h(x)\ne y)=\mathbb{E}_{(x,y)\sim\mathcal{D}}\left [ \mathbb{I}(h(x)\ne y\right ] R(h)=P(x,y)D(h(x)=y)=E(x,y)D[I(h(x)=y]。这里 I ( ⋅ ) \mathbb{I}(·) I()为指示函数。
在分布 D \mathcal{D} D上取得最小错误率的分类器,我们称之为贝叶斯最优分类器,用 h ∗ h^* h表示,即 h ∗ ∈ a r g m i n h { R ( h ) } . h^*\in argmin_h\left \{ R(h) \right \}. hargminh{R(h)}.贝叶斯最优分类器的泛化风险被称为贝叶斯风险,记为
R ∗ = R ( h ∗ ) = m i n h { R ( h ) } R^*=R(h^*)=\underset{h}{min}\left \{ R(h) \right \} R=R(h)=hmin{R(h)}一致性理论研究随着训练数据规模的不断增加,甚至趋于无穷的极限过程中,通过训练集学得的分类器的泛化风险是否趋于贝叶斯风险。
一致性的定义:当 m ⟶ + ∞ m\longrightarrow +\infty m+时,若学习算法 A A A满足
E D m ∼ D m [ R ( L D m ) ] ⟶ R ( h ∗ ) , \mathbb{E}_{D_{m}\sim \mathcal{D}^m }\left [ R(\mathfrak{L}_{D_{m}} ) \right ]\longrightarrow R(h^*), EDmDm[R(LDm)]R(h),则称学习算法具有一致性。

第09题 固定步长梯度

题目

对于凸优化问题 m i n W   f ( x ) , \underset{\mathcal{W} }{min} \ f(x), Wmin f(x),给出固定步长梯度下降法的基本流程。证明:若目标函数是 α − L i p s c h i t z \alpha -Lipschitz αLipschitz连续函数,并且 W \mathcal{W} W是有界的,那么固定步长梯度下降的收敛率 O ( 1 / T ) O(1/\sqrt{T}) O(1/T ).

答案

对于一般的凸优化问题,可以采用梯度下降达到 O ( 1 / T ) O(1/\sqrt{T}) O(1/T )的收敛率,其基本流程如下:

  1. 任意初始化 w 1 ∈ W w_1\in \mathcal{W} w1W;
  2. f o r t = 1 , . . . , T d o for \quad t=1,...,T \quad do fort=1,...,Tdo
  3. 梯度下降: w t + 1 ′ = w t − η t ∇ f ( w t ) w'_{t+1}=w_t-\eta _t\nabla f(w_t) wt+1=wtηtf(wt);
  4. 投影: w t + 1 = Π W ( w t + 1 ′ ) w_{t+1}=\Pi _{\mathcal{W}}(w'_{t+1}) wt+1=ΠW(wt+1);
  5. end for
  6. 返回 w ˉ T = 1 T ∑ t = 1 T w t \bar{w} _T=\frac{1}{T} {\textstyle \sum_{t=1}^{T}}w_t wˉT=T1t=1Twt

其中, η t \eta_t ηt为步长。投影操作的定义为
Π W ( z ) = a r g m i n x ∈ W   ∥ x − z ∥ \Pi _\mathcal{W}(z) = \underset{x\in \mathcal{W}}{argmin} \ \left \| x-z \right \| ΠW(z)=xWargmin xz定理 梯度下降收敛率 若目标函数是 α − L i p s c h i t z \alpha -Lipschitz αLipschitz连续函数,并且 W \mathcal{W} W是有界的,那么固定步长梯度下降的收敛率 O ( 1 / T ) O(1/\sqrt{T}) O(1/T )
证明 假设可行域 W \mathcal{W} W直径为 Γ \Gamma Γ,并且目标函数满足 α − L i p s c h i t z \alpha-Lipschitz αLipschitz连续,即对于任意 u , v ∈ W u,v\in \mathcal{W} u,vW ∥ u − v ∥ ≤ Γ , ∥ ∇ f ( u ) ∥ ≤ l . \left \| u-v \right \| \le \Gamma,\left \| \nabla f(u) \right \| \le l. uvΓ,f(u)l.为了简化分析,考虑固定的步长 η t = η \eta _t=\eta ηt=η。对于任意的 w ∈ W w\in \mathcal{W} wW f ( w t ) − f ( w ) ≤ ⟨ ∇ f ( w t ) , w t − w ⟩ = 1 η ⟨ w t − w t + 1 ′ , w t − w ⟩ = 1 2 η ( ∥ w t − w ∥ ) 2 − ∥ w t + 1 ′ − w ∥ 2 + ∥ w t − w t + 1 ′ ∥ 2 ) = 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 ) + η 2 ∥ ∇ f ( w t ) ∥ 2 ≤ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 ∥ ∇ f ( w t ) ∥ 2 \begin{aligned} f(w_t)-f(w)\le \left \langle \nabla f(w_t),w_t-w \right \rangle & = \frac{1}{\eta}\left \langle w_t-w'_{t+1},w_t-w \right \rangle\\ & = \frac{1}{2\eta} (\left \| w_t-w \right \| )^2-\left \| w'_{t+1}-w \right \|^2+\left \| w_t-w'_{t+1} \right \|^2 )\\ & = \frac{1}{2\eta} (\left \| w_t-w \right \| ^2-\left \| w'_{t+1}-w \right \|^2)+\frac{\eta}{2}\left \| \nabla f(w_t) \right \|^2 \\ & \le \frac{1}{2\eta} (\left \| w_t-w \right \| ^2-\left \| w_{t+1}-w \right \|^2)+\frac{\eta}{2}\left \| \nabla f(w_t) \right \|^2 \end{aligned} f(wt)f(w)f(wt),wtw=η1wtwt+1,wtw=2η1(wtw)2wt+1w2+wtwt+12)=2η1(wtw2wt+1w2)+2ηf(wt)22η1(wtw2wt+1w2)+2ηf(wt)2
最后一个不等号利用了凸集合投影操作的非扩展性质:
∥ Π W ( x ) − Π W ( z ) ∥ ≤ ∥ x − z ∥ , ∀ x , z . \left \| \Pi _{\mathcal{W}}(x)-\Pi _{\mathcal{W}}(z) \right \| \le\left \| x-z \right \|,\forall x,z. ΠW(x)ΠW(z)xz,x,z.
注意到目标函数满足 α − \alpha- αLipschitz连续,由上述两个式子可得
f ( w t ) − f ( w ) ≤ 1 2 η ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η 2 l 2 f(w_t)-f(w)\le \frac{1}{2\eta}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2) +\frac{\eta}{2}l^2 f(wt)f(w)2η1(wtw2wt+1w2)+2ηl2
对上述从 t = 1 t=1 t=1 T T T求和,有
∑ t = 1 T f ( w t ) − T f ( w ) ≤ 1 2 η ( ∥ w 1 − w ∥ 2 − ∥ w T + 1 − w ∥ 2 ) + η T 2 l 2 ≤ 1 2 η ∥ w 1 − w ∥ 2 + η T 2 l 2 ≤ 1 2 η Γ 2 + η T 2 l 2 . \begin{aligned} \sum_{t=1}^{T}f(w_t)-Tf(w) & \le \frac{1}{2\eta}(\left \| w_1-w \right \|^2-\left \| w_{T+1}-w \right \|^2)+\frac{\eta T}{2}l^2\\ & \le \frac{1}{2\eta}\left \| w_1-w \right \|^2+\frac{\eta T}{2}l^2 \le \frac{1}{2\eta}\Gamma^2+\frac{\eta T}{2}l^2. \end{aligned} t=1Tf(wt)Tf(w)2η1(w1w2wT+1w2)+2ηTl22η1w1w2+2ηTl22η1Γ2+2ηTl2.
最后依据Jensen不等式可得 f ( w ˉ T ) − f ( w ) = f ( 1 T ∑ t = 1 T w t ) − f ( w ) ≤ 1 T ∑ t = 1 T f ( w t ) − f ( w ) ≤ Γ 2 2 η T + η l 2 2 . \begin{aligned} f(\bar{w}_T)-f(w)& =f(\frac{1}{T}\sum_{t=1}^{T}w_t)-f(w) \\ & \le \frac{1}{T}\sum_{t=1}^{T}f(w_t)-f(w) \le \frac{\Gamma^2}{2\eta T}+\frac{\eta l^2}{2}. \end{aligned} f(wˉT)f(w)=f(T1t=1Twt)f(w)T1t=1Tf(wt)f(w)2ηTΓ2+2ηl2.
因此, f ( w ˉ T ) − m i n w ∈ W   f ( w ) ≤ Γ 2 2 η T + η l 2 2 = l Γ T = O ( 1 T ) . f(\bar{w}_T)-\underset{w \in \mathcal{W}}{min} \ f(w) \le \frac{\Gamma^2}{2\eta T}+\frac{\eta l^2}{2}=\frac{l\Gamma}{\sqrt{T}}=O(\frac{1}{\sqrt{T}}). f(wˉT)wWmin f(w)2ηTΓ2+2ηl2=T lΓ=O(T 1).
其中步长设置为 η = Γ / ( l T ) . \eta=\Gamma/(lT). η=Γ/(lT).定理得证。

*Jensen不等式,定义对任意凸函数 f ( ⋅ ) f(·) f(),有 f ( E [ X ] ) ≤ E [ f ( X ) ] . f(\mathbb{E}[X]) \le \mathbb{E}[f(X)]. f(E[X])E[f(X)].由Jensen不等式可知 ( E [ X ] ) 2 ≤ E [ X ] 2 . (\mathbb{E}[X])^2\le \mathbb{E}[X]^2. (E[X])2E[X]2.

第10题 在线梯度与遗憾界

题目

对于在线凸优化问题,给出在线梯度下降法的基本流程。证明:若目标函数是 α \alpha α-Lipschitz连续函数,并且定义域 W W W是有界的,那么在线梯度下降的遗憾界 O ( T ) O(\sqrt{T}) O(T ).

答案

在线梯度下降基本流程

  1. 任意初始化 w 1 ∈ W w_1\in \mathcal{W} w1W;
  2. f o r   t = 1 , . . . , T   d o for\ t=1,...,T\ do for t=1,...,T do
  3. 学习器从解空间 W \mathcal{W} W选择决策 w t w_t wt;同时,对手选择一个损失函数 f t ( ⋅ ) : W ↦ R f_t(·): \mathcal{W}\mapsto\mathbb{R} ft():WR;
  4. 学习器观测到损失函数 f t ( ⋅ ) f_t(·) ft(),并遭受损失 f t ( w t ) f_t(w_t) ft(wt);
  5. 学习器使用在线梯度下降更新决策:
    w t + 1 = Π W ( w t − η t ∇ f t ( w t ) ) ; w_{t+1}=\Pi _\mathcal{W}(w_t-\eta_t \nabla f_t(w_t)); wt+1=ΠW(wtηtft(wt));
  6. e n d   f o r end \ for end for

证明 令可行域 W \mathcal{W} W的直径为 Γ \Gamma Γ且所有在线函数是 l − l- lLipschitz连续,即 ∥ u − v ∥ ≤ Γ ,   ∀ u , v ∈ W ; ∥ ∇ f t ( w ) ∥ ≤ l ,   ∀ t ∈ [ T ] , w ∈ W . \begin{aligned} \left \| u-v \right \| \le \Gamma,\ \forall u,v\in \mathcal{W};\\ \left \| \nabla f_t(w) \right \| \le l,\ \forall t\in [T], w\in \mathcal{W} . \end{aligned} uvΓ, u,vW;ft(w)l, t[T],wW.
将步长设置为 η t = Γ / ( l t ) \eta_t=\Gamma/(l\sqrt{t}) ηt=Γ/(lt ),并定义 w t + 1 ′ = w t − η t ∇ f t ( w t ) . w'_{t+1}=w_t-\eta_t\nabla f_t(w_t). wt+1=wtηtft(wt).
对于任意的 w ∈ W , w\in \mathcal{W}, wW,
f t ( w t ) − f t ( w ) ≤ ⟨ ∇ f t ( w t ) , w t − w ⟩ = 1 η t ⟨ w t − w t + 1 ′ , w t − w ⟩ = 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 + ∥ w t − w t + 1 ′ ∥ 2 ) = 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 ′ − w ∥ 2 ) + η t 2 ∥ ∇ f t ( w t ) ∥ 2 ≤ 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η t 2 ∥ ∇ f t ( w t ) ∥ 2 ≤ 1 2 η t ( ∥ w t − w ∥ 2 − ∥ w t + 1 − w ∥ 2 ) + η t 2 l 2 . \begin{aligned} f_t(w_t)-f_t(w) & \le \left \langle \nabla f_t(w_t),w_t-w \right \rangle=\frac{1}{\eta t}\left \langle w_t-w'_{t+1},w_t-w \right \rangle\\ & = \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w'_{t+1}-w \right \|^2+\left \|w_t-w'_{t+1}\right \|^2)\\ & = \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w'_{t+1}-w \right \|^2)+\frac{\eta t}{2}\left \| \nabla f_t(w_t) \right \|^2\\ & \le \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2 )+ \frac{\eta t}{2}\left \| \nabla f_t(w_t) \right \|^2\\ & \le \frac{1}{2\eta t}(\left \| w_t-w \right \|^2-\left \| w_{t+1}-w \right \|^2 )+\frac{\eta t }{2}l^2. \end{aligned} ft(wt)ft(w)ft(wt),wtw=ηt1wtwt+1,wtw=2ηt1(wtw2wt+1w2+wtwt+12)=2ηt1(wtw2wt+1w2)+2ηtft(wt)22ηt1(wtw2wt+1w2)+2ηtft(wt)22ηt1(wtw2wt+1w2)+2ηtl2.
对从 t = 1 t=1 t=1 T T T求和,得到 ∑ t = 1 T f t ( w t ) − ∑ t = 1 T f t ( w ) ≤ 1 2 η 1 ∥ w 1 − w ∥ 2 − 1 2 η T ∥ w T + 1 − w ∥ 2 + 1 2 ∑ t = 2 T ( 1 η t − 1 η t − 1 ) ∥ w t − w ∥ 2 + l 2 2 ∑ t = 1 T η t . \begin{aligned} \sum_{t=1}^{T}f_t(w_t)-\sum_{t=1}^{T}f_t(w) & \le \frac{1}{2\eta_1}\left \| w_1-w \right \|^2-\frac{1}{2\eta_T}\left \| w_{T+1}-w \right \|^2 +\\ & \frac{1}{2}\sum_{t=2}^{T}(\frac{1}{\eta_t}-\frac{1}{\eta_{t-1}}) \left \| w_t-w\right \|^2+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t. \end{aligned} t=1Tft(wt)t=1Tft(w)2η11w1w22ηT1wT+1w2+21t=2T(ηt1ηt11)wtw2+2l2t=1Tηt.
根据上述三式以及 η t < η t − 1 \eta_t <\eta_{t-1} ηt<ηt1,可以进一步化简为
∑ t = 1 T f t ( w t ) − ∑ t = 1 T f t ( w ) ≤ Γ 2 2 η 1 + Γ 2 2 ∑ t = 2 T ( 1 η t − 1 η t − 1 ) + l 2 2 ∑ t = 1 T η t = Γ 2 2 η T + l 2 2 ∑ t = 1 T η t = Γ l T 2 + Γ l 2 ∑ t = 1 T 1 t ≤ 3 Γ l 2 T . \begin{aligned} \sum_{t=1}^{T}f_t(w_t)-\sum_{t=1}^{T}f_t(w) & \le \frac{\Gamma^2}{2\eta_1}+\frac{\Gamma^2}{2}\sum_{t=2}^{T}(\frac{1}{\eta_t}-\frac{1}{\eta_{t-1}})+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t\\ & = \frac{\Gamma^2}{2\eta_T}+\frac{l^2}{2}\sum_{t=1}^{T}\eta_t \\ & = \frac{\Gamma l \sqrt{T} }{2}+\frac{\Gamma l}{2}\sum_{t=1}^{T} \frac{1}{\sqrt{t} } \\ & \le \frac{3\Gamma l}{2}\sqrt{T}. \end{aligned} t=1Tft(wt)t=1Tft(w)2η1Γ2+2Γ2t=2T(ηt1ηt11)+2l2t=1Tηt=2ηTΓ2+2l2t=1Tηt=2ΓlT +2Γlt=1Tt 123ΓlT .因此,有 ∑ t = 1 T f t ( w t ) − m i n w ∈ W ∑ t = 1 T f t ( w ) ≤ 3 Γ l 2 T = O ( T ) . \sum_{t=1}^{T}f_t(w_t)-\underset{w\in \mathcal{W}}{min}\sum_{t=1}^{T}f_t(w)\le \frac{3\Gamma l}{2}\sqrt{T}=O(\sqrt{T}). t=1Tft(wt)wWmint=1Tft(w)23ΓlT =O(T ).定理得证。

你可能感兴趣的:(机器学习基础,人工智能)