假设满足L- Lipschitz 条件(即是平滑函数i.e.LR等), 并且是凸函数, 设定 x ∗ = a r g m i n f ( x ) x^* = argmin f(x) x∗=argminf(x)(即我们最后想得到的最优解), 步长 η t ≤ 1 L \eta_t\leq\frac{1}{L} ηt≤L1(L 即是一个常数), 即满足:
(1.1) f ( x k ) ≤ f ( x ∗ ) + ∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 2 η K f(x_k)\leq f(x_*) + \frac{||x_0 - x_*||_2^2}{2\eta K}\tag{1.1} f(xk)≤f(x∗)+2ηK∣∣x0−x∗∣∣22(1.1)
当我们迭代 k = L ∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 ε k = \frac{L||x_0 - x_*||_2^2}{\varepsilon} k=εL∣∣x0−x∗∣∣22 , 就能保证收敛到保证 ε \varepsilon ε - approximation optional value x ( η t = 1 L ) x(\eta_t = \frac{1}{L}) x(ηt=L1)
其中 x k x_k xk是程序第K次迭代的x的值,即在程序运行中我们希望我们的 f ( x k ) f(x_k) f(xk) 慢慢接近于 f ( x ∗ ) f(x_*) f(x∗), 即 ∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 2 η K \frac{||x_0 - x_*||_2^2}{2\eta K} 2ηK∣∣x0−x∗∣∣22越来越小, 此时判断GD执行K值收敛的 ε \varepsilon ε即可知复杂度有多少。
即,将 k = L ∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 ε k = \frac{L||x_0 - x_*||_2^2}{\varepsilon} k=εL∣∣x0−x∗∣∣22 , η t ≤ 1 L \eta_t\leq\frac{1}{L} ηt≤L1带入(1.1):
∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 2 η t L ∣ ∣ x 0 − x ∗ ∣ ∣ 2 2 ε = ε 2 η t L = ε 2 \frac{||x_0 - x_*||_2^2}{2\eta_t \frac{L||x_0 - x_*||_2^2}{\varepsilon}} = \frac{\varepsilon}{2\eta_t L} = \frac{\varepsilon}{2} 2ηtεL∣∣x0−x∗∣∣22∣∣x0−x∗∣∣22=2ηtLε=2ε
(1.2) ∴ f ( x k ) ≤ f ( x ∗ ) + ε 2 = f ( x ∗ ) + O ( ε ) \therefore f(x_k) \leq f(x^*) + \frac{\varepsilon}{2} = f(x^*) + O(\varepsilon) \tag{1.2} ∴f(xk)≤f(x∗)+2ε=f(x∗)+O(ε)(1.2)
2.1 凸函数性质:
定义:若 f ( x ) f(x) f(x) 是凸函数(convexity)则任意的 x , y ∈ R d , 0 ≤ λ ≤ 1 x,y\in R^d, 0\leq\lambda\leq1 x,y∈Rd,0≤λ≤1
(2.1) f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( x ) f(\lambda x + (1-\lambda)y)\leq\lambda f(x) +(1-\lambda)f(x) \tag{2.1} f(λx+(1−λ)y)≤λf(x)+(1−λ)f(x)(2.1)
(2.2 . first order convexity) f ( x ) + ∇ f ( x ) ( y − x ) ≤ f ( y ) f(x) + \nabla f(x)(y-x) \leq f(y) \tag{2.2 . first order convexity} f(x)+∇f(x)(y−x)≤f(y)(2.2 . first order convexity)
2.1 L- Lipschitz2条件以及定理(给定的第二个定理):
一个光滑函数(smooth function)f 满足 L- Lipschitz条件, 则对于任意 x , y ∈ R d , 即 有 x,y\in R^d, 即有 x,y∈Rd,即有
(Claim 1) ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ≤ L ∣ ∣ x − y ∣ ∣ ||\nabla f(x) - \nabla f(y)|| \leq L|| x-y|| \tag{Claim 1} ∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣(Claim 1)
证明Claim 1 , 举例linear regression, loss = 1 n ∣ ∣ X m − y ∣ ∣ 2 , X m 是 矩 阵 形 式 \frac{1}{n}||X_m-y||^2,X_m是矩阵形式 n1∣∣Xm−y∣∣2,Xm是矩阵形式
2.3 L- Lipschitz3条件以及定理(给定的第三个定理)
假设一个函数满足L-Lipschitz 条件, 并且是凸函数,对于任意的$x,y\in R^d, 我们有:
(2.3) f ( y ) ≤ f ( x ) + ∇ f ( x ) ( y − x ) + L 2 ∣ ∣ y − x ∣ ∣ 2 f(y)\leq f(x)+ \nabla f(x)(y-x) +\frac{L}{2} ||y-x||^2 \tag{2.3} f(y)≤f(x)+∇f(x)(y−x)+2L∣∣y−x∣∣2(2.3)
回顾积分性质:
已知: h ( x ) : h ( 1 ) = h ( 0 ) + ∫ 0 1 h ( τ ) ˙ d τ h(x): h(1)= h(0) + \int_0^1\dot{h(\tau)}d\tau h(x):h(1)=h(0)+∫01h(τ)˙dτ
定义: h ( τ ) = f ( x + τ ( y − x ) ) h(\tau)=f(x + \tau(y-x)) h(τ)=f(x+τ(y−x))
所以: h ( 1 ) = f ( y ) , h ( 0 ) = f ( x ) h(1)=f(y), h(0)=f(x) h(1)=f(y),h(0)=f(x)
(2.4) f ( y ) = f ( x ) + ∫ 0 1 ∇ f ( x + τ ( y − x ) ) ( y − x ) d τ f(y)=f(x)+\int_0^1\nabla f(x+\tau(y-x))(y-x)d\tau \tag{2.4} f(y)=f(x)+∫01∇f(x+τ(y−x))(y−x)dτ(2.4)
定理3 的证明:
根据上面推导的公式,证明定理1: