《Data Cleansing for Models Trained with SGD》笔记

[1] 在其 appendix B 中证 Lemma 7 时说由于 ( 1 − η s Λ ) I ≺ Z s ≺ ( 1 − η s λ ) I \left(1-\eta_s \Lambda\right) I \prec Z_s \prec\left(1-\eta_s \lambda\right) I (1ηsΛ)IZs(1ηsλ)I,直接可得 (7) 式,这里对 lemma 7 的证明做注。

[1] 中相关定义: h j ( Λ ) ≤ ∥ Δ θ − j ∥ ≤ h j ( λ ) ( 7 ) Δ θ − j : = η π ( j ) ∣ S π ( j ) ∣ Z T − 1 Z T − 2 ⋯ Z π ( j ) + 1 g ( z j ; θ [ π ( j ) ] ) ( a ) h j ( a ) : = η π ( j ) ∣ S π ( j ) ∣ ∏ s = π ( j ) + 1 T − 1 ( 1 − η s a ) ∥ g ( z j ; θ [ π ( j ) ] ) ∥ ( b ) Z t : = I − η t H [ t ] H [ t ] : = 1 ∣ S t ∣ ∑ i ∈ S t ∇ θ 2 ℓ ( z i ; θ [ t ] ) ( b a t c h 平均 H e s s i a n ) g ( z ; θ ) : = ∇ θ ℓ ( z ; θ ) ( 梯度 ) \begin{aligned} & h_j(\Lambda) \leq\left\|\Delta \theta_{-j}\right\| \leq h_j(\lambda) & (7) \\ \Delta \theta_{-j} &:= \frac{\eta_{\pi(j)}}{\left|S_{\pi(j)}\right|} Z_{T-1} Z_{T-2} \cdots Z_{\pi(j)+1} g\left(z_j ; \theta^{[\pi(j)]}\right) & (a) \\ h_j(a) &:=\frac{\eta_{\pi(j)}}{\left|S_{\pi(j)}\right|} \prod_{s=\pi(j)+1}^{T-1}\left(1-\eta_s a\right)\left\|g\left(z_j ; \theta^{[\pi(j)]}\right)\right\| & (b) \\ Z_t & := I-\eta_t H^{[t]} \\ H^{[t]} & := \frac{1}{\left|S_t\right|} \sum_{i \in S_t} \nabla_\theta^2 \ell\left(z_i ; \theta^{[t]}\right) & (batch平均Hessian) \\ g(z ; \theta) &:= \nabla_\theta \ell(z ; \theta) & (梯度) \end{aligned} Δθjhj(a)ZtH[t]g(z;θ)hj(Λ)Δθjhj(λ):= Sπ(j) ηπ(j)ZT1ZT2Zπ(j)+1g(zj;θ[π(j)]):= Sπ(j) ηπ(j)s=π(j)+1T1(1ηsa) g(zj;θ[π(j)]) :=IηtH[t]:=St1iStθ2(zi;θ[t]):=θ(z;θ)(7)(a)(b)(batch平均Hessian)(梯度) 其中(几个此处出现了但不用管的量):

  • S t S_t St 表示第 t 步优化(即训练、梯度下降)的 mini-batch;
  • η t \eta_t ηt 是此步的 learning rate;
  • π ( j ) \pi(j) π(j) 表示 instance z j z_j zj 出现的那个 step(lemma 7 是用来证 theorem 5 & 6 的,而它们都是在 1 epoch 的情景下,每个 instance 只出现一次);
  • T 是一个 epoch 的 step 数。

[1] 中三个假设:

  1. loss 函数 l ( z ; θ ) l(z;\theta) l(z;θ) 二阶可导,即 Hessian 存在;
  2. ∃ λ , Λ > 0 \exist \lambda, \Lambda > 0 λ,Λ>0,对 ∀ z , θ \forall z, \theta z,θ,有 λ I ≺ ∇ θ 2 ℓ ( z ; θ ) ≺ Λ I \lambda I \prec \nabla_\theta^2 \ell(z ; \theta) \prec \Lambda I λIθ2(z;θ)ΛI
  3. η s ≤ 1 / Λ \eta_s \leq 1/\Lambda ηs1/Λ

其中 ≺ \prec 的含义文章没解释。经查,它用在向量上表示 majorization[2],但第二条假设是用在矩阵上。经 [3] 评论提醒,可能指 Loewner 偏序[4]

  • A ≻ B A\succ B AB 表示 A − B A-B AB 正定
  • A ⪰ B A\succeq B AB 则表示 A − B A-B AB 半正定

(半)正定阵的相关内容可参考 [5,6]。[4] 用 >、 ≥ \geq 表示正定、半正定,[6] 则用 ≻ , ⪰ \succ, \succeq ,。正定阵是 Hermitian 阵[7]的特例,是对对称矩阵[8]来谈的,而 Hessian 矩阵[9]二阶导)是对称矩阵。

解释 lemma 7 的证明要用到正定阵的几点性质。若 A、B 都正定,则:

  • ∀ x ≠ 0 , x T A x > 0 \forall x \neq 0, x^TAx>0 x=0,xTAx>0正定阵定义
  • A + B、ABA、BAB 都正定,若 AB = BA,则 AB 也正定。

因为 (7) 是在讨论向量范数,就考察当 A ≻ B ≻ 0 A\succ B \succ 0 AB0,对 ∀ x ≠ 0 \forall x \neq 0 x=0 ∥ A x ∥ \|Ax\| Ax ∥ B x ∥ \|Bx\| Bx 的大小关系。为方便,转成平方(假设是向量二范数):

  • ∥ A x ∥ 2 = x T A T A x = x T A 2 x \|Ax\|^2 = x^TA^TAx = x^TA^2x Ax2=xTATAx=xTA2xA、B 都是对称阵
  • ∥ B x ∥ 2 = x T B 2 x \|Bx\|^2 = x^TB^2x Bx2=xTB2x

那么: ∥ A x ∥ 2 − ∥ B x ∥ 2 = x T A 2 x − x T B 2 x = x T ( A 2 − B 2 ) x = x T ( A + B ) ( A − B ) x \begin{aligned} \|Ax\|^2 - \|Bx\|^2 &= x^TA^2x - x^TB^2x \\ &= x^T(A^2-B^2)x \\ &=x^T(A+B)(A-B)x \end{aligned} Ax2Bx2=xTA2xxTB2x=xT(A2B2)x=xT(A+B)(AB)x 由前面正定阵性质:

  • 因 A、B 都正定,所以 A + B 也正定;
  • 条件已知 A - B 正定( A ≻ B A \succ B AB);
  • 因 (A + B)(A - B) = (A - B)(A + B) = A 2 − B 2 A^2-B^2 A2B2,所以 (A + B)(A - B) 也是正定。

所以 ∥ A x ∥ 2 − ∥ B x ∥ 2 = x T ( A + B ) ( A − B ) x > 0 \|Ax\|^2 - \|Bx\|^2 = x^T(A+B)(A-B)x > 0 Ax2Bx2=xT(A+B)(AB)x>0。这说明 A ≻ B A \succ B AB 的直观意义是 A 对向量的拉伸效果比 B 好,拉伸同一个向量 x,A 拉完比 B 拉完的向量范数更大(模更大,向量更长)。

有这个直观解释后回看 (7) 式证明。对比前面 Δ θ − j \Delta\theta_{-j} Δθj h j ( ⋅ ) h_j(\cdot) hj() 的定义(前文 (a)、(b) 式)可知 h j ( ⋅ ) h_j(\cdot) hj() 是照着 Δ θ − j \Delta\theta_{-j} Δθj 的形式构造的, h j ( λ ) h_j(\lambda) hj(λ) 就相当于把 Δ θ − j \Delta\theta_{-j} Δθj 中的各 Z s Z_s Zs 换成相应的 ( 1 − η s λ ) I (1-\eta_s\lambda)I (1ηsλ)I 再取范数。
∵ ∃ λ , Λ > 0 , ∀ z , θ , λ I ≺ ∇ θ 2 ℓ ( z ; θ ) ≺ Λ I H [ s ] : = 1 ∣ S s ∣ ∑ i ∈ S s ∇ θ 2 ℓ ( z i ; θ [ s ] ) ∴ λ I ≺ H [ s ] ≺ Λ I ∴ ( 1 − η s Λ ) I ≺ Z s = I − η s H [ s ] ≺ ( 1 − η s λ ) I ( c ) \begin{aligned} \because\quad & \exist \lambda, \Lambda > 0, \forall z, \theta, \lambda I \prec \nabla_\theta^2 \ell(z ; \theta) \prec \Lambda I \\ & H^{[s]} := \frac{1}{\left|S_s\right|} \sum_{i \in S_s} \nabla_\theta^2 \ell\left(z_i ; \theta^{[s]}\right) \\ \therefore\quad & \lambda I \prec H^{[s]} \prec \Lambda I \\ \therefore\quad & (1-\eta_s\Lambda)I \prec Z_s = I - \eta_s H^{[s]} \prec(1-\eta_s\lambda)I & (c) \end{aligned} λ,Λ>0,z,θ,λIθ2(z;θ)ΛIH[s]:=Ss1iSsθ2(zi;θ[s])λIH[s]ΛI(1ηsΛ)IZs=IηsH[s](1ηsλ)I(c) 因为 ∀ x ≠ 0 , x T I x = x T x > 0 \forall x \neq 0,x^TIx=x^Tx>0 x=0,xTIx=xTx>0,所以单位阵 I I I 正定;由前面第 3 条假设, 1 − η s Λ > 0 1 - \eta_s\Lambda > 0 1ηsΛ>0,故 x T ( 1 − η s Λ ) I x > 0 x^T(1-\eta_s\Lambda)Ix>0 xT(1ηsΛ)Ix>0,所以 ( 1 − η s Λ ) I (1-\eta_s\Lambda)I (1ηsΛ)I 正定;再由 ©, Z s Z_s Zs ( 1 − η s λ ) I (1-\eta_s\lambda)I (1ηsλ)I 都正定,于是可以套上面的直观解释:对向量的拉伸能力 ( 1 − η s Λ ) I (1-\eta_s\Lambda)I (1ηsΛ)I 弱于 Z s Z_s Zs 弱于 ( 1 − η s λ ) I (1-\eta_s\lambda)I (1ηsλ)I,所以同样是对 g ( z j ; θ [ s ] ) g(z_j ; \theta^{[s]}) g(zj;θ[s]) 进行(一系列)拉伸,再取范数,再带上前面的正常系数 η π ( j ) ∣ S s ∣ \frac{\eta_{\pi(j)}}{|S_s|} Ssηπ(j),可得 (7)。

References

  1. (NIPS 2019) Data Cleansing for Models Trained with SGD - paper, code
  2. Majorization
  3. 矩阵论记号约定
  4. Loewner order
  5. 正定矩阵,正定矩阵
  6. 半正定矩陣的偏序關係
  7. Hermitian matrix
  8. 对称矩阵,对称矩阵
  9. Hessian matrix

你可能感兴趣的:(机器学习,数学,机器学习,线性代数,Hessian,正定,Loewner,范数)