梯度下降的向量法(矩阵法)推导总结

梯度下降向量化推导

再看了一篇博客后,了解了梯度下降向量化的推导公式,所以便写篇博客记录一下,加深一些记忆。
首先,对于输入矩阵X为m*n的矩阵

梯度下降的向量法(矩阵法)推导总结_第1张图片

所以预测值为 y ^ \widehat{y} y :

梯度下降的向量法(矩阵法)推导总结_第2张图片
MSE= 1 2 ∗ ( y ^ − y ) 2 = 1 2 ( X ω − y ) 2 \frac{1}{2} *(\widehat{y}-y)^2=\frac{1}{2}(X\omega-y)^2 21(y y)2=21(Xωy)2
接下来对式子进行化简
首先

X T X = ∑ X i j 2 X^T X=\sum X_{ij}^2 XTX=Xij2

于是

M E S = 1 2 ( X ω − y ) T ( X ω − y ) MES=\frac{1}{2}(X\omega-y)^T(X\omega-y) MES=21(Xωy)T(Xωy)

括号展开:

ω T X T X ω − ω T X T y − y T X ω + y T y \omega ^T X^TX\omega-\omega^T X^T y-y^TX\omega+y^Ty ωTXTXωωTXTyyTXω+yTy

对其进行梯度下降处理

∂ ω ( ω T X T X ω − ω T X T y − y T X ω + y T y ) \partial_{\omega}({\omega ^T X^TX\omega-\omega^T X^T y-y^TX\omega+y^Ty}) ω(ωTXTXωωTXTyyTXω+yTy)
再利用矩阵的迹的性质来进行化简,矩阵的迹简单的说就是对方阵求其主对角线的和
那么等式就变为

1 2 ∂ ( t r ( ω T X T X ω − ω T X T y − y T X ω + y T y ) ) ∂ ω \frac{1}{2}\frac{\partial(tr(\omega^TX^TX\omega-\omega^TX^Ty-y^TX\omega+y^Ty))}{\partial\omega} 21ω(tr(ωTXTXωωTXTyyTXω+yTy))

对于这个式子利用矩阵的迹的性质进行化简: d ( t r ( A X B X T ) ) = X T A B + A X B d(tr(AXBX^T))=X^TAB+AXB d(tr(AXBXT))=XTAB+AXB 把公式中的A看为单位矩阵,从而省略,B看成 X T X X^TX XTX,从而对 ω T X T X ω \omega ^T X^TX\omega ωTXTXω该项进行化简,以及 t r ( P Q ) = t r ( P Q ) T tr(PQ)=tr(PQ)^T tr(PQ)=tr(PQ)T来对 ω T X T y \omega ^TX^Ty ωTXTy转化
最后得到

1 2 ( X T X ω + X T X ω − 2 X T y ) = X T ( X ω − y ) \frac{1}{2}(X^TX\omega+X^TX\omega-2X^Ty)=X^T(X\omega-y) 21(XTXω+XTXω2XTy)=XT(Xωy)

这也就是我们在利用梯度下降时,所采用的矩阵化计算方式,从而简化了迭代次数。

你可能感兴趣的:(杂记,AI)