机器学习中的优化算法 第三课

机器学习中的优化算法 第三课


重参数化

在前馈网络的最后一步骤想对loss 函数求导数,但是可能这个loss也是带有参数的,

这时候对这个θ求导就比较难,一个方法是找到一个无参数的分布比如高斯,然后找到一个能让z是原来的要求的分布。这样就把θ从概率密度中拿出来了变到函数里

这个是容易求导数的(导数和期望互换)

用另一个技巧是

\begin{aligned}
\frac{\partial}{\partial \theta} \int p_{\theta}(z) f(z) d z &=\int \frac{\partial p_{\theta}(z)}{\partial \theta} f(z) d z \\
&=\int q_{\theta}(z)\left[\frac{1}{q_{\theta}(z)} \frac{\partial p_{\theta}(z)}{\partial \theta} f(z)\right] d z \\
&=\mathbb{E}_{z \sim q_{\theta}(z)}\left[\frac{1}{q_{\theta}(z)} \frac{\partial p_{\theta}(z)}{\partial \theta} f(z)\right]
\end{aligned}

但是这个方法有个弊端,可能特别小,所以右边会很大,数值上不稳定




矩阵核范数:等价的一种定义




这个公式的一个好处是,有时候我们需要估计左边,那么只要估计右边

左边的计算是O(n^2)乘法,右边是O(n^2)加法,右边计算量小很多




之所以涉及hessian的梯度法需要条件数比较小,直观看就是如果条件数比较大,那么局部就是细长的等高线,会来回折返。




冯诺依曼不等式(所有低秩的证明一般都需要用到这个)

你可能感兴趣的:(机器学习中的优化算法 第三课)