向量,矩阵,张量求导法则

  • 向量,矩阵,张量求导
    • 向量对向量求导
    • 向量对矩阵求导
    • 矩阵对矩阵求导
    • 使用链式法则
    • 总结

向量,矩阵,张量求导

参考:http://cs231n.stanford.edu/vecDerivs.pdf

向量对向量求导

如何对 求导?其中:

可以先通过计算一种特例,比如 来更好地理解, 可以写成

所以。进而,

PS: 标量对向量求导的维度为 ; 向量对标量求导的维度为 ;

向量对矩阵求导

, 如何求?其中:

依然先计算特例:, 首先

所以可以看到,进一步又发现

于是令 ,有

张量 的其余项均为0,因此可以定义一个二维矩阵 来表示 的结果。


PS:Representing the important part of derivative arrays in a compact way is critical to efficient implementations of neural networks.

矩阵对矩阵求导

, 如何求?其中:

依然进行展开:

于是有

因此

可以发现

  1. 实际上 所有的结果都包含在 中。
  2. 与 的行索引没有关系。
  3. In fact, the matrix W holds all of these partials as it is–we just have to remember to index into it according to Equation 1 to obtain the specific partial derivative that we want.

使用链式法则

, 其中 , 求 ?

依然先从特例开始:
\begin{aligned} \frac{\partial{y_i}}{\partial{x_j}} &= \frac{\partial{y_i}}{\partial{m}}\frac{\partial{m}}{\partial{x_j}} \\ &= \sum_{k=1}^M \frac{\partial{y_i}}{\partial{m_k}}\frac{\partial{m_k}}{\partial{x_j}} \\ &= \sum_{k=1}^M V_{i,k}W_{k,j} \\ &= V_{i,:}W_{:,j} \end{aligned}
因此

总结

  1. 为了求得最终的导数结果,往往需要先求中间的结果,例如先求, 再求

你可能感兴趣的:(向量,矩阵,张量求导法则)