最基本矩阵求导公式

文章目录

  • 1. 矩阵求导法则
    • 1.1 标量求导
    • 1.2 向量求导
    • 1.3矩阵求导

1. 矩阵求导法则

矩阵的求导分为:标量求导向量求导矩阵求导三个方面。

1.1 标量求导

  1. 矩阵和向量对标量求导,只需矩阵中的每个量都对标量进行求导,这个很好理解。
  2. 标量对矩阵的向量求导,也是同样的,等价于标量对矩阵的每个分量进行求导,并且保持维数不变。

举例。设 y y y为一个标量, x T = [ x 1 x 2 ⋯ x n ] x^T=[x_1 x_2 \cdots x_n] xT=[x1x2xn]为一个行向量,则:
∂ y ∂ x T = [ ∂ y ∂ x 1 ⋯ ∂ y ∂ x n ] \frac{\partial y}{\partial x^T}=[ \frac{\partial y}{\partial x_1} \cdots \frac{\partial y}{\partial x_n} ] xTy=[x1yxny]

1.2 向量求导

对于向量求导,我们可以将向量看做一个标量,先使用上面的标量求导法则,最后将向量形式化为标量进行。
举例,
y T = [ y 1 ⋯ y n ] y^T=[y_1 \cdots y_n] yT=[y1yn] 是一个行向量,
x = [ x 1 ⋮ x m ] x=\begin{bmatrix} x_1 \\ \vdots \\ x_m\end{bmatrix} x=x1xm是一个列向量。

∂ y T ∂ x = [ ∂ y 1 ∂ x ⋯ ∂ y n ∂ x ] = [ ∂ y 1 ∂ x 1 ⋯ ∂ y n ∂ x 1 ⋮ ⋱ ⋮ ∂ y 1 ∂ x m ⋯ ∂ y n ∂ x m ] \begin{aligned} \frac{\partial y^T}{\partial x}&=[\frac{\partial y_1}{\partial x} \cdots \frac{\partial y_n}{\partial x}] \\ &= \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \cdots & \frac{\partial y_n}{\partial x_1} \\ \vdots&\ddots&\vdots \\ \frac{\partial y_1}{\partial x_m} & \cdots & \frac{\partial y_n}{\partial x_m} \end{bmatrix} \end{aligned} xyT=[xy1xyn]=x1y1xmy1x1ynxmyn

1.3矩阵求导

与向量求导类似,先将矩阵当做一个标量,再使用标量的求导法则。
举例,
Y = [ y 11 ⋯ y 1 m ⋮ ⋱ ⋮ y n 1 ⋯ y n m ] Y=\begin{bmatrix} y_{11} & \cdots & y_{1m} \\ \vdots & \ddots & \vdots \\ y_{n1} & \cdots & y_{nm}\end{bmatrix} Y=y11yn1y1mynm n ∗ m n*m nm矩阵, x = [ x 1 , ⋯   , x p ] x=[x_1,\cdots,x_p] x=[x1,,xp] p p p维列向量,则
∂ Y ∂ x = [ ∂ Y ∂ x 1 , ⋯   , ∂ Y ∂ x p ] \frac{\partial Y}{\partial x}=[\frac{\partial Y}{\partial x_1}, \cdots, \frac{\partial Y}{\partial x_p}] xY=[x1Y,,xpY]

你可能感兴趣的:(知识经验类)