矩阵求导和迹

1. 迹的定义

矩阵的迹$tr(A)$定义如下: 一个$n \times n$方阵$A$的迹是指:$A$的主对角线上各元素的总和,即
$$tr(A) = \sum_{i=1}^n a_{ii}$$
只有方阵才有迹.

2. 迹的性质

$A \in R^{n\times m}$, $B \in R^{m \times n}$, $AB \in R^{n\times n}$, $BA \in R^{m \times m}$

定理1: $tr(AB)=tr(BA)$
证明: 由于$tr(AB)$迹为矩阵$AB$主对角线的元素和,而矩阵$AB$的第$i$个主对角线元素可表示为: $(AB){ii} = \sum{j=1}^m a_{ij}b_{ji}$. 即$A$的$i$行元素与$B$的$i$列元素的向量积。 因此,由如下结论:
$$tr(AB) = \sum_{i=1}^n (AB){ii} = \sum{i=1}^n \sum_{j=1}^m a_{ij}
b_{ji}$$
$$= \sum_{j=1}^m \sum_{i=1}^n b_{ji}*a_{ij} = \sum_{j=1}^m (BA)_{jj} = tr(BA) $$

定理2: $tr(ABC) = tr(BCA) = tr(CAB)$
证明: $AB$或$BC$当作整体,证明与定理1相同.

定理3: $\frac{\partial tr(AB)}{\partial A} = \frac{\partial tr(BA)}{\partial A} = {B'}$
证明: 由于 $tr(AB) =\sum_{i=1}^n \sum_{j=1}^m a_{ij}b_{ji} = \sum_{j=1}^m \sum_{i=1}^n b_{ji}a_{ij} $
那么,$\frac{\partial tr(AB)}{\partial a_{ij}} = b_{ji}$. 因此,$\frac{\partial tr(AB)}{\partial A} = B'$

定理4: $\frac{\partial tr(A'B)}{\partial A} = \frac{\partial tr(B'A)}{\partial A} = {B}$

定理5: $\frac{\partial tr(ABA'C)}{\partial A} = {C'AB'} + {CAB}$
证明: 对于$A$存在多处情况,利用分步求导公式
$\frac{{d{x^2}}}{{dx}} = \frac{{dxx}}{{dx}} = x\frac{{dx}}{{dx}} + x\frac{{dx}}{{dx}} = 2x$
并基于定理1、定理3和4,可得,
$\frac{\partial tr(ABA'C)}{\partial A} = \frac{\partial tr(ABA'C)}{\partial A} + \frac{\partial tr(A'CAB)}{\partial A} = {C'AB'} + {CAB}$

3. 迹与范数的关系

$A \in R^{n \times m}$
定理6: 一个矩阵$A$的$F$范数是$||A||_F^2$ 等价于 $A$的所有元素的平方和 等价于 $tr(A'A)=tr(AA’)$

证明:$||A||F^2 = \sum_i^n \sum_j^m {a{ij}^2}$

而$A′A$的第$i$个主对角线元素为$A′$的第i行与$A$的第$i$列的向量积,因此$(A'A){ii} = \sum_j^m a'{ij}*a_{ji}$,而 $a'{ij} = a{ji}$,因此,$(A'A){ii} = \sum_j^m a^2{ji} $。
进而,$||A||F^2 = \sum_i^n \sum_j^m a^2{ji} = \sum_i^n (A'A){ii} = tr(A'A)$。
又得,$||A||F^2 = \sum_i^n \sum_j^m a^2{ji} = \sum_j^m \sum_i^n a^2
{ij} = \sum_j^m (AA')_{ii} = tr(AA') $。

你可能感兴趣的:(矩阵求导和迹)