机器学习中常用的矩阵公式

        因为有监督的机器学习一般是,给定输入x,选择一个模型f作为函数,有f(x)预测出{\bar y}。要得到f的参数\theta,需要定义一个损失函数,来判断预测值{\bar y}与实际值y之间的接近程度。 

        模型学习的过程是求使得loss函数L(f(x),y)最小的参数\theta,这是一个优化问题,一般采用和梯度相关的最优化方法,如梯度下降。 

一、矩阵迹的定义

矩阵的迹 :就是矩阵的主对角线上所有元素的和。

1.矩阵A(n*n)的迹:

tr\left( A \right) = \sum\limits_{i = 1}^n {​{a_{ii}}}

2.矩阵A(m*n)B(n*m)的迹:

tr\left( {AB} \right) = \sum\limits_{i = 1}^m {\sum\limits_{j = 1}^n {​{a_{ij}}{b_{ji}}} }

二、F范数

1.矩阵F范数公式:

 2.用迹来表示:

{\left\| A \right\|_F} = \sqrt {tr\left( {A{A^T}} \right)}

三、矩阵迹的运算

1.性质1:矩阵A的迹和其转置的迹相等

tr\left( A \right) = tr\left( {​{A^T}} \right)

2.性质2:矩阵AB的迹和矩阵BA的迹相等

tr\left( {AB} \right) = tr\left( {BA} \right)

tr\left( {ABC} \right) = tr\left( {CAB} \right) = tr\left( {BCA} \right)

3.性质3:若a为一个实数

tr\left( a \right) = a

tr\left( {aA} \right) = atr\left( A \right)

4.性质4:矩阵求和的迹和矩阵的迹的和相等

tr\left( {A + B} \right) = tr\left( A \right) + tr\left( B \right)

四、矩阵迹的求导公式

1.公式1:

\frac{​{\partial tr\left( {AB} \right)}}{​{\partial A}} = \frac{​{\partial tr\left( {BA} \right)}}{​{\partial A}} = {B^T}

\frac{​{\partial tr\left( {​{A^T}B} \right)}}{​{\partial A}} = \frac{​{\partial tr\left( {B{A^T}} \right)}}{​{\partial A}} = B

2.公式2:

\frac{​{\partial tr\left( {​{A^T}BA} \right)}}{​{\partial A}} = \left( {B + {B^T}} \right)A

\frac{​{\partial tr\left( {AB{A^T}} \right)}}{​{\partial A}} = A\left( {B + {B^T}} \right)

3.公式3:

\frac{​{\partial tr\left( A \right)}}{​{\partial A}} = I

4.公式4:

\frac{​{\partial tr\left( {​{A^T}X{B^T}} \right)}}{​{\partial X}} = \frac{​{\partial tr\left( {B{X^T}A} \right)}}{​{\partial X}} = AB

5.公式5:

\frac{​{\partial tr\left( {AXB{X^T}} \right)}}{​{\partial X}} = AXB + {A^T}X{B^T}

6.公式6:

\frac{​{\partial tr\left( {AXBX} \right)}}{​{\partial X}} = {A^T}{X^T}{B^T} + {B^T}{X^T}{A^T}

你可能感兴趣的:(机器学习,矩阵,机器学习,深度学习)