深度学习笔记

1. 代价函数(cost function)与误差函数(loss function)之间的关系:J = \frac{1}{m}\sum_{i=1}^{m}L(Y^{i},A ^{i}),其中J为代价函数,L为误差函数,Y为标签矢量,A为根据样本计算矢量。

2. 代价函数J对w和b的导数:\frac{\partial J}{\partial w}推导过程,误差函数以交叉熵L=-ylog(1-a)-(1-y)log(1-a) 为例:

根据链式传播:\frac{\partial L}{\partial w}=\frac{\partial L}{\partial a}\frac{\partial a}{\partial z}\frac{\partial z}{\partial w} 。

由: 

          \frac{\partial L}{\partial a} = \frac{1}{m}\left (-\frac{y}{a}+\frac{1-y}{1-a} \right ) , \frac{\partial a}{\partial z}= a(1-a), \frac{\partial z}{\partial w} = x

有:

        \frac{\partial L}{\partial w}=(-(1-a) y+ a(1-y))x=(-y+ay+a-ay)x=(a-y)x

       \frac{\partial J}{\partial w^{j}_{i}}=\frac{1}{m}\sum_{i=1}^{m}\left ( a^{j}_{i} - y^{j}_{i} \right )x^{j}_{i}

设: X^{(j)}=\begin{bmatrix} x_{1}^{j} &... & x_{m}^{j} \end{bmatrix}A^{(j)}=\begin{bmatrix} a_{0}^{j} &... & a_{m}^{j} \end{bmatrix}Y^{(j)}=\begin{bmatrix} u_{0}^{j} &... & u_{m}^{j} \end{bmatrix}

       \frac{\partial J}{\partial w^{j}_{i}}=\frac{1}{m}X^{j}(A^{j}-Y^{j})^{T}

       推广到所有特征权重

                         W=\begin{bmatrix} w^{1}\\... \\ w^{n} \end{bmatrix} X=\begin{bmatrix} x^{1}_{1} & ... & x^{1}_{m} \\ ...& ... &... \\ x^{n}_{1} & ... & x^{n}_{m} \end{bmatrix} A=\begin{bmatrix} a^{1}_{1} & ... & a^{1}_{m} \\ ...& ... &... \\ a^{n}_{1} & ... & a^{n}_{m} \end{bmatrix}

                         Y=\begin{bmatrix} y^{1}_{1} & ... & y^{1}_{m} \\ ...& ... &... \\ y^{n}_{1} & ... & y^{n}_{m} \end{bmatrix}

       \frac{\partial J}{\partial W}=\frac{1}{m}X(A-Y)^{T}

         

你可能感兴趣的:(深度学习,笔记,人工智能)