Puppy_L

DNN和CNN的反向传播算法（全连接层、卷积层、池化层）

本文章包含DNN和CNN反向传播算法的详细推导，特别是CNN的反向传播算法中对权重求偏导数的公式中补零和卷积核旋转的详细推导。
反向传播算法是用来计算神经网络（NN）的可训练参数的偏导数的算法。在神经网络的训练中，对于一个参数（例如权重）的更新，往往采用下面的式子。
$w_{i,j}=w_{i,j}-\alpha \sum_{k\in B}\frac{\partial J_k}{\partial w_{i,j}}.$
其中 $w_{i,j}$ 是某个我们想要更新的权重， $\alpha$ 是学习率（一般比较小，例如 $1\times 10^{-3}$ ）， $B$ 是一个mini-batch的集合， $J_k$ 是这个mini-batch中第 $k$ 个样本经过现有神经网络后的损失函数。如果不使用mini-batch的训练方法，即每次更新参数只输入一个样本，则上式变为
$w_{i,j}=w_{i,j}-\alpha \frac{\partial J}{\partial w_{i,j}}.\tag{1}$
其中 $\frac{\partial J}{\partial w_{i,j}}$ 是损失函数对于该权重的偏导数。偏导数可以用数值微分的方法求得。

1. 数值微分

下面用一个简单的函数为例简要说明数值微分求偏导数的方法。考虑一个函数 $z = f (x, y)$ ，则该函数相对于 $x$ 和 $y$ 的偏导数可以表示为
$\frac{\partial z}{\partial x}=limit_{\Delta h\rightarrow0}\frac{f(x+\Delta h,y)-f(x-\Delta h,y)}{2\Delta h},\\ \frac{\partial z}{\partial y}=limit_{\Delta h\rightarrow0}\frac{f(x,y+\Delta h)-f(x,y-\Delta h)}{2\Delta h}.$
所谓的数值微分的方法，是指在实际计算中，我们取 $\Delta h$ 为较小的值，例如 $1\times 10^{-4}$ ，则上述两个偏导数计算为
$\frac{\partial z}{\partial x}=\frac{f(x+\Delta h,y)-f(x-\Delta h,y)}{2\Delta h},\\ \frac{\partial z}{\partial y}=\frac{f(x,y+\Delta h)-f(x,y-\Delta h)}{2\Delta h}.$
对于神经网络而言，直接计算损失函数 $J$ 的计算量大，因此计算 $J(w_{i,j}+\Delta h)$ 和 $J(w_{i,j}-\Delta h)$ 的计算量大。此外需要更新的参数量大，对于每个参数都需要计算损失函数的偏微分，所以用数值微分的方法太过复杂。因此在神经网络中，有一种成为后向传播的方法来高效地计算每个参数对应的损失函数的偏导数。

2. DNN的后向传播算法

为了简单，不考虑mini-batch，因此下面的推导针对(1)中每次只有一个样本经过神经网络的情况。对于min-batch中一次多个样本参与训练的情况，算法完全一样，区别在于更新时将所有样本的偏导数求和（对应 $\sum_{k\in B}$ ）。
首先我们约定一些对于DNN的符号。对于层数的表示，用上标" $(l)$ "，于是一个 $L$ 层的DNN有 $l=0,1,\dots L-1$ ；对于向量中的元素的index，用下标表示。DNN中层 $l$ 所用的激活函数记为 $\sigma_l$ ，则如下图，对于一个向量 $\bm{x}^{(l)}$ ，他通过激活函数后记为 $\sigma_l(\bm{x}^{(l)})$ 。（实际上，激活函数是否相同不影响算法的推导正确性，这里只是为了表示简单。）对于神经网络的层 $l$ ，他的输入是上一层的输出向量 $\bm{y}^{(l-1)}$ ，这里用列向量表示，即
$\bm{y}^{l-1}= \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right].$
其中 $n_{l-1}$ 是该列向量的长度，也是上一层（层 $l - 1$ ）的输出数目。图中的 $n (l - 1)$ 即文中的 $n_{l-1}$ 。于是我们有
$\bm{y}^{(l)}=\sigma_l(\bm{x}^{(l)}), l=0,1,\dots,L-1.$
层 $l$ 的权重用矩阵 $\bm{W}^{(l)}$ 表示，有
$\bm{W}^{(l)}= \left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right],$
和
$\bm{x}^{(l)}=\bm{W}^{(l)}\bm{y}^{(l-1)}+\bm{b}^{(l)}.$
其中 $\bm{b}^{(l)}$ 是层 $l$ 的偏置(bias)向量。

有了上述符号，我们下面来推导DNN的反向传播算法

2.1 多元复合函数的微分：链式法则

反向传播算法求偏导的最重要的数学基础就是多元复合函数微分中的链式法则。一个简单的例子是，考虑函数 $z = h (x, y)$ , $x = f (t)$ 和 $y = g (t)$ ，则有
$\frac{\partial z}{\partial t}=\frac{\partial z}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial z}{\partial y}\frac{\partial y}{\partial t}.$
考虑一般情况 $z$ 是变量 $y_0,y_1,\dots,y_{n_y-1}$ 的函数，同时 $y_{i}$ （ $i=0,1,\dots,n_y-1$ ）均是 $x_0,x_1,\dots,x_{n_x-1}$ 的函数，则 $z$ 对于 $x_i$ （ $i=0,1,\dots,n_x-1$ ）的偏导可以利用链式法则表示为
$\frac{\partial z}{\partial x_i}=\sum^{n_y-1}_{i=0}\frac{\partial z}{\partial y_i}\sum^{n_x-1}_{j=0}\frac{\partial y_i}{\partial x_j}=\sum^{n_y-1}_{i=0}\sum^{n_x-1}_{j=0}\frac{\partial z}{\partial y_i}\frac{\partial y_i}{\partial x_j}.$

2.2 最后一层（层 $L - 1$ ）的偏导数

要求损失函数对于权重的偏导 $\frac{\partial J}{\partial \bm{W}^{(L-1)}}$ ，需要先求损失函数对于 $\bm{x}^{(L-1)}$ 的偏导，因为
$\bm{x}^{(L-1)}=\bm{W}^{(L-1)}\bm{y}^{(L-2)}+\bm{b}^{(L-1)},$
所以 $\frac{\partial J}{\partial \bm{W}^{(L-1)}}$ 可以通过链式法则计算得到。同理，要通过链式法则求损失函数对于 $\bm{x}^{(L-1)}$ 的偏导 $\frac{\partial J}{\partial \bm{x}^{(L-1)}}$ ，需要先求损失函数对于 $\bm{y}^{(L-1)}$ 的偏导 $\frac{\partial J}{\partial \bm{y}^{(L-1)}}$ 。
在后面的推导中，损失函数对于 $\bm{x}^{(l)}$ 的偏导 $\frac{\partial J}{\partial \bm{x}^{(l)}}$ 是一个重要的中间量，因此我们记为
$\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}, l=0,1,\dots,L-1.$
假设最后一层的输出 $\bm{y}^{(L-1)}$ 是一个标量，则有 $y^{(L-1)}=\sigma_{L-1}(\bm{x}^{(L-1)})$ 。例如在图片识别中，将 $\bm{x}^{(L-1)}$ 通过softmax函数，得到一个图片标签的预测值。假设损失函数是均方差，样本的标签为 $t$ ，那么有
$J=\frac{1}{2}(y^{(L-1)}-t)^2=\frac{1}{2}(\sigma_{L-1}(\bm{x}^{(L-1)})-t)^2.$
显然，
$\frac{\partial J}{\partial y^{(L-1)}}=y^{(L-1)}-t.$
我们需要进一步求 $\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{x}^{(L-1)}}$ .根据链式法则，
$\delta^{(L-1)}_i=\frac{\partial J}{\partial x^{(L-1)}_i}=\frac{\partial J}{\partial y^{(L-1)}}\frac{\partial y^{(L-1)}}{\partial x^{(L-1)}_i}=(y^{(L-1)}-t)\frac{\partial \sigma_{L-1}(\bm{x}^{(L-1)})}{\partial x^{(L-1)}_i}.$
写成向量形式，为
$\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{x}^{(L-1)}}=(y^{(L-1)}-t)(\sigma^{'}_{L-1}(\bm{x}^{(L-1)}).$
至此，我们展示了如何计算DNN最后一层的 $\bm{\delta}^{(L-1)}$ 。

2.3 中间层 $l$ 的偏导数

这一节我们展示如何通过 $\bm{\delta}^{(l)}$ 反向传播计算得到 $\bm{\delta}^{(l-1)}$ 。
因为有 $\bm{x}^{(l)}=\bm{W}^{(l)}\bm{y}^{(l-1)}=\bm{W}^{(l)}\sigma_{l-1}(\bm{x}^{(l-1)})$ ，我们先考虑由 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 计算 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}$ 。重写 $\bm{x}^{(l)}$ 和 $\bm{y}^{(l-1)}$ 如下
$\left[ \begin{array}{c} x^{(l)}_0\\ x^{(l)}_1\\ \vdots\\ x^{(l)}_{n_l-1} \end{array} \right] =\left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right]+ \left[ \begin{array}{c} b^{(l)}_0\\ b^{(l)}_1\\ \vdots\\ b^{(l)}_{n_{l}-1} \end{array} \right].$
根据链式法则不难看出
$\frac{\partial J}{\partial y^{(l-1)}_i}=\frac{\partial J}{\partial x^{(l)}_0}W^{(l)}_{0,i}+\frac{\partial J}{\partial x^{(l)}_1}W^{(l)}_{1,i}+\dots+\frac{\partial J}{\partial x^{(l)}_{n_l-1}}W^{(l)}_{n_l-1,i}, i=0,1,\dots,n_{l-1}-1.$
所以写成向量形式，有
$\frac{\partial J}{\partial y^{(l-1)}_i}=\left[W^{(l)}_{0,i},W^{(l)}_{1,i},\dots,W^{(l)}_{n_l-1,i}\right] \left[ \begin{array}{c} \frac{\partial J}{\partial x^{(l)}_0}\\ \frac{\partial J}{\partial x^{(l)}_1}\\ \vdots\\ \frac{\partial J}{\partial x^{(l)}_{n_l-1}} \end{array} \right]=\left[W^{(l)}_{0,i},W^{(l)}_{1,i},\dots,W^{(l)}_{n_l-1,i}\right]\bm{\delta}^{(l)},\\ i=0,1,\dots,n_{l-1}-1.$
进一步，
$\frac{\partial J}{\partial \bm{y}^{(l-1)}}= \left[ \begin{array}{c} \frac{\partial J}{\partial y^{(l-1)}_0}\\ \frac{\partial J}{\partial y^{(l-1)}_1}\\ \vdots\\ \frac{\partial J}{\partial y^{(l-1)}_{n_{l-1}-1}} \end{array} \right]= \left[ \begin{array}{cccc} W^{(l)}_{0,0}&W^{(l)}_{1,0}&\dots&W^{(l)}_{n_l-1,0}\\ W^{(l)}_{0,1}&W^{(l)}_{1,1}&\dots&W^{(l)}_{n_l-1,1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{0,n_{l-1}-1}&W^{(l)}_{1,n_{l-1}-1}&\dots&W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \bm{\delta}^{(l)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}.$
于是，
$\bm{\delta}^{(l-1)}= \left[ \begin{array}{c} \frac{\partial J}{\partial x^{(l-1)}_0}\\ \frac{\partial J}{\partial x^{(l-1)}_1}\\ \vdots\\ \frac{\partial J}{\partial x^{(l-1)}_{n_{l-1}-1}} \end{array} \right]= \left[ \begin{array}{c} \frac{\partial J}{\partial y^{(l-1)}_0}\sigma^{'}_{l-1}(x^{(l-1)}_0)\\ \frac{\partial J}{\partial y^{(l-1)}_1}\sigma^{'}_{l-1}(x^{(l-1)}_1)\\ \vdots\\ \frac{\partial J}{\partial y^{(l-1)}_{n_{l-1}-1}}\sigma^{'}_{l-1}(x^{(l-1)}_{n_{l-1}-1}) \end{array} \right]=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)}).$
其中 $\odot$ 是点乘。至此，我们推导出DNN中前几层 $\bm{\delta}^{(l)}$ 的递推关系 $\bm{\delta}^{(l-1)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$ 。可见，反向传播时，层 $l$ 的 $\delta$ 左乘该层权重矩阵 $\bm{W}^{(l)}$ 的转置，再点乘层 $l - 1$ 的激活函数的导数向量。

2.4 权重 $\bm{W}^{(l)}$ 和偏置 $\bm{b}^{(l)}$ 的偏导

在讲如何计算每层权重和偏置的偏导之前，先总结一下前面的结果。

输出层 $L - 1$	$\bm{\delta}^{(L-1)}=\frac{\partial J}{\partial \bm{y}^{(L-1)}}\odot\sigma^{'}_{L-1}(\bm{x}^{(L-1)})$
前面层 $l$ ， $l=1,\dots,L-1$	$\bm{\delta}^{(l-1)}=(\bm{W}^{(l)})^T\bm{\delta}^{(l)}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$

利用这两个式子，可以求出所有层的 $\bm{\delta}^{(l)}$ 。
为了方便，重写前面的一个式子。
$\left[ \begin{array}{c} x^{(l)}_0\\ x^{(l)}_1\\ \vdots\\ x^{(l)}_{n_l-1} \end{array} \right] =\left[ \begin{array}{cccc} W^{(l)}_{0,0} & W^{(l)}_{0,1} & \dots & W^{(l)}_{0,n_{l-1}-1}\\ W^{(l)}_{1,0} & W^{(l)}_{1,1} & \dots & W^{(l)}_{1,n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ W^{(l)}_{n_l-1,0} & W^{(l)}_{n_l-1,1} & \dots & W^{(l)}_{n_l-1,n_{l-1}-1} \end{array} \right] \left[ \begin{array}{c} y^{(l-1)}_0\\ y^{(l-1)}_1\\ \vdots\\ y^{(l-1)}_{n_{l-1}-1} \end{array} \right]+ \left[ \begin{array}{c} b^{(l)}_0\\ b^{(l)}_1\\ \vdots\\ b^{(l)}_{n_{l}-1} \end{array} \right].$
在该式中，含有权重 $\bm{W}^{(l)}$ 和偏置 $\bm{b}^{(l)}$ ，而我们现在已经得到了每一层的 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ ，因此利用链式法则计算 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 并不困难。注意 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 是一个矩阵：
$\begin{aligned} \frac{\partial J}{\partial \bm{W}^{(l)}}&= \left[ \begin{array}{cccc} \frac{\partial J}{\partial W^{(l)}_{0,0}} & \frac{\partial J}{\partial W^{(l)}_{0,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{0,n_{l-1}-1}}\\ \frac{\partial J}{\partial W^{(l)}_{1,0}} & \frac{\partial J}{\partial W^{(l)}_{1,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{1,n_{l-1}-1}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial J}{\partial W^{(l)}_{n_l-1,0}} & \frac{\partial J}{\partial W^{(l)}_{n_l-1,1}} & \dots & \frac{\partial J}{\partial W^{(l)}_{n_l-1,n_{l-1}-1}} \end{array} \right]\\ &=\left[ \begin{array}{cccc} \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{0}}y^{(l-1)}_{n_{l-1}-1}\\ \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{1}}y^{(l-1)}_{n_{l-1}-1}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_0 & \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_1 & \dots & \frac{\partial J}{\partial x^{(l)}_{n_l-1}}y^{(l-1)}_{n_{l-1}-1} \end{array} \right]\\ &=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T \end{aligned}.$
可见，某一层的损失函数关于权重的偏导数是当前层的 $\bm{\delta}^{(l)}$ 右乘当前层的输入向量的转置。注意这里当 $l = 0$ 的时候， $\bm{y}^{(l-1)}$ 应该取整个DNN的输入数据向量。 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 同样利用链式法则，发现其等于 $\bm{\delta}^{(l)}$ .

$\frac{\partial J}{\partial \bm{W}^{(l)}}=\bm{\delta}^{(l)}(\bm{y}^{(l-1)})^T$
$\frac{\partial J}{\partial \bm{b}^{(l)}}=\bm{\delta}^{(l)}$

3. CNN的后向传播算法

CNN和DNN在后向传播算法的推导上最大的区别在于：1.CNN基本是二维矩阵的计算（除了全连接层）；DNN基本是向量的计算。2.CNN含有DNN没有的卷积层和池化层。因此，下面从卷积和池化两个方面来说明CNN的后向传播算法。全连接层的后向传播算法与DNN完全相同。

3.1 池化层的后向传播

假设层 $l$ 是一个池化层，如上图。需要注意，他的前一层可能是不待激活函数的卷积层，虽然图中画了激活函数，但是可以认为该激活函数为 $\bm{y}^{(l-1)}=\sigma_{l-1}(\bm{x}^{(l-1)})=\bm{x}^{(l-1)}$ 。图中也标出了张量数据的大小，例如 $\bm{x}^{(l-1)}$ 含有 $c_{l-1}$ 个通道，每个通道上的特征图的大小为 $m_{l-1}\times n_{l-1}$ 。值得注意的是，对于池化层，池化前后通道数目不变，即 $c_l=c_{l-1}$ 。最常见的池化为最大池化和平均池化。类似于DNN中的符号，在CNN中我们也记 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ ，但是这里的 $\bm{x}^{(l)}$ 是高维张量。
考虑通道数目为1，即 $c_l=c_{l-1}=1$ ，并另 $m_{l-1}\times n_{l-1}=4\times 4$ 。设池化长度为 $2\times 2$ ，步长为2，则有 $m_{l}\times n_{l}=2\times 2$ 。下图显示了两种池化方案中，层 $l$ 的偏导数 $\bm{\delta}^{(l)}=\frac{\partial J}{\partial \bm{x}^{(l)}}$ 是如何后向传播得到 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}$ 。对于平均池化，因为认为每个元素对于池化后的特征图的对应元素的贡献相等，因此 $\bm{\delta}^{(l)}$ 在反向传播的时候将平均分配到每个元素上。对于最大池化，认为只有最大的元素才对池化后的特征图对应元素有影响，因此反向传播时也只将 $\bm{\delta}^{(l)}$ 传播到原最大元素上。例如图中的b，池化后的特征图中(0,0)位置对应原特征图中的最大值的位置(0,1)，因此0.4只回传到原来的(0,0)位置；池化后的特征图中(1,1)位置对应原特征图中的最大值的位置(2,2)，因此0.6只回传到原来的(2,2)位置。

将上过程记为 $\frac{\partial J}{\partial \bm{y}^{(l-1)}}=unsample(\bm{\delta}^{(l)})$ 。为了得到 $\bm{\delta}^{(l-1)}$ ，还需要利用链式法则， $\bm{\delta}^{(l-1)}=\frac{\partial J}{\partial \bm{y}^{(l-1)}}\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})=unsample(\bm{\delta}^{(l)})\odot\sigma^{'}_{l-1}(\bm{x}^{(l-1)})$ 。

3.2 卷积层的后向传播

$\bm{x}^{(l)}$ , $\bm{y}^{(l)}$ , $\bm{\delta}^{(l)}$ 均是3维张量，因此我们用下标 $(i, j, k)$ 表示第 $i$ 通道的特征图的在位置 $(i, j)$ 上的元素，例如 $\bm{x}^{(l)}_{i,j,k}$ 。此外， $\bm{x}^{(l)}_{i,:,:}$ 表示整个第 $i$ 通道的特征图，他是一个2维矩阵。 $\bm{x}^{(l)}_{i,:,k}$ 和 $\bm{x}^{(l)}_{i,j,:}$ 分别表示第 $i$ 通道的特征图的第 $k$ 列和第 $j$ 行构成的列向量和行向量。其他张量和 $\bm{x}$ 的表示一样。
在卷积层 $l$ 中，卷积后特征通道为 $j$ 的特征图需要与 $c_{l-1}$ 个输入特征图进行卷积，因此他的filter需要有 $c_{l-1}$ 卷积核和一个偏置。记这 $c_{l-1}$ 个卷积核为 $\bm{W}^{(l)}_{0,j},\bm{W}^{(l)}_{1,j},\dots,\bm{W}^{(l)}_{c_{l-1}-1,j}$ ，他们是2维矩阵，大小均为 $p_l\times p_l$ 。记这个偏置为 $b^{(l)}_i$ ，他是一个标量。
在一个卷积层中，有
$\bm{x}^{(l)}_{i,:,:}=\sum^{c_{l-1}-1}_{j=0}\bm{y}^{(l-1)}_{j,:,:}*\bm{W}^{(l)}_{i,j}+\bm{b}^{(l)}_{i},i=0,1,\dots,c_l-1.\tag{2}$
这里的 $\bm{b}^{(l)}_{i}$ 是大小与 $\bm{x}^{(l)}_{i,:,:}$ 相同( $m_l\times n_l$ )，且所有元素均为 $b^{(l)}_i$ 的矩阵。
由于卷积层的后向传播算法较为复杂，我们仍然按照讲DNN后向传播算法时的划分方法，先推导 $\bm{\delta}^{(l)}$ 的递推公式，然后推导如何由每一层的 $\bm{\delta}^{(l)}$ 求得对应的 $\frac{\partial J}{\partial \bm{W}^{(l)}}$ 和 $\frac{\partial J}{\partial \bm{b}^{(l)}}$ 。

3.2.1 卷积层的 $\bm{\delta}^{(l)}$ 递推公式

和DNN一样，最后一层的 $\bm{\delta}^{(L-1)}$ 可以容易求得（这里的最后一层是指最后一个卷积层），因此我们需要知道 $\bm{\delta}^{(l)}$ 到 $\bm{\delta}^{(l-1)}$ 的递推公式，以求得所有卷积层的 $\bm{\delta}^{(l)}$ 。
为了推导方便，我们将(2)中的矩阵形式进一步写成标量形式。我们这里只考虑卷积步长为1的情况。考虑矩阵 $\bm{x}^{(l)}_{i,:,:}$ 中的某个元素 $\bm{x}^{(l)}_{i,u,v}$ ，有 $0\leq u0≤u<ml$

现在考虑某个输入通道 $j$ ， $\frac{\partial J}{\partial y^{(l-1)}_{j,:,:}}$ 在位置 $(u, v)$ 上的元素记为 $\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}$ 。根据链式法则，我们需要求 $J$ 对所有包含 $y^{(l-1)}_{j,u,v}$ 的变量的偏导。因此有
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum_{(u^{'},v^{'})\in Q_i}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}.$
其中 $Q_i$ 是输出信道 $i$ 中，与 $y^{(l-1)}_{j,u,v}$ 有关的 $x^{(l)}_{i,u^{'},v^{'}}$ 的下标 $u^{'},v^{'})$ 的集合。(这里的"有关"指的是在卷积运算中的包含关系)实际上，有 $Q_0=Q_1=\dots=Q_{c_l-1}=Q$ 。因此重写上式为
$\frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}=\sum^{c_{l}-1}_{i=0}\sum_{(u^{'},v^{'})\in Q}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}.$

我们需要形象地表示出 $Q$ 所包含的坐标，因此下图给出一个大小为 $3\times 3$ 的卷积核的示例。左边的矩阵是被卷积矩阵，右边是卷积后的矩阵。考虑被卷积矩阵坐标为 $(u, v)$ 的元素，不难看出，卷积后的矩阵元素，涉及该元素运算的是图中坐标为 $(u - 2, v - 2)$ , $(u - 2, v)$ , $(u, v - 2)$ 和 $(u, v)$ 四个元素围成的矩形中的所有元素。记卷积后的特征图大小为 $m\times n$ ，则 $Q$ 可以表示为 $Q=\{(u^{'},v^{'}):u^{'}>=0,v^{'}>=0,u^{'}Q={(u′,v′):u′>=0,v′>=0,u′<m,v′<n,u′=u−2,u−1,…,u,v′=v−2,v−1,…,v}$

有了以上对 $Q$ 的讨论，上面的式子变为
$\begin{aligned} \frac{\partial J}{\partial y^{(l-1)}_{j,u,v}}&=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}\frac{\partial x^{(l)}_{i,u^{'},v^{'}}}{\partial y^{(l-1)}_{j,u,v}}\\ &=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\frac{\partial J}{\partial x^{(l)}_{i,u^{'},v^{'}}}W^{(l)}_{i,j;u-u^{'},v-v^{'}}\\ &=\sum^{c_{l}-1}_{i=0}\sum^{u}_{u^{'}=u-p_l+1}\sum^{v}_{v^{'}=v-p_l+1}\delta^{(l)}_{i,u^{'},v^{'}}W^{(l)}_{i,j;u-u^{'},v-v^{'}},\\ &0\leq u^{'}∂yj,u,v(l−1)∂J=i=0∑c$

java实现卷积神经网络CNN（附带源码） Katie。 Java 实战项目 java
Java实现卷积神经网络（CNN）项目详解目录项目概述1.1项目背景与意义1.2什么是卷积神经网络（CNN）1.3卷积神经网络的应用场景相关知识与理论基础2.1神经网络与深度学习概述2.2卷积操作与卷积层原理2.3激活函数与池化层2.4全连接层与损失函数2.5前向传播、反向传播与梯度下降项目需求与分析3.1项目目标3.2功能需求分析3.3性能与扩展性要求3.4异常处理与鲁棒性考虑系统设计与实现思路
MobileNet家族：从v1到v4的架构演进与发展历程彩旗工作室人工智能架构人工智能机器学习 cnn 卷积神经网络
MobileNet是一个专为移动设备和嵌入式系统设计的轻量化卷积神经网络（CNN）家族，旨在在资源受限的环境中实现高效的图像分类、对象检测和语义分割等任务。自2017年首次推出以来，MobileNet经历了从v1到v4的多次迭代，每一代都在计算效率、模型大小和准确性上取得了显著进步。本文将详细探讨MobileNetv1、v2、v3和v4的原理、架构设计及其发展历程，并分析其关键创新和性能表现。Mo
Vision Transformer (ViT) 详细描述及 PyTorch 代码全解析 AIGC_ZY CV transformer pytorch 深度学习
VisionTransformer(ViT)是一种将Transformer架构应用于图像分类任务的模型。它摒弃了传统卷积神经网络(CNN)的卷积操作，而是将图像分割成patches，并将这些patches视为序列输入到Transformer编码器中。ViT的处理流程输入图像被分割成多个固定大小的patch，每个patch经过线性投影变成嵌入向量，然后加上位置编码。接着，这些嵌入向量会和类别标签（c
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
YOLO11改进-模块-引入多尺度差异融合模块MDFM 一勺汤 YOLOv11模型改进系列深度学习人工智能 YOLO YOLOv11 目标检测模块改进
遥感变化检测（RSCD）专注于识别在不同时间获取的两幅遥感图像之间发生变化的区域。近年来，卷积神经网络（CNN）在具有挑战性的RSCD任务中展现出了良好的效果。然而，这些方法未能有效地融合双时相特征，也未提取出对后续RSCD任务有益的有用信息。此外，它们在特征聚合中没有考虑多层次特征交互，并且忽略了差异特征与双时相特征之间的关系，从而影响了RSCD的结果。为解决上述问题，本文通过孪生卷积网络提取不
DG-Manba模型详解及代码复现清风AI 深度学习计算机视觉 pytorch 人工智能神经网络
模型特点在DG-Manba模型的基础架构中，其独特的模型特点使其在处理序列数据时展现出卓越的性能。本节将详细介绍DG-Manba模型在架构、功能和性能方面的创新之处。选择性机制DG-Manba模型的核心创新在于其选择性机制。这种机制允许模型根据输入数据的特征动态调整其行为，类似于递归神经网络（RNN）中的门控机制，但在状态空间模型（SSM）的框架下提供了更广泛的应用可能性。通过这种方式，DG-Ma
YOLO优化之扫描融合模块（SimVSS Block）清风AI 人工智能计算机视觉 YOLO 目标检测深度学习目标跟踪
研究背景在自动驾驶技术快速发展的背景下，目标检测作为其核心组成部分面临着严峻挑战。驾驶场景中目标尺度和大小的巨大差异，以及视觉特征不显著且易受噪声干扰的问题，对辅助驾驶系统的安全性构成了潜在威胁。传统的卷积神经网络（CNN）虽然在目标检测领域取得了显著进展，但仍存在局限性，如局部关注性导致难以有效检测不同尺度的目标。为克服这些问题，研究人员开始探索将状态空间模型（SSM）引入目标检测领域，以期提高
即插即用模块--KANLinear 苏格拉没有鞋底模型训练深度学习人工智能 python
KAN网络KAN网络即Kolmogorov-Arnold网络，是一类基于Kolmogorov-Arnold表示定理的神经网络架构，具有强大的非线性表达能力。在相同迭代次数下超越传统MLP，不仅训练速度更快，收敛性更好，而且在拟合复杂函数时的精度也明显提高。这是一个即插即用模块–KANLinear，使用时import这个代码文件，然后模型中的nn.Linear换成这个KANLinear即可impor
【杨乐昆何凯明AI论文】没有归一化的Transformer模型东临碣石82 人工智能 transformer 深度学习
摘要：归一化层在现代神经网络中无处不在，长期以来一直被视为不可或缺的组成部分。本研究表明，通过使用一种极其简单的技术，没有归一化的Transformer模型可以达到相同或更好的性能。我们引入了动态Tanh（DyT），这是一种逐元素操作，表示为DyT(x)=tanh(alphax)，作为Transformer中归一化层的即插即用替代品。DyT的灵感来源于这样一个观察：Transformer中的层归一
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
FastDVDnet：基于深度学习的视频去噪框架陆可鹃Joey
FastDVDnet：基于深度学习的视频去噪框架项目地址:https://gitcode.com/gh_mirrors/fa/fastdvdnet项目介绍FastDVDnet是一个高效、开源的深度学习模型，专注于视频去噪。该项目由MatteoTassano开发并维护，旨在提供一种快速且有效的解决方案，以消除视频中的噪声，同时保持图像细节和自然纹理。它利用了时间域的连续性和深层神经网络的力量，确保在
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
NPU的工作原理：神经网络计算的流水线绿算技术 NPU架构介绍神经网络人工智能深度学习
NPU的工作原理可以概括为以下几个步骤：1.模型加载·将训练好的神经网络模型加载到NPU的内存中。2.数据输入·输入数据（如图像、语音）通过接口传输到NPU。3.计算执行·NPU根据模型结构，依次执行卷积、池化、全连接等计算任务。·矩阵乘法单元和卷积加速器并行工作，高效完成计算。4.结果输出·计算完成后，输出结果（如分类标签、检测框）返回给主机或其他处理器。5.任务调度·在多任务场景下，NPU的任
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
神经网络完成训练的详细过程每天五分钟玩转人工智能神经网络人工智能深度学习 pytorch 机器学习优化算法包括梯度下降法
神经网络完成训练的详细过程一、神经网络的基本概念神经网络是一种模拟人脑神经系统的计算模型，由大量的神经元（节点）和它们之间的连接（权重）组成。神经元接收输入信号，通过加权求和和激活函数的处理，产生输出信号。这些输出信号又可以作为其他神经元的输入，从而形成一个复杂的网络结构。神经网络的训练过程就是调整这些权重和偏置（每个神经元除了有权重外，还有一个偏置项，用于调整输出的阈值），使得网络的输出能够尽可
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
神经网络中常用语言特性（python）（待完善）邪恶的贝利亚 python 开发语言
1.元类在Python中，abc模块（AbstractBaseClasses，抽象基类）提供了创建抽象基类的机制，这些抽象基类可以用来定义接口，强制子类实现特定的方法，有助于实现多态性和代码的可维护性。下面从多个方面详细介绍abc元类相关内容。ABCMeta是abc模块中的元类，ABC类实际上就是使用ABCMeta作为元类创建的。你也可以直接使用ABCMeta来创建抽象基类。classShape(
卷积神经网络可视化天行者@ cnn 人工智能神经网络
卷积神经网络（CNN）的可视化是理解模型行为、调试性能和解释预测结果的重要工具。以下从技术原理、实现方法和应用场景三个维度，系统梳理CNN可视化的核心技术，并提供代码示例和前沿方向分析：一、CNN可视化的核心维度1.卷积核可视化原理：提取卷积层的权重，将其转换为图像形式，观察滤波器学习到的模式。实现步骤：提取卷积层权重（形状为[out_channels,in_channels,kernel_siz
AI的发展历程，你知道是从什么时候开始的吗？ A达峰绮人工智能 ai 经验分享
AI的发展历程是一段充满探索、突破与起伏的历史，以下是其主要阶段的介绍：诞生与早期探索阶段（20世纪50年代-60年代）基础理论奠基：1943年，美国神经生理学家沃伦·麦卡洛克和数学家沃尔特·皮茨发表了《Alogicalcalculusofideasimmanentinnervousactivity》论文，提出M-P模型，为神经网络的研究奠定了基础。1950年，阿兰·图灵发表《ComputingM
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

DNN和CNN的反向传播算法（全连接层、卷积层、池化层）

1. 数值微分

2. DNN的后向传播算法

2.1 多元复合函数的微分：链式法则

2.2 最后一层（层 L − 1 L-1 L−1）的偏导数

2.3 中间层 l l l的偏导数

2.4 权重 W ( l ) \bm{W}^{(l)} W(l)和偏置 b ( l ) \bm{b}^{(l)} b(l)的偏导