MasJilwei

卷积神经网络前向、反向传播公式推导

最近闲来无事，手推了一下CNN的反向传播。但是发现网上的blog大多只是简单的从常用的一些参数设置角度对每一种层进行了推导（以及互相抄袭互相转载），但是事实上CVer们为了发论文才不会只使用最基本的层的参数设置，所以这里除了把一些大家都讲烂了的基本情况抄袭一遍之外，增加一些比较有趣的问题。

注意，本文没有指责其他人的推导是错误的，只是补充了一些在实际应用中会遇到的情况

这里按照AlexNet结构的CNN模型，先讲解前向传播再反推反向传播。另外，一般研究能读到这里的都是来找反向传播的，所以前向我就简单些，反正已经烂大街了。Pytorch官网给出的AlexNet结构如下：

Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
ReLU(inplace=True),
MaxPool2d(kernel_size=3, stride=2),
Conv2d(64, 192, kernel_size=5, padding=2),
ReLU(inplace=True),
MaxPool2d(kernel_size=3, stride=2),
Conv2d(192, 384, kernel_size=3, padding=1),
ReLU(inplace=True),
Conv2d(384, 256, kernel_size=3, padding=1),
ReLU(inplace=True),
Conv2d(256, 256, kernel_size=3, padding=1),
ReLU(inplace=True),
MaxPool2d(kernel_size=3, stride=2),
Dropout(),
Linear(256 * 6 * 6, 4096),
ReLU(inplace=True),
Dropout()
Linear(4096, 4096),
ReLU(inplace=True),
Linear(4096, num_classes),

其构成主要是卷积层、非线性激活函数层、池化层、全连接层，当然后面新的网络还增加了BN层，pytorch官方给出的还去掉了Local Response Normalized层。总之这个模型很简单，至于复杂的东西后面再慢慢加上。

前向传播

对于这些层的物理意义、数学本质，请移步其他专门讲这个的blog，由于我的关注点在于数学公式推导上面，所以就不深入讲解了

1、卷积层
卷积层顾名思义，执行卷积操作，计算公式如下：
$y_{n_{out},i,j}=\sum_{n_{in}} \sum_{k_x} \sum_{k_y}w_{n_{out},n_{in},k_x,k_y}\times x_{n_{in},i+k_x,j+k_y}$
定义输入 $x$ 为输入特征图， $w$ 为卷积核权重，输出 $y$ 为输出特征图， $n_{out}$ 为输出通道的序号， $n_{in}$ 为输入通道的序号， $k_x，k_y$ 是卷积核权重位置， $i+k_x，j+k_y$ 是当前参与卷积的输入特征图的像素位置， $i, j$ 是输出特征图的像素位置。

一个卷积层的输入是一个三维的特征图，换句话说，是由许多个二维的特征图组成，每个二维特征图称为一个输入通道。一个卷积层的权重由多个三维卷积核组成，卷积核个数称为输出通道个数，输出特征图由多个二维特征图组成，个数等于输出通道个数。

从这里偷了张经典老图，具体最早起源哪里我也说不清楚了。卷积核在输入特征图上面进行滑动，每个输出对应的是多个输入与卷积核权重的乘加，在卷积核滑动过程中，卷积核权重并不会发生变化，也就是说这部分权重在整个卷积层内共享，因此卷积层对存储空间的需求相对较小。而由于输入特征图上面的每一个像素都需要大量的乘加运算，因此卷积层的计算量较大。所以很多论文里面称之为计算密集型层。

需要注意的是，此处的滑动仅进行二维滑动，在输入通道维度是一一对应的并不会滑动。

另外值得注意的是，这个图中表示了步长为1的卷积，这里的步长是指卷积核在特征图上面进行滑动的时候一次滑动的像素个数。而实际使用当中，比如本文示例模型，在第一个卷积层使用了步长为4的卷积，第二个卷积层使用了步长为2的卷积。

除此之外，还有空洞卷积（或者叫扩张卷积，英文原文是dilated convolution），这里有一个变量“dilation（我也不知道该怎么翻译更合适，有些翻译成空洞，有些翻译成扩张数，我就直接使用pytorch中conv2d类的输入变量名来代替了）”是指，二维卷积核中相邻两个权重坐标的距离，比如正常的卷积，其dilation是1，第一个权重坐标为 $(0, 0)$ ，第二个权重坐标为 $(0, 1)$ 。而实际上会出现dilation大于1的情况，那么第二个权重坐标为 $(0, d i l a t i o n)$ ，以此类推，横纵的距离均为dilation。

这里要划重点，因为后面在计算梯度的时候，步长和dilation可是很重要的一个变量

2、非线性激活函数
非线性激活函数有很多种，比如经典的 $s i g m o i d$ ：
$y=\frac{1}{1+e^x}$
再比如现在很常用的 $R e L U$ ：
$y=\left\{ \begin{array}{lr} x, & x>0 \\ 0, & x\leqslant0\\ \end{array} \right.$
非线性激活函数大体上来说能够提高模型的非线性程度，从而提升模型的表达能力。当然每个激活函数的提出都有其物理意义和数学意义，不能一言以蔽之，可以去找到最早提出的论文进行学习。

3、池化层

池化层，对英文的pooling layer进行了直译，操作是将池化窗口内的数据以一定的规则选出或者计算得到一个数据，从而得到降维的目的。常见的池化层有均值池化：
$y_{m,n}=\frac{1}{k_x\times k_y}\times \sum_{i=0,j=0}^{k_x,k_y}{x_{m+i,m+j}}$
最大值池化：
$y_{m,n}=max\{ x_{m+i,m+j}\},i\in [0,k_x],j\in [0,k_y]$
用于求和或者求最大值的数据来自于同一个池化窗口，这个操作类似于卷积，也是一个窗口在输入特征图上面进行滑动，只不过进行的操作是不一样的。另外值得注意的是，我们一般池化操作是二维操作，不同的通道分别进行。

注意，这里也有一个步长的问题，和卷积层是一样的，后面也要考。 不过这里没有dilation了，我查了一下似乎没有空洞池化23333，如果有人有兴趣做一下实验，看看效果好不好，记得反馈给我哦。

4、全连接层

全连接层最容易理解，也被称作线性层，事实上他确实就是线性公式：
$y = w * x + b$

4.1 dropout层

这一层是一个防止过拟合的trick，就是随机的只更新一部分参数。如果单纯的进行前向传播其实不需要管他，如果涉及到训练的话，那么事实上就是每次在训练的时候训练的是一个子网络，这并不会妨碍我们的计算公式，只不过是计算其中的一部分，更改一下尺寸就好，所以不再赘述。细节可以移步其他地方，比如Hinton大佬的原文。

5、损失函数

损失函数，或者可以说是代价函数，用于定量的度量当前模型和期望模型之间的差距。通过对这个差距和梯度下降（后来是随机梯度下降SGD，再后来又有Adam等其他的优化方法）等方法的使用，来优化模型。常见的损失函数有绝对误差：
$L=\frac1m\sum_{i=0}^{N-1}|y_i-\hat y_i|$ 均方误差：
$L=\frac1{2m}\sum_{i=0}^{N-1}(y_i-\hat y_i)^2$ 交叉熵：
$L=\frac1m\sum_{i=0}^{N-1}-y\times log\hat y$ 等。

这里着重讲解一下交叉熵的公式（参考这里），因为这个损失函数的使用是非常广泛的，另外在后面讲解反向传播的时候也会以此为例，以及反向传播的计算过程也能体现出交叉熵损失函数的优势。
首先介绍几个概念

概率：一件事情发生的可能性。对于事件 $x$ ，其概率为 $p (x)$
信息量：用于衡量一个事件的不确定性，其概率越大，不确定性越小，则携带的信息量越小。对于事件 $x$ ，其信息量为： $I (x) = - l o g (p (x))$
信息熵：整个系统中信息量的期望。信息量衡量的是单个事件，而熵衡量的是整个系统。对于系统 $X=[x_0,x_1..x_{N-1}]$ ，其熵为 $H(p)=-\sum_{i=0}^{N-1} p(x_i)log(p(x_i))$ 熵是来自于热力学的定义，表征的是系统的混乱程度，在信息论里面则类比一下，表示的是系统的不确定性，不确定性越大，熵值越大。
KL散度：也称KL距离，表示一个事件两种不同概率分布模型之间的距离。对于事件 $x$ ，两种概率分布模型分别为 $p (x), q (x)$ ，二者的KL散度为： $\begin{aligned} D_{KL}(p||q) & =\sum_{i=0}^{N-1} p(x_i)log\left( \frac{p(x_i)}{q(x_i)} \right)\\ & =\sum_{i=0}^{N-1} p(x_i)log(p(x_i))-p(x_i)log(q(x_i))\\ & =-H(p)+\left(\sum_{i=0}^{N-1} -p(x_i)log(q(x_i))\right)\end{aligned}$ 也就是说，KL散度就是信息熵减去一个东西
交叉熵：交叉熵就是前面说的那个东西， $H(p,q)=-\sum_{i=0}^{N-1} p(x_i)log(p(x_i)$

实际应用的时候，我们评价当前模型和期望模型之间的关系，需要使用KL散度来进行度量，也就是当前模型和期望模型之间的KL散度，因此我们可以使用这个量作为损失函数进行优化，尽可能的减小KL散度。

假设 $p$ 为期望模型的分布， $q$ 为当前模型的分布，那么就是最小化 $D_{KL}(p||q)=-H(p)+H(p,q)$ 。观察一下，事实上由于期望模型是不再变化的，所以 $- H (p)$ 是一个定值，因此我们要最小化的就是 $H (p, q)$ ，也就是交叉熵，所以在当前机器学习应用当中，我们使用交叉熵来作为损失函数。

但是呢，由于交叉熵的输入是概率值，因此要在全连接层的输出后面增加softmax层，将全连接层的输出转化为概率（类似于一个归一化）：
$y_i=\frac{e^{x_i}}{\sum_{j=0}^{N-1}e^{x_j}}$

至于通过通过最大似然的推导得到交叉熵的物理意义，还请移步其他blog（或许前面我提到的参考就可以），这里就不再多说啦，偏离了我们的正题。

反向传播

下面重头戏来了，反向传播计算梯度。既然是反向传播，那就反过来讲。

1、损失函数

接着前面的交叉熵来说，由于KL散度中的信息熵部分不发生变化，所以可以不再考虑，另一方面常数的梯度为0，不再发生变化，这也是可以忽略这一部分的原因之一。

现在假设我们得到了损失值 $L$ 。目标模型的输出为 $Y=[y_0,y_1,...y_{N-1}]$ ，当前模型输出（也就是softmax的输出）为 $\hat Y=[\hat y_0,\hat y_1,...,\hat y_{N-1}]$ ，softmax的输入（在前面放出来的模型里面也就是模型最终全连接层的输出）为 $x=[x_0,x_1,...,x_{N-1}]$ 。

首先根据前向传播经过softmax， $\hat Y$ 和 $P$ 存在以下关系：
$\hat y_i=\frac{e^{x_i}}{\sum_{j=0}^{N-1}e^{x_j}}$
$Y,\hat Y$ 和 $L$ 存在以下关系：
$L=-\sum_{i=0}^{N-1} y_ilog(\hat y_i)$
前面曾经说过， $Y$ 是固定不变的，求的是 $L$ 关于 $\hat Y$ 的梯度：
$\frac {\partial L}{\partial \hat y_i}=-\frac{y_i}{\hat y_i}$
进一步的，我们去求 $L$ 关于 $P$ 的导数。
$\frac {\partial L}{\partial x_i}=\sum _{j=0}^{N-1}\frac {\partial L}{\partial \hat y_j}\times \frac{\partial \hat y_j}{\partial \hat x_i}$
其中
$\begin{aligned} \frac{\partial \hat y_j}{\partial x_i} &=\frac{\partial \frac{e^{x_i}}{\sum_{j=0}^{N-1}e^{x_j}} }{\partial {x_i}} \\&=\frac{\partial \frac{e^{x_i}}{\sum_{j=0}^{N-1}e^{x_j}} }{\partial e^{x_i}}\times \frac {\partial e^{x_i}}{\partial x_i} \\&=\left\{ \begin{array}{lr} \hat y_i\left(1-\hat y_i\right), & i=j \\ -\hat y_i \hat y_j, & i\neq j\\ \end{array} \right. \end{aligned}$
也就是说
$\begin{aligned} \frac {\partial L}{\partial x_i}&=\sum _{j=0,i\neq j}^{N-1}\left(-\frac{y_j}{\hat y_j} \right)\times \left(-\hat y_i\hat y_j\right)+\left(-\frac{y_i}{\hat y_i}\right)\times\hat y_i\left(1-\hat y_i\right)\\&=\sum_{i=0,i\neq j}^{N-1}\left(y_j\hat y_i\right)+y_i\hat y_i-y_i\\&=\hat y_i-y_i \end{aligned}$
非常简洁的结果。前面说过softmax+交叉熵好啊，不仅仅其含义，算起梯度来也是简单的不行。

注意，这里我们用到了所谓的链式法则，也就是一层一层逐级往前递推。 首先是计算softmax输出的梯度，在计算全连接层输出的梯度，每次只需要计算当前层的梯度与前一层传递过来的倒数进行合并。我们将前面的公式重新按照这种方式写下：
$\frac {\partial L}{\partial x}=\frac {\partial L}{\partial \hat y}\times \frac{\partial \hat y}{\partial x}$
2、全连接层

前面我们得到的是模型损失关于全连接层输出的偏导数，根据链式法则，我们只需要得到当前层的梯度，再与前面传递过来的梯度进行合并即可。

假设传递过来的梯度为 $\delta_{l+1}$ ,我们看一下前向传播的公式：
$y = w x + b$
所以输出对于输入的梯度就是
$\frac {\partial y_j}{\partial x_i}=w_{i,j}$
按照前面的说法，我们将传递过来的梯度与当前层计算梯度进行合并
$\frac {\partial L}{\partial x_i}=\sum_{j=0}^{N-1}\frac {\partial L}{\partial y_j}\times \frac{\partial y_j}{\partial x_i}$
根据权重和输入输出的尺寸及计算关系，得到矩阵形式的计算公式（或者可以将原始公式转化为 $w^Ty=x$ ，由于计算梯度，常数 $b$ 忽略）：
$\frac {\partial L}{\partial x}=w^T\delta_{l+1}$
这样我们就活得了通过全连接层进行传递后得到的梯度。

同理，对于公式中的另外两个变量有如下梯度：
$\frac {\partial L}{\partial w}=\delta_{l+1}x^T$ $\frac{\partial L}{\partial b}=\delta_{l+1}$
3、非线性激活函数
以模型里面用的ReLU为例：
$y=\left\{ \begin{array}{lr} x, & x>0 \\ 0, & x\leqslant0\\ \end{array} \right.$
该层梯度很容易计算：
$\frac{\partial y_i}{\partial x_i}=\left\{ \begin{array}{lr} 1, & x_i>0 \\ 0, & x_i\leqslant0\\ \end{array} \right.$
所以很明显我们可以看出来，输出梯度与输入梯度是一一对应的。因此这里引入一个新的计算符号 $\odot$ ，这个符号表示Hadamard积，是指同一尺寸向量或者矩阵内元素一一对应相乘。

因此对于所有的激活函数，根据链式法则，仍然假设前面传入的梯度为 $\delta_{l+1}$ ，假设非线性激活函数的梯度为 $\sigma'$ 那么：
$\frac{\partial L}{\partial x}=\delta_{l+1}\odot \sigma'$
其他blog的结论一样，那确实毕竟我们推导使用了一样的激活函数。但是问题来了，是不是所有激活函数都是一对一输出的？按理说我没见过其他的，softmax虽然也叫激活函数，但是一般他都不会用在中间，一般都是和交叉熵一起用在最后，所以多数时候还是可以放心使用的。只不过，如果真的某一天出现了比较魔幻的激活函数。。。。总之慢慢往回推雅克比肯定是没问题的

3.1、dropout层

前面说过，跳过。

4、池化层

本文示例模型再往前推是最大值池化层，以此为例，池化尺寸为 $3\times 3$ ，步长为2。这会发生一些很有趣的事情，因此我们先来使用一个比较常见的为例，也就是池化尺寸 $2\times 2$ ，步长为2。

对于一个池化窗口内的数据而言：
$y_0=max\left[ \begin{array}{lr} x_{0,0},x_{0,1}\\ x_{1,0},x_{1,1}\\ \end{array}\right]$
假设最大值是 $x_{0,1}$ ,那么对于求导而言
$\frac{\partial y_0}{\partial x}=\left[ \begin{array}{lr} 0,1\\ 0,0\\ \end{array}\right]$
也就是说，传递上来的梯度，会传递到前向传播时最大值所对应的位置上。而且由此我们可以看出，像非线性激活函数一样，被选出来的最大值于后面的梯度一一对应，其他是0。所以一样的道理使用 $\odot$ 进行计算。或者我们可以认为，对传递上来的梯度进行上采样，然后再与当前层梯度一一对应相乘。

同理如果是均值池化，对于一个池化窗口内的数据而言：
$y_0=\frac14\left(x_{0,0}+x_{0,1}+x_{1,0}+x_{1,1}\right)$
那么梯度就是
$\frac{\partial y_0}{\partial x}=\left[ \begin{array}{lr} \frac14,\frac14\\ \frac14,\frac14\\ \end{array}\right]$
和最大值池化一样仍然可以考虑为对传递而来的梯度进行上采样再与当前层梯度一一对应相乘。

像前面非线性激活函数一样，我们令当前池化层梯度为 $\sigma'$ ，那么计算公式为：
$\frac{\partial L}{\partial x}=upsample\left(\delta_{l+1}\right)\odot \sigma'$
到这里我们就得到了网上搜到的大多数blog的公式了。这没什么问题。但是如果我们进一步考虑到本文示例模型中的池化层，尺寸为 $3\times 3$ 步长为2的最大值池化。

对于一个池化窗口内的数据而言：
$y_0=max\left[ \begin{array}{lr} x_{0,0},x_{0,1},x_{0,2}\\ x_{1,0},x_{1,1},x_{1,2}\\ x_{2,0},x_{2,1},x_{2,2}\\ \end{array}\right]$
假设最大值是 $x_{0,2}$ ,那么对于求导而言
$\frac{\partial y_0}{\partial x}=\left[ \begin{array}{lr} 0,0,1\\ 0,0,0\\ 0,0,0\\ \end{array}\right]$
也就是说，传递上来的梯度，会传递到前向传播时最大值所对应的位置上。到这里还没有什么问题。

池化窗口需要滑动，滑动两个像素，那么：
$y_1=max\left[ \begin{array}{lr} x_{0,2},x_{0,3},x_{0,4}\\ x_{1,2},x_{1,3},x_{1,4}\\ x_{2,2},x_{2,3},x_{2,4}\\ \end{array}\right]$
假设最大值还是 $x_{0,2}$ ,那么对于求导而言
$\frac{\partial y_1}{\partial x}=\left[ \begin{array}{lr} 1,0,0\\ 0,0,0\\ 0,0,0\\ \end{array}\right]$
有没有发现一个很有趣的问题？从 $y_0,y_1$ 两个路径去计算梯度，都会把梯度传到 $x_{0,2}$ 这里。所以
$\frac{\partial L}{\partial x_{0,2}}=\frac{\partial L}{\partial y_0}\frac{\partial y_0}{\partial x_{0,2}}+\frac{\partial L}{\partial y_1}\frac{\partial y_1}{\partial x_{0,2}}$
这显然不能够使用上采样才一一对应相乘的公式了。我也没想出来一个很好的可以直接统一使用的很好的公式，如果有做框架的大佬看到这里希望能私聊指点我一下框架里面是怎么实现的。而我自己的话，大概可能也许就只能用大量的循环挨个去判断了（我后面会上传一些我手写的python代码，就是用的循环，可是太慢了）。

5、卷积层

最后就是我们的重头戏卷积层了。好累，明天再写。

一、新手学习爬虫第一课对网站发起请求（基于python语言） [木子加贝] python自学爬虫学习爬虫 python 开发语言后端
目录前言一、安装并引用请求模块requests1.安装请求模块2.引用requests请求模块3.引用requests请求模块并使用别名二、发起请求1.对网站发起get请求（最常用的请求）：（1）第一种方法（字符串）（2）第二种方法（变量）（3）第三种方法（关键字传参）2.对网站发起带参数的get请求：3.对网站发起post请求：4.对网站发JSON数据的post请求：4.注意事项总结前言爬虫的本
【Python Web开发】Python Web开发知识全解析萧鼎 python基础到进阶教程 python 前端开发语言
PythonWeb开发知识全解析Python是一种强大的编程语言，以其简洁和高效而闻名，尤其在Web开发领域，它有着广泛的应用。Python提供了许多功能强大且灵活的Web框架，如Flask、Django、FastAPI等，使得构建现代Web应用变得简单而高效。本文将从PythonWeb开发的基本知识入手，逐步介绍开发流程、核心技术以及如何使用Python框架构建高效、可扩展的Web应用。1.什么
【Pip】配置和优化 `pip` 安装源：提升 Python 包管理体验的全面指南丶2136 #pip pip python 开发语言
目录引言一、什么是`pip`配置文件？1.1配置文件的类型与位置二、配置文件的结构与配置项2.1中英文注释配置文件示例三、详细解析配置项3.1镜像源设置（`index-url`和`extra-index-url`）3.2代理设置（`proxy`）3.3安装选项（`no-deps`和`user`）3.4缓存控制（`no-cache-dir`和`cache-dir`）3.5日志和调试（`verbose
奥比中光Geminipro相机使用一傲 python 开发语言
相机使用入门，使用python获取深度图和颜色图并显示。#安装依赖importcv2importnumpyasnpfrommatplotlibimportpyplotasplt#奥比中光OrbbecPythonSDKfromObTypesimport*fromPropertyimport*importPipelineimportStreamProfilefromErrorimportObExcep
2021 年 GitHub 上十大最火 Python 项目，看完之后我裂开了酔清风 python github python 开发语言
GitHub作为程序员每天必逛的网站之一，上面有着太多优秀的开源项目，今天派森酱就带大家来梳理下在过去的一年里，GitHub上最火的Python项目Top10。数据获取如果你留心看过GitHub的文档的话，你就会知道关于GitHub上的大部分数据，GitHub官方都是提供了接口了的。比如我们今天要获取的数据就可以从下面这个接口拿到。https://api.github.com/search/rep
一、PyCharm(Professional)搭建Django环境郝家伙~ pycharm ide python django
目录一、创建项目1.左侧选择Django框架2.点击create开始创建项目3.下载Django失败，使用默认源下载可能失败，需要指定其他源，这里使用阿里源4.手动创建项目django-adminstartproject项目名称5.进入当前项目创建应用python3manage.pystartappsign6.点击运行按钮或终端运行项目python3manage.pyrunserverip:端口，
django项目部署ubuntu服务器,Ubuntu部署Django项目方法详解 weixin_39965075
教程使用的软件版本：Ubuntu18.04.1LTS，django2.0，Python3.6.5、nginx-1.13.7、uWSGI(2.0.17.1)，Ubuntu是纯净的，全新的。下面我们开始来部署。如果觉得看文字没意思，想看视频教程的，请点击这里：Django项目部署视频教程一、更新操作系统和安装依赖包#更新操作系统软件库sudoapt-getupdatesudoapt-getupgrad
python模块os和 importlib实战指南 ivwdcwso 开发运维 python 服务器运维开发 devops
os和importlib是Python中两个非常强大的模块，分别用于与操作系统交互和动态导入模块。本文将通过实际代码示例，展示如何在实际项目中使用这两个模块，帮助你更好地理解它们的用途和应用场景。©ivwdcwso(ID:u012172506)1.os模块实战os模块主要用于与操作系统交互，例如读取环境变量、操作文件路径、执行系统命令等。以下是os模块的常见实战场景。1.1读取环境变量在开发中，我
Django 日志配置实战指南 ivwdcwso django 数据库 sqlite python 开发
日志是Django项目中不可或缺的一部分，它帮助我们记录应用程序的运行状态、调试信息、错误信息等。通过合理配置日志，我们可以更好地监控和调试应用程序。本文将详细介绍如何在Django项目中实现日志文件分割、日志级别控制以及多环境日志配置，并结合最佳实践和代码示例，帮助你全面掌握Django日志的使用。1.日志级别概述Python的日志模块定义了以下日志级别（从低到高）：DEBUG：详细的调试信息，
leetCode热门100题——3.最长连续序列 Bin二叉 leetcode 算法数据结构 java
目录题目描述分析方法：从最小数开始遍历思路代码时间复杂度题目描述给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1
Django WSGI 异步处理和多线程的实战指南 penmily django python
1.DjangoWSGI的架构和工作原理Django作为Python编程语言中最受欢迎的web框架之一，其WSGI（WebServerGatewayInterface）支持为应用的扩展性和性能优化提供了基础。本章将介绍DjanogWSGI架构的基本组成，阐述其工作原理，并分析它是如何使得Django应用能够与各种web服务器进行交互的。1.1WSGI架构的组成WSGI是Python的一种协议，定义
改进候鸟优化算法之二：基于混沌映射的候鸟优化算法（MBO-CM）搏博算法人工智能 r语言开发语言算法策略模式
基于混沌映射的候鸟优化算法（MigratingBirdsOptimizationbasedonChaoticMapping，MBO-CM）是一种结合了混沌映射与候鸟优化算法（MigratingBirdsOptimization，MBO）的优化方法。一、候鸟优化算法（MBO）简介候鸟优化算法是一种自然启发的元启发式算法，由Duman等人于2011年（也有说法为2012年）提出。该算法模拟候鸟在迁徙过
Python-Django 开源项目实战指南贾蕙梅Wayne
Python-Django开源项目实战指南python-djangoOpenTracinginstrumentationfortheDjangoframework项目地址:https://gitcode.com/gh_mirrors/py/python-django项目介绍Python-DjangoOpenTracing扩展是由OpenTracing社区贡献的一个开源项目，专为Django框架设计
由于直接展示多种编程语言的全套游戏代码会相当冗长，我将为你概述一个简单的小游戏——猜数字游戏，并用几种流行的编程语言（Python, JavaScript, C++, Java）给出其核心逻辑的代码片 IsaacHornby 游戏 python javascript
Python版本ftinc.cnPython版本非常直观，适合初学者。pythonimportrandomdefguess_number_game():number_to_guess=random.randint(1,100)guess=Noneattempts=0print("我想了一个1到100之间的数字，你能猜到是哪个吗？")whileguess!=number_to_guess:try:g
Python数据分析案例教程 kkchenjj 数据挖掘 python 数据分析信息可视化
Python数据分析案例教程Python在数据分析中的应用Python因其简洁的语法、强大的库支持以及广泛的社区资源，已成为数据分析领域的首选语言。它能够处理从数据清洗、数据可视化到机器学习模型构建的整个数据科学流程。本节将深入探讨Python在数据分析中的具体应用，包括但不限于数据清洗、数据探索、统计分析和预测建模。数据清洗数据清洗是数据分析的首要步骤，涉及处理缺失值、异常值、重复数据以及数据类
python中json的用法总结小疯子呀 python基础
一、json的概念json是一种通用的数据类型一般情况下接口返回的数据类型都是json长得像字典，形式也是k-v{}其实json是字符串字符串不能用key、value来取值，所以要先转换为字典才可以使用JSON函数，需要先导入importjson二、json的相关方法1、json.dumps：将Python对象编码成JSON字符串2、json.loads：将已编码的JSON字符串解码为Python
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分长风清留扬最新Python入门基础合集 python 笔记学习异常处理改行学it 异常 BUG
本文是第二部分，第一部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论异常类型IndexError
有史以来最全的异常类讲解没有之一！第三部分爆肝4万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第三部分长风清留扬最新Python入门基础合集 python 面试异常处理 BUG 异常类型职场和发展改行学it
本文是第三部分，第一第二部分请看：有史以来最全的异常类讲解没有之一！爆肝3万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第一部分有史以来最全的异常类讲解没有之一！第二部分爆肝2万字，终于把Python的异常类写完了！最全Python异常类合集和案例演示，第二部分博客主页：长风清留扬-CSDN博客系列专栏：Python基础专栏每天更新大数据相关方面的技术，分享自己的实
还在为Python“运算符”中遇到的BUG而发愁吗？，变量相关的问题和解决办法看这篇文章就够了！长风清留扬 android python bug 运算符
博客主页：长风清留扬-CSDN博客系列专栏：Python疑难杂症百科-BUG编年史每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论关于运算符中常见的问题和解决方法在Python编程的浩瀚宇宙中，变量如同星辰般璀璨，它们承载着数据，驱动着程序的运行。然而，即便是这些看似简单的构建块，也时常隐藏着令
Python全网最全基础课程笔记(十三)——作用域，跟着思维导图和图文来学习，爆肝2w字，无数代码案例！长风清留扬最新Python入门基础合集 python 笔记学习作用域面试跳槽改行学it
本专栏系列为Pythong基础系列，每篇内容非常全面，包含全网各个知识点，非常长，请耐心看完。每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，
Python全网最全基础课程笔记(三)——所有运算符+运算符优先级长风清留扬最新Python入门基础合集开发语言 python 运算符 Python基础 numpy pandas pip
本专栏系列为Pythong基础系列，每天都会更新新的内容，搜罗全网资源以及自己在学习和工作过程中的一些总结，可以说是非常详细和全面。以至于为什么要写的这么详细：自己也是学过Python的，很多新手只是简单的过一篇语法，其实对于一个知识点的底层逻辑和其他使用方法以及参数详情根本不是很了解，这就导致学完很容易忘记，而且在实战过程中也是半知半解，所以自己就尽量写的详细些，让需要的人能更了解Python的
python中json的使用余生的观澜 python技术栈 json python 开发语言
问题与背景在python中对json的使用无非就是以下几种：dict转json字符串json字符串转dictdict类型写入json文件json文件读取为dict类型解决方案与总结变量类型的映射dict与json互相转化importjsontesdic={'name':'Tom','age':18,'score':{'math':98,'chinese':99}}print(type(tesdic
Nacos负载均衡平凡人笔记平凡人笔记负载均衡 java 运维
常见的负载均衡策略随机、hash、轮询、权重、最小连接数、最快响应速度适用场景1、在短连接中因为连接快速建立销毁因为数据延时容易造成堆积效应，随机、hash、轮询、权重四种方式大致能够保持整体是均衡的，服务端重启也不会影响整体均衡2、最小连接、最快响应速度是有状态的算法，因为数据延时容易造成堆积效应3、长连接，连接会一直保持，断连后需要重新选择一个新的服务节点，当服务重启后，最终连接数会出现不均衡
SQL实现md5加密方法 m0_74824002 面试学习路线阿里巴巴 sql 数据库
1.MD5加密概述MD5(MessageDigestAlgorithm5)是一种广泛使用的哈希算法，它将输入的字符串（或数据）转换为固定长度的128位（16字节）哈希值。MD5的主要特点是：不可逆性：MD5是一种单向哈希算法，这意味着你无法从MD5哈希值还原出原始数据。输出固定长度：无论输入数据的长度如何，MD5输出的哈希值始终是32个字符的十六进制数（128位）。碰撞性：虽然MD5很长时间被广泛
python pack中padx和pady的用法,padx(10,5)是什么意思 huiyuanzhenduo python 前端开发语言
在Python的Tkinter库中，`pack`方法用于添加小部件（如按钮、标签、框架等）到窗口中。`padx`和`pady`是`pack`方法的可选参数，用于控制小部件内部和外部的填充（或空隙）。-`padx`：控制小部件的！！！左右外边距！！！（水平填充）。它的值指定了小部件两侧的额外空间，单位是像素。-`pady`：控制小部件的上下外边距（垂直填充）。它的值指定了小部件上下的额外空间，单位也
银联付款服务器部署 dGcgQGludm9rZXlvdQ== 服务器运维安全
服务器选择Debian是个不错的选择，建议使用Debian11或12最小配置建议：1核CPU、1GB内存、20GB存储空间环境准备#更新系统aptupdate&&aptupgrade-y#安装必要工具aptinstallpython3python3-pipgitnginx-y#安装Python依赖pip3installflaskpycryptodomerequests代码部署#创建项目目录mkdi
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
AcWing算法基础课笔记——高斯消元 SharkWeek. AcWing 算法笔记数论
高斯消元用来求解方程组a11x1+a12x2+⋯+a1nxn=b1a21x1+a22x2+⋯+a2nxn=b2…an1x1+an2x2+⋯+annxn=bna_{11}x_1+a_{12}x_2+\dots+a_{1n}x_n=b_1\\a_{21}x_1+a_{22}x_2+\dots+a_{2n}x_n=b_2\\\dots\\a_{n1}x_1+a_{n2}x_2+\dots+a_{nn}x
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

卷积神经网络前向、反向传播公式推导

前向传播

反向传播

你可能感兴趣的:(机器学习,卷积神经网络,python,算法)