bitosky

【python】如何用 numpy 实现 CNN

文章目录

【python】如何用 numpy 实现 CNN

后续更新日志
前言
gitee 仓库地址
设计约定
numpy
损失函数
Reshape 层
激活函数层

激活函数层
激活函数

sigmoid
ReLU
softmax

全连接层
池化层
卷积层

卷积
卷积层的反向传播
多通道情况下卷积层的正向与反向传播
stride 不为1的情况
代码

神经网络
测试

后续更新日志

2019-9-29 更新：

发现我以前对多通道卷积的理解有误

我之前以为输入 size 为 (inCh, width, height) ，输出通道为 outCh 的卷积层使用 outCh 个 (kernelWidth,kernelHeight) 的卷积核，其中输入的的每一个通道共享同样的卷积核参数。在 MNIST 数据集上做测试，这样虽然参数少，但确实有一定效果。

但实际上，正确的理解是“使用 outCh 个 (inCh, kernelWidth, kernelHeight) 的卷积核”（Tensorflow，BigDL 里都是这样实现的，最近才注意到，于是我不得不重新思考），参数总数整整多了 inCh 倍。

看来卷积神经网络相对于对应的全连接神经网络，参数数量比应该为：(kW*kH / W*H)，并没有我之前理解的那样有着极为夸张的参数量缩减率。如果是 FCN（全卷积网络），参数数量和对应全连接网络是同一个级别。

2020-5-23 更新：

这几个月折腾了保研、毕设等各种事情后，我终于想起填这个坑了（不鸽了不鸽了——指鸽了8个月）。
主要是修改之前卷积层出问题的部分。当时用BigDL写了个AlexNet在Spark集群上跑，发现占用的内存和我预计的差别很大，这才发现我一直理解错了。
另外，之后我又看到几篇不错的博客：

关于多通道卷积问题的，讲得简单易懂：卷积神经网络CNN(卷积池化、感受野、共享权重和偏置、特征图)
另一个人用numpy实现了CNN，并写了一系列博客。习惯直接看公式的可以看看，写的很不错：numpy实现神经网络系列

PS:

本科生活结束了，不想留下遗憾，所以计划在学期结束前改好。
因为新冠疫情宅在家中写毕设，前几天终于搞定了，现在相对有空。

前言

这篇博客适用于对神经网络概念有一定了解的同学。
https://blog.csdn.net/qq_36393962/article/details/99354969

+++++++++++++++++++++++++ 分割线 +++++++++++++++++++++++++

隔了好久没接触深度学习了，得重新理一理基础知识。顺便久违地认真写写博客 (✪ω✪)

之前只是使用 tensorflow 或者 pytorch 这样的深度学习框架。但对我来说，他们只是黑盒。我一直只是粗略地对其工作机制有所了解。一直想自己手写实现一个简单的网络框架，但由于很多事【懒】耽搁了。

这次在百度和google里广搜大量博客知乎，理清我以前没在意过的细节问题（期间发现我以前对某些细节概念是完全理解错了，比如矩阵求导）。然后花了2天终于用 numpy 实现了一个简单的 CNN。其实我实现的是一个简单的神经网络框架，包括损失函数（sse），激活函数层（sigmoid, softmax, relu），全连接层，池化层（mean-pooling），卷积层。

gitee 仓库地址

https://gitee.com/bitosky/numpy_cnn

设计约定

只用 python + numpy
使用 numpy 行向量
输入张量各维度含义为 (rows, columns, channels)
设计上，把网络层单独抽象出来，作为一个编程单元。（以前没接触 DL 框架的时候把整个网络写成一个类，学长建议我把它拆开来| ･ω･ ))
激活函数单独作为一层
dc_dz 表示C对z求偏导
按照大部分公式的约定，c 表示代价，z 表示网络层输出，a 表示激活函数值，也是下一层网络层输入(也用 x 表示)，w 为权重，b 为偏置
如果没有特别说明，卷积指的是"valid"卷积（下图描述了"valid"和"full"卷积的区别 https://mlnotebook.github.io/post/CNN1/）
尽量做到使用 layers 构建网络时，可以自动设定尺寸相关的超参数（如自动识别 input_size）
激活函数正向传播相对应的方法为 __call__，反向传播(求导)相应方法为derivate

# (funcs.py)

#激活函数
class Func:
    def __init__(self,f:FunctionType,f_derivate:FunctionType,jacobin=False):
        self.f = f 
        self.f_derivate = f_derivate
        self.jacobin = jacobin # True 表明f导数将使用雅克比矩阵进行表示

    def __call__(self,z):
        return self.f(z)

    def derivate(self,z):
        return self.f_derivate(z)

网络层正向传播相对应的方法为 __call__，反向传播相应方法为backward

# (layers.py)

class Layer:
    @abstractmethod
    def __call__(self, x: np.ndarray) -> np.ndarray:
        pass

    @abstractmethod
    def backward(self, d: np.ndarray) -> np.ndarray:
        pass

numpy

numpy 基础

菜鸟教程网址：https://www.runoob.com/numpy/numpy-tutorial.html

一般使用 numpy 用这一句: import numpy as np

关于 numpy 主要是掌握它的广播特性。

由于 numpy 底层是 C，用好广播特性可以代替 python for 循环做很多工作，而且性能提升极大。

np.einsum

知乎网址：https://zhuanlan.zhihu.com/p/27739282

einsum 是 Einstein summation convention（爱因斯坦求和约定）的缩写。

这是一个极为方便的 api，用它可以实现一些难以描述的矩阵运算，可以用于卷积层的实现。

# 用 numpy 实现卷积神经网络的时候，需要涉及到多通道的卷积运算
# 但是 numpy 似乎没有直接提供相应 api
# np.convolve 只能用于简单的一维卷积
# 用纯 python 实现又非常慢
# 这时候可以想到用 np.einsum 实现这种比较复杂的矩阵运算
# 下面 mm 是一个卷积区域（2x2,2通道）,nn 是卷积核 (2x2,3通道)
# 运算后得到(1x1,3通道)

mm =  np.array(
    [
        [[1,2], [1,2]],
        [[1,2], [1,2]]
    ]
)
nn = np.array(
    [
        [[1,2,3], [1,2,0]],
        [[1,2,3], [1,2,3]]
    ]
)
print(np.einsum("ijk,ijl->l",mm,nn,dtype=np.float64))
# 结果: [12 24 27]

损失函数

我就实现了一个最简单，最基本的 sse

一般来说，应该使用交叉熵损失函数。

可以自己设计一个更好的，加快收敛或者提升准确度。

不过损失函数本身是非常讲究的，有时候会加个正则项来防止过拟合。相关的博客数不胜数，这里就不展开讲了。

某些特殊的网络会用一些比较特别的损失函数，比如 GAN（生成对抗网络）。有兴趣可以了解一下，这里是一篇知乎网址：https://zhuanlan.zhihu.com/p/27295635。

# 损失函数
class LossFunc:
    def __init__(self,f:FunctionType,f_derivate:FunctionType):
        self.f = f 
        self.f_derivate = f_derivate

    def __call__(self,label,predict):
        return self.f(label,predict)

    def derivate(self,label,predict):
        return self.f_derivate(label,predict)

# sse
def f_sum_of_squared_error(label,predict):
    return (label-predict)**2

def f_sum_of_squared_error_derivate(label,predict):
    return 2*(predict-label)

# 平方和误差
sse = LossFunc(
    f_sum_of_squared_error,
    f_sum_of_squared_error_derivate
)

Reshape 层

主要用于卷积层和全连接层的衔接
from_shape 可以为 None，在输入第一个 x 后自动获取 shape
to_shape 般就是 (1,-1) ，因为全连接层的输入就是一个一维张量（表示成二维只是因为更方便使用 array.dot）

class ReshapeLayer(Layer):
    def __init__(self, from_shape, to_shape):
        self.from_shape = from_shape
        self.to_shape = to_shape

    def __call__(self, x: np.ndarray) -> np.ndarray:
        if self.from_shape is None:
            self.from_shape = x.shape
        return x.reshape(self.to_shape)

    def backward(self, d: np.ndarray) -> np.ndarray:
        return d.reshape(self.from_shape)

激活函数层

正向公式：
$a^{l} = f(z^{l})$
反向公式：
$\frac{\partial{C}}{\partial{z^{l}}} = \frac{\partial{C}}{\partial{a^{l}}} \frac{\partial{a^{l}}}{\partial{z^{l}}} = \frac{\partial{C}}{\partial{a^{l}}} f^{'}(z^l)$
代码：

class FuncLayer(Layer):
    def __init__(self, activate_fn: Func):
        self.f = activate_fn
        self.z: np.ndarray = None

    def __call__(self, x: np.ndarray) -> np.ndarray:
        self.z = x
        return self.f(x)

    def backward(self, dc_da: np.ndarray) -> np.ndarray:
        da_dz = self.f.derivate(self.z)
        if self.f.jacobin:
            # 如果求导结果只能表示成雅克比矩阵，得使用矩阵乘法
            dc_dz = dc_da.dot(da_dz.T)
        else:
            # 求导结果为对角矩阵，可以采用哈达马积（逐值相乘）来简化运算
            dc_dz = dc_da * da_dz
        return dc_dz

激活函数

激活函数非常多，我这里只讨论3个: sigmoid、relu、softmax

sigmoid

正向公式：
$\frac{1}{1+e^{-z}}$
求导公式：

由正向传播公式可知，z_i 只与 a_i 有关，所以 $\frac{\partial{a}}{\partial{z}}$ 一定是一个对角雅克比矩阵，可以简化。把对角线上元素拿出来构造一个向量，作为 $\frac{\partial{a}}{\partial{z}}$ 的结果，参与运算。不过矩阵乘法要换成哈达马积（Hadamard product），“逐值相乘”。像这个公式里出现的圆形符号就表示哈达马积： $W^{T} (\frac{\partial{C}}{\partial{a_{i}}} \odot f^{'}(z_i))$ 。

sigmoid 的导数很独特，可以用 a 来表示：
$\frac{\partial{a}}{\partial{z}} = (\frac{1}{1+e^{-z}})\odot(1-\frac{1}{1+e^{-z}})=a\odot(1-a)$

代码

# (funcs.py)
# sigmomid
def f_sigmoid(z):
    return 1.0/(1.0 + np.exp(-z))

def f_sigmoid_derivate(z):
    y = f_sigmoid(z)
    return y*(1-y)

sigmoid = Func(f_sigmoid,f_sigmoid_derivate)

ReLU

百度百科：线性整流函数（Rectified Linear Unit, ReLU），又称修正线性单元，是一种人工神经网络中常用的激活函数（activation function），通常指代以斜坡函数及其变种为代表的非线性函数。

正向公式：
$a = m a x i u m (0, z)$
求导公式：

和 sigmoid 同理，可以从对角雅克比矩阵简化为和 z 同维向量
$(\frac{\partial{a}}{\partial{z}})_i = \begin{cases} 0, &z_i \lt 0 \cr 0.5, &z_i = 0 \cr 1, &z_i \gt 0 \end{cases}$

代码

# (funcs.py)
# relu 
def f_relu(z):
    return np.maximum(z, 0)

def f_relu_derivate(z):
    return np.heaviside(z,0.5)

relu = Func(f_relu,f_relu_derivate)

softmax

推荐看博客 Softmax函数及其导数，里面有关于向量对向量求导、向量对矩阵求导的雅克比矩阵形式的描述： https://blog.csdn.net/cassiePython/article/details/80089760

正向公式：
$\frac{e^{z}}{\sum\limits_{i}^{n}{e^{z_i}}}$
不过由于 exp(x) 具有指数级增长性，计算结果容易超出浮点数的表示范围（比如 exp(500)），numpy 会将这种结果表示为 nan （not a number）。解决办法是分子分母同时乘以一个数，压低数值大小。比如，使用 -exp(max(z))。
$\frac{e^{z-max(z)}}{\sum\limits_{i}^{n}{e^{z_i-max(z)}}}$
求导公式：
softmax 的求导结果不是一个对角矩阵，所以无法像上面两个激活函数一样写成简化后的形式。
$\begin{aligned} \frac{\partial{a_j}}{\partial{z_i}} &= \begin{cases} a_i(1-a_j), &i = j \cr -a_ia_j, &i \neq j \end{cases}\\ &= a_i(1(i=j)-a_j) \end{aligned}$
或写成矩阵形式：
$\frac{\partial{a}}{\partial{z}} = aI-a^Ta$
代码

# (funcs.py)
# softmax 
def f_softmax(z):
    # 直接使用np.exp(z)可能产生非常大的数以至出现nan
    # 所以分子分母同时乘以一个数来限制它
    # 这里用 exp(-np.max(z))
    exps = np.exp(z-np.max(z))
    exp_sum = np.sum(exps)
    return exps/exp_sum

def f_softmax_derivate(z):
    y = f_softmax(z).reshape((-1,))
    return np.diag(y)-y.reshape((-1,1)).dot(y.reshape(1,-1))
# softmax 导数只能用雅克比矩阵表示，无法简化
softmax = Func(f_softmax,f_softmax_derivate,True)

全连接层

正向公式：
$x = a^{l-1} \\ z^l = xW^l + b^l$
反向公式：
$\frac{\partial{C}}{\partial{x}} = \frac{\partial{C}}{\partial{z^{l}}} \frac{\partial{z^{l}}}{\partial{x}} = \frac{\partial{C}}{\partial{z^{l}}} (W^l)^T$
参数更新公式：
$\frac{\partial{C}}{\partial{b^l}} = \frac{\partial{C}}{\partial{z^{l}}} \frac{\partial{z^{l}}}{\partial{b^l}} = \frac{\partial{C}}{\partial{z^{l}}}$
$\frac{\partial{C}}{\partial{W^l}} = \frac{\partial{C}}{\partial{z^{l}}} \frac{\partial{z^{l}}}{\partial{W^l}} = x^T \frac{\partial{C}}{\partial{z^{l}}}$
注意权重公式也是被化简过的。因为一个 T 维行向量对一个 MxN 矩阵求导后得到的是一个 MNxT 雅克比矩阵（其实是把 MxN 矩阵一维展开成 MN 维行向量后，再求导），所以上面公式实际上应该写成如下形式（注意这里所有向量为行向量形式）：
$\frac{\partial{C}}{\partial{W^l}} = \frac{\partial{C}}{\partial{z^{l}}} \frac{\partial{z^{l}}}{\partial{W^l}} = \frac{\partial{C}}{\partial{z^{l}}} \times \left[ \begin{matrix} x^T& & \\ & \ddots & \\ & & x^T \end{matrix} \right]^T$
但细心计算可以发现：
$v_0 \times \left[ \begin{matrix} v^T& & \\ & \ddots & \\ & & v^T \end{matrix} \right]^T = 一维展开(v_0^T \times v)$
所以能写成简化形式（同时极大地减小了运算量）：

$一维展开(\frac{\partial{C}}{\partial{W^l}}) = \frac{\partial{C}}{\partial{z^{l}}} \times \left[ \begin{matrix} x^T& & \\ & \ddots & \\ & & x^T \end{matrix} \right]^T= 一维展开(x^T \frac{\partial{C}}{\partial{z^{l}}})$

代码：

(1) 注意一个问题：如何对网络参数进行随机初始化？

网络参数在训练过程中会向“好”的方向转变，但如果一开始就错的离谱，则需要更多轮迭代。

我曾经写神经网络（尤其是卷积神经网络），参数随便初始化（比如取 0-1 均匀分布），结果总是难以收敛。有时候出现输出全 0.999…，还以为是网络结构或者代价函数写错了。

一般来说，网络参数初始化选的是均值为 0 的正态分布，标准差我一般用1（也就是标准正态分布）。

(2) 别忘了对输入进行 标准化（standardization）或者归一化（normalization）

神经网络本质上就是将一个分布转化为另个一分布的过程，如果分布差的远，转化的难度自然上升很多。道理和上面的一样，但是后果一般更严重。

输入在放缩（scaling）之前往往范围比较大，有的全是比较大的正数（最典型的是图像，全是 0-255 的正数，当然，这不算大），经过矩阵乘法后很容易出现大的离谱的数。这对训练很不利。比如使用 sigmoid 激活函数，sigmoid(10000) 处，斜率已经很接近0了，需要多轮迭代才能调好。

总之，入深度学习的坑，一定要对 “分布” 这词特别敏感。（最好把概率论学好来。。我就没咋学好，准备补一补 --------- 感觉他们数学系是真的吃香啊 (╯°Д°)╯︵┻━┻ ）

class FullConnectedLayer(Layer):
    def __init__(self, input_size, output_size):
        self.i_size = input_size
        self.o_size = output_size
        if self.i_size is not None:
            self.__init(self.i_size)

    def __init(self, input_size):
        self.i_size = input_size
        self.w = np.random.normal(
            loc=0.0, scale=1.0, size=(self.i_size, self.o_size))
        self.b = np.random.normal(loc=0.0, scale=1.0, size=(1, self.o_size))
        self.x: np.ndarray = None  # input

    def __call__(self, x: np.ndarray) -> np.ndarray:
        x = x.reshape(1, -1)
        # 如果 self.i_size 还没有确定，则根据x.shape来初始化
        if self.i_size is None:
            self.__init(x.shape[1])
        self.x = x
        self.z = x.dot(self.w)+self.b
        return self.z

    def backward(self, dc_dz: np.ndarray) -> np.ndarray:
        dc_dx = dc_dz.dot(self.w.T)
        self.w += self.x.T.dot(dc_dz)
        self.b += dc_dz
        return dc_dx

池化层

池化层原理比较简单，但代码实现的时候要处理输入索引与输出索引之间的对应关系，有点烦人。

max-pooling 用 numpy 实现起来比 mean-pooling 麻烦很多，所以我只实现了 mean-pooling

有关博客：

https://blog.csdn.net/googler_offer/article/details/81208413

https://blog.csdn.net/m_buddy/article/details/80426531

反向传播：
以下反向传播公式通过对矩阵逐元素求导很容易证明。
1. mean pooling
  假设要在某一通道下对一个 nxn 的子矩阵区域进行池化，则：
  $\frac{\sum_i^n\sum_i^nx_{ij}}{n^2}$
  求导易得：
  $\frac{\partial{y}}{\partial{x_{ij}}} = \frac{1}{n^2}$
  所以有反向传播公式：
  $\frac{\partial{C}}{\partial{x_{ij}}} = \frac{\partial{C}}{\partial{y_{submatrix}}}\frac{\partial{y_{submatrix}}}{\partial{x_{ij}}} = \frac{\partial{C}}{\partial{y_{submatrix}}}\frac{1}{n^2}$
2. max pooling
  假设要在某一通道下对一个 nxn 的子矩阵区域进行池化，则：
  $y = max({x_{ij}})$
  求导易得：
  $\frac{\partial{y}}{\partial{x_{ij}}} = \begin{cases} 1, &x_{ij} 是当前子矩阵的最大值 \cr 0, &x_{ij} 不是当前子矩阵的最大值 \end{cases}\\$
  所以有反向传播公式：
  $\frac{\partial{C}}{\partial{x_{ij}}} = \frac{\partial{C}}{\partial{y_{submatrix}}}\frac{\partial{y_{submatrix}}}{\partial{x_{ij}}} = \begin{cases} \frac{\partial{C}}{\partial{y_{submatrix}}}, &x_{ij} 是当前子矩阵的最大值 \cr 0, &x_{ij} 不是当前子矩阵的最大值 \end{cases}\\$
代码：

# 池化层
# 池化层的难点在于处理正反向传播时索引的对应关系
# 均值池化层实现起来比最大值池化层更简单（尤其是涉及到多个channel的）


class MeanPoolingLayer(Layer):
    def __init__(self, kernel_size: int, stride: int):
        self.ks = kernel_size
        self.kernel_shape = (kernel_size, kernel_size)
        self.channels: int = None
        self.stride = stride
        self.input_shape: tuple = None  # row_cnt,col_cnt,channels
        self.target_shape: tuple = None  # 目标的shape

    def __call__(self, mat: np.ndarray) -> np.ndarray:
        self.input_shape = mat.shape
        self.channels = mat.shape[2]
        row, col = mat.shape[0], mat.shape[1]
        (kr, kc), s = self.kernel_shape, self.stride
        self.target_shape = ((row-kr)//s+1, (col-kc)//s+1, self.channels)
        target = np.zeros(self.target_shape)
        for i in range(self.target_shape[0]):
            for j in range(self.target_shape[1]):
                r, c = i*s, j*s
                target[i, j] = np.average(mat[r:r+kr, c:c+kc], axis=(0, 1))
        return target

    def backward(self, d_out: np.ndarray) -> np.ndarray:
        d_input = np.zeros(self.input_shape)
        n = self.kernel_shape[0]*self.kernel_shape[1]
        d_mat = d_out/n  # mean-pooling 求导后恰好是 1/n
        (kr, kc), s = self.kernel_shape, self.stride
        for i in range(self.target_shape[0]):
            for j in range(self.target_shape[1]):
                r, c = i*s, j*s
                d_input[r:r+kr, c:c+kc] += d_mat[i, j]
        return d_input

卷积层

卷积

什么是卷积？

看这篇知乎：https://www.zhihu.com/question/22298352/answer/228543288

卷积是一种数学运算，一般用编程里的乘号（星号，asterisk）表示，一维卷积公式（连续）如下：
$\int_{-\infty}^{\infty} f(\tau)g(x-\tau) \, dz$
离散定义如下：
$\sum_{-\infty}^{\infty} f(\tau)g(n-\tau)$
numpy 有现成的卷积 api，叫 np.convolve，不过似乎只对一维有用（不知道是不是因为我操作错误）。
数字图像处理时经常遇到二维离散卷积操作，我们叫那个移动扫描的小矩阵为“卷积核”。
不过需要注意的是卷积看似是卷积核与子矩阵的对应位置相乘，再求和，其实不然。别忘了公式里的 g(n-t)，这意味着卷积核其实已经被“旋转了180度”（rot180 操作）。
这样处理只是方便计算机的运算，毕竟每次都要旋转180度是多余的，一开始存旋转后的卷积核就行了。所以图像卷积运算就成了常见的逐位相乘再相加。
只有使用 opencv 等库的 api 时，可能偶尔会碰到这个旋转180度的问题。

(下面几张图出处为：https://mlnotebook.github.io/post/CNN1/ )

（下图出处：https://blog.csdn.net/weixin_40519315/article/details/105115657）

深度学习里为什么要卷积运算？

按我的理解，应该有下面几点：

减少参数

假如要一个网络层将784维的输入转为196维。

一个全连接层存 784*196+196 个参数，而卷积层只要一个 2x2 以 2 的步长（stride）对 28x28 矩阵扫一遍就得到了，所以只要 4 个参数。
当然，这样没有可比性。实际上卷积层的参数数量主要是靠通道数（channel）撑起来的。一个 3x3，1输入通道（其实对于多通道卷积，一个卷积核尺寸应该写成 Row x Column x InputChannels，即3x3x1），64输出通道，带偏置的卷积层有 3*3*1*64+64 = 640 个参数，相比一般的全连接层是很少的了。

原因出在卷积层采取的是“局部连接”，也就是说输出张量的某一个元素只与输入张量的一小部分元素有关，对应关系矩阵是一个稀疏矩阵；而全连接层的则是与全部输入元素有关（所以才叫“full connected”），关系矩阵满是1。所以一般情况下，同规模的全连接层参数数量多出卷积层很多。不过如果是全卷积神经网络（全卷积网络 FCN 详解），一个卷积核的尺寸和输入张量尺寸完全一样，这样就和全连接层的参数量相当了。现在FCN经常用来在一些特殊网络中替代全连接层。

图像特征的局部性
之所以可以用卷积减少参数，就是因为某些问题具有特征局部性，这样可以确定输入张量到输出张量的关系矩阵某些位置可以事先置0（如果用正常的全连接层，则得经过漫长的参数优化才能确定，而且大量无用的关系占用计算资源）。
图像和音频信息是典型的具有特征局部性的数据，所以用卷积层来 提取特征 是再自然不过的事情了。
+++++++++
有人（过去的我(✪ω✪)）可能会问：我怎么知道局部特征和输出间的关系是 (x * kernel)+b 呢？就不能是 exp(-exp(fxxx(x))kernel)+fxx(bx)… 这样的奇葩函数吗？
其实这个问题和 “为什么神经网络能以任意精度拟合任意复杂度的函数？”一样。
https://www.jianshu.com/p/9ed784e7557b
神经网络通过简单地组合众多的参数，经过多轮优化参数的迭代之后，可以变得很强大。那些奇葩函数不经没有起到实际作用，还拖慢了运算。不过有时候还是必要的，比如激活函数的非线性化功能。

卷积层的反向传播

看一篇博客：https://blog.csdn.net/qq_16137569/article/details/81477906

如果一定要张量来表示，卷积运算反向传播的结果是什么样的？
答案：还是卷积

如果要用原先的加减乘逆，想破脑袋也不知道怎么表示，毕竟卷积的局部性摆在那里。
这时候，应该承认卷积是一种新概念的矩阵运算。
应该尝试用 用卷积表示卷积反向传播结果

(下面各式源于上面提到的博客)
这里只考虑一个通道，卷积步长为1，没有zero-padding

反向传播

b 是标量（卷积核共有）， $\oplus$ 表示将与 b 相加广播到张量每一个元素。
$z^{l+1}=a^l*w^{l+1}\oplus b^{l+1}$
$\begin{bmatrix} z_{11} & z_{12} \\ z_{21} & z_{22} \end{bmatrix} = \, \begin{bmatrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23}\\ a_{31} & a_{32} & a_{33}\\ \end{bmatrix} * \begin{bmatrix} w_{11} & w_{12} \\ w_{21} & w_{22} \end{bmatrix} \oplus b^{l+1}$
$z_{11}=a_{11}w_{11}+a_{12}w_{12}+a_{21}w_{21}+a_{22}w_{22}+b^{l+1} \\ z_{12}=a_{12}w_{11}+a_{13}w_{12}+a_{22}w_{21}+a_{23}w_{22}+b^{l+1} \\ z_{21}=a_{21}w_{11}+a_{22}w_{12}+a_{31}w_{21}+a_{32}w_{22}+b^{l+1} \\ z_{22}=a_{22}w_{11}+a_{23}w_{12}+a_{32}w_{21}+a_{33}w_{22}+b^{l+1}$
反向传播要求我们根据 C 对 z[l+1] 的偏导求出 C 对 a[l] 的偏导
$\bigtriangledown a^{l} = \frac{\partial{C}}{\partial{a^l}} = \frac{\partial{C}}{\partial{z^{l+1}}} \frac{\partial{z^{l+1}}}{\partial{a^l}} = \delta^{l+1} \frac{\partial{z^{l+1}}}{\partial{a^l}}$
这 $\frac{\partial{z^{l+1}}}{\partial{a^l}}$ 与 $w^{l+1}$ 有关，只知道一点点普通矩阵运算的求导法则，这是没法算的。但是我们可以傻一点，对每个元素分别计算一下。
假设 $\delta^{l+1}$ 是这样的：
$\delta^{l+1} = \begin{bmatrix} \delta_{11} & \delta_{12} \\ \delta_{21} & \delta_{22} \end{bmatrix} , \delta_{ij} 与 z_{ij} 相对应$
那么，求导易得:
$\begin{cases} \bigtriangledown a_{11} = \delta_{11} w_{11} \\ \bigtriangledown a_{12} = \delta_{11} w_{12}+\delta_{12} w_{11} \\ \bigtriangledown a_{13} = \delta_{12} w_{12} \\ \bigtriangledown a_{21} = \delta_{11} w_{21}+\delta_{21} w_{11} \\ \bigtriangledown a_{22} = \delta_{11} w_{22} +\delta_{12} w_{21}+\delta_{21} w_{12}+\delta_{22} w_{11}\\ \bigtriangledown a_{23} = \delta_{12} w_{22} +\delta_{22} w_{12}\\ \bigtriangledown a_{31} = \delta_{21} w_{21} \\ \bigtriangledown a_{32} = \delta_{21} w_{22} +\delta_{22} w_{21}\\ \bigtriangledown a_{33} = \delta_{22} w_{22} \\ \end{cases}\\$
这恰好是：
$\begin{bmatrix} \bigtriangledown a_{11} & \bigtriangledown a_{12} & \bigtriangledown a_{13}\\ \bigtriangledown a_{21} & \bigtriangledown a_{22} & \bigtriangledown a_{23}\\ \bigtriangledown a_{31} & \bigtriangledown a_{32} & \bigtriangledown a_{33}\\ \end{bmatrix}= \, \begin{bmatrix} 0 & 0 & 0 & 0 \\ 0 & \delta_{11} & \delta_{12} & 0 \\ 0 & \delta_{21} & \delta_{22} & 0\\ 0 & 0 & 0 & 0 \end{bmatrix} * \begin{bmatrix} w_{22} & w_{21} \\ w_{12} & w_{11} \end{bmatrix}$
如果把 $\delta^{l+1}$ 补充 0 后的矩阵称为 $\delta_{ex}^{l+1}$ ，矩阵旋转180度的操作为 rot180(matrix)，则上面式子可表示为下式（卷积stride为1）：
$\bigtriangledown a^{l} = \delta_{ex}^{l+1} * rot180(w^{l+1})$

（我在这篇博客里找到了两张比较好的图：https://blog.csdn.net/zy3381/article/details/44409535）
正向：

反向：

参数更新

卷积核：w：
和 C 对 a 求导会得到卷积（以 rot180(w) 为卷积核）一样，C 对 w 求导也会得到一个包含卷积运算的式子。且由于卷积元素的二者拥有 同等地位 (回想一下高中物理和高数(多元函数积分)，是不是经常碰到 | ･ω･ ))，C 对 w 求导的结果一定是以 rot180(a) 为卷积核（从通道数对应的角度看，说 $\delta_{ex}^{l+1}$ 为卷积核应该更准确，详情可以看下面关于多通道卷积的部分），且 stride 为 1，卷积的对象还是 $\delta_{ex}^{l+1}$ 。
（不过要说是“地位相等”推出来的有点勉强，因为 a 对 w 的卷积其实是 “full” 卷积，w 对 a 是 “valid” 卷积，除非把 a 和 w 都 zero-padding 到无限广，这时从离散卷积公式上看才是地位同等的。另外，经过无限zero-padding后，卷积运算是可交换的（卷积在数学上是可交换的，但在实现时因为张量尺寸有限，变得不可交换）。）
$\bigtriangledown w^{l+1} = \delta_{ex}^{l+1}* rot180(a^l)$
偏置：b：
C 对 b 的求导就简单了，按下面式子计算后就能发现，答案就是把该通道下的所有 $\delta_{ij}$ 加起来。
$\begin{aligned} \bigtriangledown b^{l+1} &= \frac{\partial{C}}{\partial{z^{l+1}}} \frac{\partial{z^{l+1}}}{\partial{b^{l+1}}} \\ &= \frac{\partial{C}}{\partial{z_{11}}} \frac{\partial{z_{11}}}{\partial{b^{l+1}}} + \frac{\partial{C}}{\partial{z_{12}}} \frac{\partial{z_{12}}}{\partial{b^{l+1}}} + \frac{\partial{C}}{\partial{z_{21}}} \frac{\partial{z_{21}}}{\partial{b^{l+1}}} + \frac{\partial{C}}{\partial{z_{22}}} \frac{\partial{z_{22}}}{\partial{b^{l+1}}} \\ &= \frac{\partial{C}}{\partial{z_{11}}} + \frac{\partial{C}}{\partial{z_{12}}} + \frac{\partial{C}}{\partial{z_{21}}} + \frac{\partial{C}}{\partial{z_{22}}} \\ &= \delta_{11} + \delta_{12} + \delta_{21} + \delta_{22} \\ &= \sum_{i}\sum_{j}\delta_{ij} \end{aligned}$

多通道情况下卷积层的正向与反向传播

到这里为止，要写出卷积层其实还不够。

我们常见到的 CNN 是这样的：

还有这样的：

所以为了实现 CNN，多通道条件是一定得考虑的。

数学好的同学看这篇，里面有多通道卷积的反向传播公式（不过我不喜欢看这种展开式 (╯°Д°)╯︵┻━┻）：https://blog.csdn.net/imgosty/article/details/82286916

关于多通道卷积的规则可以看这篇博客：卷积神经网络CNN(卷积池化、感受野、共享权重和偏置、特征图)

多通道卷积规则为：

输入有多个通道（设有input_channel个输入通道），每个通道是一个矩阵。因此可以将输入看成 (row, col, input_channel) 大小的张量 $A$ 。
每个卷积核不再是一个矩阵了，而是一个(k_row, k_col, input_channel) 大小的张量。input_channel 就是输入通道数。
卷积核有多个通道（或者说有多个等大的单通道卷积核），每个通道的卷积核单独作用于输入张量。整体可以看成(k_row, k_col, input_channel, output_channel) 大小的张量 $W$ 。
偏置的通道数和卷积核的通道数一致，且各通道相对应。即每个卷积核对应一个偏置值。
取出第 $k$ 个（本来想用 $l$ 的，但是它看起来像1，不容易分辨）输出通道的卷积核 $W[\cdot,\cdot,\cdot,k]$ ，用 $W[\cdot,\cdot,\cdot,k]$ 对输入张量 $A$ 进行卷积。即用 $W[\cdot,\cdot,m,k]$ 对 $A[\cdot,\cdot,m]$ 进行卷积（即上文提到的单通道卷积），然后对卷积结果按input_channel维进行加和，得到结果 $Z[\cdot,\cdot,k]$ 。完成所有output_channel的卷积操作后，将结果合成为一个张量，即 $Z$ ，它的大小为（z_row, z_col, output_channel），z_row和z_col的计算之后再提。

对于每个卷积核，卷积操作如下，其中 c 表示输入通道数。

$v_{1}=a_{111}w_{111k}+a_{121}w_{121k}+a_{211}w_{211k}+a_{221}w_{221k} \\ v_{2}=a_{112}w_{112k}+a_{122}w_{122k}+a_{212}w_{212k}+a_{222}w_{222k} \\ v_{3}=a_{113}w_{113k}+a_{123}w_{123k}+a_{213}w_{213k}+a_{223}w_{223k} \\ \\ z_{ijk} = \sum_c{v_c} +b_k^{l+1}$
借用一下别人的图描述一下单核卷积（https://blog.csdn.net/weixin_40519315/article/details/105115657）：

多核卷积示意图如下：

通过计算（式子太多，略）发现，反向传播和参数更新的公式稍微变了一点。下面 c 表示输入通道下标，k 表示输出通道下标，i 和 j 分别表示行和列的下标， $w_{c,k}$ 表示在第 c 个输入通道且在第 k 个输出通道的单层卷积核：
$\begin{cases} (\bigtriangledown a^{l})_c = \sum_{k}( (\delta_{ex}^{l+1} )_k * rot180(w^{l+1}_{c,k})) ,&(1) \\ \, \\ (\bigtriangledown w^{l+1})_{c,k}= (\delta_{ex}^{l+1})_k * rot180(a^l_c) ,&(2) \\ \, \\ (\bigtriangledown b^{l+1} )_k = \sum_{i}\sum_{j}\delta_{ijk} ,&(3) \end{cases}$

其实按照每一个值的推导链是可以猜出这些式子的（即根据正向推导结果张量中的每一个值对其余张量里各值的依赖关系来猜），具体我就不多说了（其实是绕到我不知道怎么讲清楚| ･ω･ )。

看到式子这么复杂，心里都感觉有些慌了。在编程时如何表示这些运算呢？
（用 C/C++ 或者 cython 的就当我没说吧，反正这些语言的运行效率够高了，沉下心来把逻辑理清楚，再加一些耐心不难写出来；python 就只好借助 numpy api 了）

这时候就该想到 numpy 的 einsum （Einstein summation convention 爱因斯坦求和约定） 了。（喜欢看数学公式的，下面内容可以跳过）

我先作一些说明：

下面 einsum 字符串参数只用于表明计算规则，其中 i, j, k, l 和字符串外的索引不对应
3维张量每个维度的含义为 rows(行数), columns(列数), channels(通道数)
4维张量每个维度的含义为 rows(行数), columns(列数), input_channels(输入通道数), output_channels(输出通道数)
定义一个 $conv(String_{einsum}, A, K)$ 函数，用于声明具体的卷积操作：
- $String_{einsum}$ 表示用于爱因斯坦求和的字符串， $A$ 是输入张量， $K$ 是卷积核。 $K$ 在扫过 $A$ 时，每移动一个stride都要对 $K$ 所覆盖的 $A$ 的子矩阵使用 $String_{einsum}$ 进行计算（全卷积），得到一个局部结果张量或者一个数值（比如下面权重梯度矩阵的每个元素就是一个二维张量）。
- 该函数的输出是一个矩阵，它的每个元素是数值，或者等大的张量。这些元素表示了卷积过程中每次使用 $String_{einsum}$ 进行计算的结果。因为每个元素都是等大的张量，所以这个矩阵可以看成一个数值张量。

那么，公式如下：

正向推导中的卷积（取某一个被卷积的局部区域讨论；局部区域输入和输出张量标为 sub）
$z^{l+1}= conv(" ijk,ijkl \rightarrow l",a^{l},w^{l+1})$
反向传播
$\bigtriangledown a^{l}= conv("ijl,ijkl \rightarrow k",\delta_{ex}^{l+1},rot180(w^{l+1}))$
参数更新
$\bigtriangledown w^{l+1} = conv("ijl,ijk \rightarrow kl",\delta_{ex}^{l+1},rot180(a^{l}))$
$\bigtriangledown b^{l+1} = einsum("ijk \rightarrow k",\delta^{l+1})$

上面几个式子除了 b 的更新公式以外，都是卷积操作。我的实现是在局部进行全卷积，将这个过程嵌套进两个 for 循环让卷积核扫过整个二维平面，得到最终输出。
（我不知道 numpy 有没有代替 for 循环的 api，这样可以大幅提速，如果各位有知道的，请指出 | ･ω･ )

到这里，实现最基础 cnn 的基础知识就讲完了，以后看 AlexNet，ResNet，EfficientNet，GAN 之类的是不是就更有底了 | ･ω･ )

stride 不为1的情况

用过 tensorflow 就知道，如果构造卷积层，除了尺寸等基本参数以外，还需要传入 stride（卷积核移动的步长）参数，另外还有 padding（输入张量的边缘填充，填充0；卷积两种模式 “full”，“valid”；“full” 表示需要 padding），dilation（卷积核的膨胀系数，看这篇博客）等参数的设置选项，详情可见 tensorflow 文档。

这里只讨论 stride 的影响。（以下用 $_{m}$ 表示 stride=m 的卷积，不写 m 则是 stride=1 的普通卷积）
$z^{l+1}=a^l*w^{l+1}\oplus b^{l+1}$
$\begin{bmatrix} z_{11} & z_{12} & z_{13} \\ z_{21} & z_{22} & z_{23} \\ z_{31} & z_{32} & z_{33} \\ \end{bmatrix} = \, \begin{bmatrix} a_{11} & a_{12} & a_{13} & a_{14} & a_{15} & a_{16}\\ a_{21} & a_{22} & a_{23} & a_{24} & a_{25} & a_{26}\\ a_{31} & a_{32} & a_{33} & a_{34} & a_{35} & a_{36}\\ a_{41} & a_{42} & a_{43} & a_{44} & a_{45} & a_{46}\\ a_{51} & a_{52} & a_{53} & a_{54} & a_{55} & a_{56}\\ a_{61} & a_{62} & a_{63} & a_{64} & a_{65} & a_{66}\\ \end{bmatrix} *_{2} \begin{bmatrix} w_{11} & w_{12} \\ w_{21} & w_{22} \end{bmatrix} \oplus b^{l+1}$
$z_{11} = a_{11}w_{11}+a_{12}w_{12}+a_{21}w_{21}+a_{22}w_{22}+b^{l+1} \\ z_{12} = a_{13}w_{11}+a_{14}w_{12}+a_{23}w_{21}+a_{24}w_{22}+b^{l+1} \\ \vdots \\ z_{33} = a_{55}w_{11}+a_{56}w_{12}+a_{65}w_{21}+a_{66}w_{22}+b^{l+1} \\$
接下来的思路和之前讲的一样，式子太多就省略了，直接说结论：
$\bigtriangledown a^l = \delta_{ex}^{l+1} *_1 rot180(w^{l+1}) = \, \begin{bmatrix} 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & \delta_{11} & 0 & \delta_{12} & 0 & \delta_{13} & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & \delta_{21} & 0 & \delta_{22} & 0 & \delta_{23} & 0\\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & \delta_{31} & 0 & \delta_{32} & 0 & \delta_{33} & 0\\ 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ \end{bmatrix} *_{1} \begin{bmatrix} w_{22} & w_{21} \\ w_{12} & w_{11} \end{bmatrix}$

这次的 $\delta_{ex}^{l+1}$ 除了 padding（边缘填充）外，还多了 dilation（扩大）

padding 宽度（以横向为例）= $w^{l+1}.columns- 1$ （其实用"full"卷积来思考，根本没有padding）
膨胀间隙宽度（以横向为例）= stride(横向) - 1
rot180(w) 卷积步长 = 1
$\delta_{ex}^{l+1}$ 宽度为：
$\begin{aligned} \delta_{ex}^{l+1}.col &= 2\times(w^{l+1}.col- 1)+(\delta^{l+1}.col-1) \times (stride -1) + \delta^{l+1}.col \\ &= 2\times w^{l+1}.col + (\delta^{l+1}.col-1) \times stride -1 \end{aligned}$

数学公式是这样，怎么用代码实现呢？

我是只想到用先构造一个全 0 张量，然后向里面填 $\delta$ （不知道用 numpy 有没有更巧妙的办法）。这样做空间复杂度和时间复杂度都很高（用过 python 的都知道， for 循环非常慢）。

但如果是用 C/C++，语言本身就很快，完全可以采用控制索引访问来代替傻傻地填 0 ，而不用过于担心索引计算的时间消耗。

代码

做了这么多铺垫（接近一半的篇幅），终于到了贴代码的时候了。
可以说卷积层是这里最难最麻烦的了。

# 卷积层

class ConvolutionLayer(Layer):
    def __init__(self, in_channels, out_channels, kernel_size, stride):
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.ks = kernel_size
        self.kernel_shape = (kernel_size, kernel_size)
        self.stride = stride
        self.x: Optional[np.ndarray] = None  # input
        # 卷积核: row,col,channel 顺序
        # 共有 out_channels 个 (row,col,in_channel) 的 kernels
        self.kernel = np.random.normal(loc=0.0, scale=1.0, size=(
            kernel_size, kernel_size, in_channels, out_channels,))
        # 每个卷积核共用一个 bias, 总共有 out_channels 个 biases
        self.bias = np.random.normal(loc=0.0, scale=1.0, size=(out_channels,))

    def check_x_mat_shape(self, x_mat):
        '''
            要求卷积核在卷积过程中可以把矩阵铺满(stride空隙不算)
            右侧（下侧）不能有多余的列（行）
            如 28x28 不能用(5x5,stride=2)的卷积核，因为它只能覆盖(27x27)
        '''
        row, col = x_mat.shape[0], x_mat.shape[1]
        k, s = self.ks, self.stride
        assert (row - k) // s * s + k == row
        assert (col - k) // s * s + k == col

    def __call__(self, x_mat: np.ndarray) -> np.ndarray:
        self.check_x_mat_shape(x_mat)
        self.x = x_mat
        return self.__conv(
            stride=self.stride,
            mat=x_mat,
            kernel=self.kernel,
            bias=None,
            einsum_formula="ijk,ijkl->l",
            out_ele_shape=[self.out_channels]
        )

    def backward(self, dc_dz: np.ndarray) -> np.ndarray:
        # 反向卷积的目标是dc_dz补0之后的矩阵（张量）
        # （padding + dilation）
        # 补0规则为：边缘padding kernel_size-1 层0；间隔处补 stride-1 层0
        # 只看横向，如果dc_dz有c列，那该矩阵有 2kernel_size+(m-1)stride-1 列
        # 反向卷积的stride固定为1
        (kr, kc, in_ch, out_ch), s = self.kernel.shape, self.stride
        dc_dz_with_zeros_shape = (
            2 * kr + (dc_dz.shape[0] - 1) * s - 1,
            2 * kc + (dc_dz.shape[1] - 1) * s - 1,
            dc_dz.shape[2]
        )
        D = np.zeros(dc_dz_with_zeros_shape)  # 为了简化，用D表示补充0之后的张量
        for i in range(dc_dz.shape[0]):
            for j in range(dc_dz.shape[1]):
                D[kr + i * s - 1, kc + j * s - 1] = dc_dz[i, j]
        # 求 dc_da（a指的是该层的输入self.x,因为习惯上称呼上一层的激活值为a[l-1]）
        # 注意stride(步长)是1
        # kernel[i,j,k,l]在正向推导时i表示row，j表示col，k表示in_ch，l表示out_ch
        # 反向推导时i表示row，j表示col，l表示in_ch，k表示out_ch，其余计算步骤和正向推导一致
        dc_da = self.__conv(
            stride=1,
            mat=D,
            kernel=self.kernel[::-1, ::-1],  # 注意不能漏了反向传播中卷积核的180度旋转 rot180(w)
            bias=None,
            einsum_formula="ijl,ijkl->k",
            out_ele_shape=[in_ch])
        # 求 dc_dw(即dc_d kernel)
        # 也是卷积，只不过是用 rot180(a_input) 对 D 卷积
        dc_dw = self.__conv(
            stride=1,
            mat=D,
            kernel=self.x[::-1, ::-1],
            bias=None,
            einsum_formula="ijl,ijk->kl",
            out_ele_shape=[in_ch, out_ch])
        # 求 dc_db
        dc_db = np.einsum("ijk->k", dc_dz)
        # 更新w（kernel）和b（bias），并返回 dc_da
        self.kernel += dc_dw
        self.bias += dc_db
        return dc_da

    def __conv(self,
               stride: int,
               mat: np.ndarray,  # shape=(row, col, in_ch)
               kernel: np.ndarray,  # shape=(k_row, k_col, in_ch, out_ch)
               bias: np.ndarray = None,  # shape=(out_ch,)
               einsum_formula: str = "ijk,ijkl->l",
               out_ele_shape: Iterable[int] = None) -> np.ndarray:
        '''
            einsum_formula:
                卷积核kernel对mat的某个子矩阵进行全卷积要使用这个爱因斯坦求和约定式子进行计算。
                卷积结束后得到一个 shape=(I,J) 的结果矩阵。
                矩阵的每一个元素不一定是值，有可能是一个张量,这需要要看 einsum_formula 的设置。
                结果矩阵本质上可以写成 shape=(I,J,...) 的张量

            out_ele_shape:
                注意 out_ele_shape 要与 einsum_formula 相对应
                out_ele_shape 表示作卷积后，结果矩阵中每个元素的shape
                out_ele_shape 会被用来构造结果张量。
                -------------------------------------------------------------
                举个例子：
                    "ijk,ijl->kl"，用这个式子卷积后结果矩阵的每个元素都是 shape=(K,L)
                    的矩阵，那么结果其实是一个 (I,J,K,L) 的4维张量，此时应该设置
                    out_ele_shape=[K,L]
                -------------------------------------------------------------
                如果是单通道卷积，则每个元素就是一个数值，应该设置 out_ele_shape=[]
                默认设置是针对正向传播的，此时out_ele_shape可以设置为None（只是为了方便）
        '''
        # 卷积运算 sub_np_tensor * kernel_np_tensor + bias
        if bias is None:
            def f(m):
                return np.einsum(
                    einsum_formula, m, kernel)
        else:
            def f(m):
                return np.einsum(einsum_formula, m, kernel) + bias
        row, col = mat.shape[0], mat.shape[1]
        s = stride  # 简写
        (kr, kc, *omit), s = kernel.shape, stride

        # out_ele_shape 默认为 (kernel.shape[2],)
        # 针对正向推导
        if out_ele_shape is None:
            assert len(kernel.shape) == 3
            out_ch = kernel.shape[-1]
            out_ele_shape = (out_ch,)

        target_shape = ((row - kr) // s + 1, (col - kc) // s + 1, *out_ele_shape)
        target = np.zeros(target_shape)
        for i in range(target_shape[0]):
            for j in range(target_shape[1]):
                r, c = i * s, j * s
                target[i, j] = f(mat[r:r + kr, c:c + kc])
        return target

神经网络

# (nn.py)
# 神经网络
class NN:
    def __init__(self,input_shape=(1,-1),output_shape=(1,-1)):
        self.layers = list()
        self.input_shape = input_shape
        self.output_shape = output_shape

    def forward(self,x:np.ndarray)->np.ndarray:
        a = x.reshape(self.input_shape)
        for layer in self.layers:
            a = layer(a)
        return a

    def backward(self,dc_da_last:np.ndarray)->np.ndarray:
        d = dc_da_last.reshape(self.output_shape)
        for layer in self.layers[::-1]:
            d = layer.backward(d)
        return d

    def train(self,input_vec,label,loss_func:LossFunc,lr):
        y = self.forward(input_vec)
        loss = loss_func.derivate(label,y)
        self.backward(loss * -lr)

    def set_layers(self,layers):
        self.layers = layers 

    def append(self,layer):
        self.layers.append(layer)

测试

我没有做归一化 normalization 或者标准化 standardization，只是测试我正反向传播有没有写对。

就不多说了

def test_conv():
    '''
        测试卷积层
        可以很明显的发现，经过training后，输出和正确答案变得非常接近
    '''
    a = np.array(
        [
            [[1, 1, 3], [2, 2, 3], [3, 3, 5], [4, 4, 5]],
            [[0, 0, 3], [1, 1, 3], [0, 0, 5], [1, 1, 5]],
            [[5, 5, 3], [0, 0, 3], [9, 9, 5], [1, 1, 5]],
            [[6, 6, 3], [3, 3, 3], [7, 7, 5], [1, 1, 5]]
        ]
    )

    label = np.array([[1, 0, 1, 1]])

    from funcs import sigmoid
    from lossfuncs import sse
    from nn import NN

    # conv = ConvolutionLayer(2,1,2,1)
    my_nn = NN((4, 4, 3), (1, 4))
    my_nn.set_layers([
        ConvolutionLayer(3, 6, 1, 1),
        FuncLayer(sigmoid),
        MeanPoolingLayer(2,2),
        FuncLayer(relu),
        ConvolutionLayer(6, 5, 2, 1),
        FuncLayer(sigmoid),
        ReshapeLayer(None,(1,-1)),
        FullConnectedLayer(None, 4),
        FuncLayer(sigmoid),
    ])
    y1 = my_nn.forward(a)
    for i in range(20000):
        my_nn.train(a, label, sse, 0.1)
    y2 = my_nn.forward(a)
    print("训练前：",y1) # 训练前： [[0.77564924 0.91641117 0.37085342 0.2824503 ]]
    print("训练后：",y2) # 训练后： [[0.99345597 0.00654098 0.99345575 0.9934803 ]]
    print("答案：",label) # 答案： [[1 0 1 1]]

你可能感兴趣的:(python,深度学习)

Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
Python Django 数据库索引优化 Python编程之道 python django 数据库 ai
PythonDjango数据库索引优化关键词：DjangoORM、数据库索引、查询优化、性能调优、PostgreSQL、MySQL、执行计划摘要：本文深入探讨Django框架中的数据库索引优化策略。我们将从数据库索引的基本原理出发，详细分析DjangoORM如何生成SQL查询，以及如何通过合理的索引设计提升查询性能。文章包含索引类型选择、复合索引优化、Django模型字段索引配置、查询集优化技巧等
Python Scrapy爬取办公用品网站数据的策略 Python编程之道 python scrapy 开发语言 ai
1.引入与连接想象一下，你是一家办公用品公司的市场调研人员，需要了解竞争对手的产品价格、种类等信息。如果手动去各个办公用品网站收集这些数据，那将是一项极其繁琐且耗时的工作。而Python的Scrapy框架就像是一个不知疲倦的超级助手，能帮你快速、高效地从众多网站抓取所需数据。你可能已经对Python有了一定的了解，知道它是一门功能强大且应用广泛的编程语言。Scrapy则是Python中专门用于网络
使用Python Scrapy打造个性化爬虫
使用PythonScrapy打造个性化爬虫——知识金字塔构建1.引入与连接：从“手动复制”到“自动化采集”的跨越你是否遇到过这样的场景？想整理1000条知乎优质回答做数据分析，却要逐条复制；想追踪某电商平台的商品价格波动，却要每天手动刷新页面……这些重复劳动，正是“个性化爬虫”的用武之地！与已有知识的连接：你可能用过requests+BeautifulSoup写过简单爬虫，但面对大规模数据、复杂反
新手向:基于 Python 的简易视频剪辑工具
在数字媒体时代，视频创作已成为大众表达的重要形式，从个人vlog制作到企业宣传视频，视频内容的需求呈现爆发式增长。传统专业软件如AdobePremierePro虽功能强大，提供完整的非线性编辑系统，但存在学习曲线陡峭（新手通常需要数周系统学习）、资源占用高（最低配置要求8GB内存）、授权费用昂贵（订阅价约20美元/月）等痛点。相比之下，Python凭借其丰富的多媒体库生态系统（如OpenCV、Mo
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
Python 数据插值：NumPy 实现多种插值方法
Python数据插值：用NumPy解锁缺失数据的秘密拼图关键词数据插值、NumPy、线性插值、多项式插值、缺失值处理、数据平滑、数值分析摘要在数据分析和科学计算中，我们经常遇到离散或缺失的观测数据——比如气象站每小时记录的温度值有缺失，或者实验中只采集了稀疏的采样点。这时候，数据插值（Interpolation）就像“数据修复师”，能根据已知点推断出未知点的数值，让离散数据变成连续的“故事”。本文
【Python LeetCode 专题】热题 100，重在思路一杯水果茶！人生苦短我用 Python python leetcode
哈希1.两数之和49.字母异位词分组128.最长连续序列双指针283.移动零11.盛最多水的容器15.三数之和42.接雨水滑动窗口3.无重复字符的最长子串438.找到字符串中所有字母异位词子串560.和为K的子数组239.滑动窗口最大值普通数组53.最大子数组和56.合并区间189.轮转数组238.除自身以外数组的乘积矩阵73.矩阵置零链表160.相交链表206.反转链表234.回文链表141.环
自己开发FT4222上位机软件 - USB转SPI EE工程师嵌入式系统 python 单片机模块测试
写作背景最近公司有个项目，让开发一个能够同时进行千兆网接收和SPI配置的上位机软件，开发语言不限，所以作者选择Python+PyQt作开发，做嵌入式固件开发的读者可能知道还需要一块USB转SPI的模块才能进行上下位机正常SPI读写，项目团队成员建议模块从淘宝网购买就好，作者经过调研对比，感觉从芯片质量到开发配套上来讲，FTDI的FT4222模块是最优选择。但令作者感到不快的是淘宝商家不提供模块
自己开发I2C Bootloader -上位机开发篇 EE工程师嵌入式系统 python stm32 单片机
上位机脚本开发在芯片原厂大部分工程师选择的脚本语言依然是Python,Python有哪些开发优势这里就不再讨论了，这里我们只陈述一下上位机的开发环境，作者的开发环境是VSCode+Anaconda。脚本内容也没有什么好说的，一看就懂，比较简单。唯一值得提醒的是本项目的上位机开发需要多注意*Write_DataBytes_To_Serial_Port(self,DataBytes):*函数的实现
Grok网站的后端语言是php和Python2.7 言之。随笔随笔
老马的Grok模型https://grok.com/#subscribephp语法这里还出现了两个bug后端语言能看到是php和python2.7要说卷还是得看中国的程序员啊，天天就是新技术，赶不上别人就35岁毕业退休
【python】图片批量压缩脚本横桥码农 python python
#-*-coding:utf-8-*-'''图片批量压缩脚本将脚本放入待压缩文件夹下，并运行自动生成压缩文件夹compress'''fromPILimportImageimportosimportsysimportiosys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')defcompress_image(input_imag
python 中列表,元组和集合常用方法 [自由之路] python python windows 开发语言
列表列表中可以添加不同类型的元素,如:int类型和str类型deftest_list():"""测试列表的基本操作"""var9=range(10)_var9=list(var9)#将range对象转换为列表copy_var9=_var9.copy()#复制列表_var9.append(1)#添加一个元素到列表中count=_var9.count(1)#计算1出现的次数print(f"counto
浅谈Python+requests+pytest接口自动化测试框架的搭建测试界筱筱软件测试 python pytest 数据库软件测试功能测试自动化测试程序人生
框架的设计思路首先要明确进行接口自动化需要的步骤，如下图所示：然后逐步拆解需要完成的工作：1）了解分析需求：了解接口要实现的功能2）数据准备：根据开发文档确定接口的基本情况，知晓接口的url、请求方式、入参等信息，然后根据业务逻辑以及入参来预期接口的输出需要有一个配置文件来存储接口的一些基本信息；需要有一个方法能读取配置文件；需要有一个excel或者yaml格式文件来存储测试数据；需要有一个方法能
Excel处理控件Aspose.Cells指南：使用 Python 删除 Excel 中的重复行 CodeCraft Studio 文档管理控件 python excel 开发语言
在Excel中删除重复行对于维护干净、准确和一致的数据集至关重要。它可以确保一致性，并有助于防止分析或报告中出现错误。重复数据会导致错误的分析和糟糕的决策。因此，识别和消除重复数据的能力对于软件开发人员、数据分析师和Excel用户来说是一项宝贵的技能。在本篇博文中，我们将向您展示如何使用Python以编程方式删除Excel工作表中的重复行。Python库用于删除Excel中的重复行Aspose.C
Excel处理控件Aspose.Cells教程：使用 Python 在 Excel 中进行数据验 CodeCraft Studio 文档管理控件 excel python 开发语言
Excel中的数据验证功能可确保用户在工作表中输入正确的数据类型。无论您是构建动态模板、收集结构化数据还是准备财务报告，添加验证都有助于避免错误并保持一致性。在本文中，我们将探讨如何使用Python在Excel中实现数据验证。让我们深入研究实际的解决方案，以自动执行Excel验证任务-而无需安装MicrosoftExcel。Aspose.Cells最新版下载Excel中的数据验证是什么？Excel
Python脚本压缩图片大小，不损害图片质量凉风听雪 Python python 开发语言
Python源码：同步绑定有exe文件，可下载直接使用importosfromPILimportImagedefcompress_images(input_folder,quality):#确定输出文件夹路径为输入路径同级的"out"output_folder=os.path.join(os.path.dirname(input_folder),"out")#确保输出文件夹存在ifnotos.pa
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
用python写一个压缩图片到指定大小的脚本清明自在功能测试
事情起因:本人是一名测试,单位里的测试时不时要测试上传图片的大小边界值,每次找图片都很不方便,所以我想自己写个python脚本去实现它。事情经过:经过不断百度+csdn,发现也有不少前辈有着类似的需求,也有做了类似的脚本,用的pillow库,思路是通过循环另存一张图片,如果另存后大小不符合自己的要求,就把压缩比率(参数为quality)降低再保存,思路挺好的,效果也有,但似乎不太稳定,我copy脚
Python+requests+pytest接口自动化测试框架的搭建天才测试猿 python 自动化测试软件测试测试用例职场和发展 pytest 测试工具
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快框架的设计思路首先要明确进行接口自动化需要的步骤，如下图所示：然后逐步拆解需要完成的工作：1）了解分析需求：了解接口要实现的功能2）数据准备：根据开发文档确定接口的基本情况，知晓接口的url、请求方式、入参等信息，然后根据业务逻辑以及入参来预期接口的输出需要有一个配置文件来存储接口的一些基本信息；需要有一个方法能读取配置文件；需要有一个e
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
从代码到终端部署：Prompt如何颠覆传统DevOps流程 LCG元工具运维 prompt devops 运维
文章目录基于Prompt工程的DevOps架构重构实践一、架构演进与技术对比1.1架构演进路径1.2核心流程对比二、核心实现方案2.1Prompt解析引擎实现（Python）2.2Kubernetes集成部署（YAML模板）三、生产部署实践3.1安全增强方案3.2性能优化数据四、技术前瞻与演进4.1未来三年技术路线图五、完整技术图谱六、核心代码实现（TypeScript前端）七、部署验证测试基于P
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
上位机知识篇---Prompt&PowerShell Prompt Atticus-Orion 上位机知识篇 prompt powershell
在Anaconda环境中，AnacondaPrompt和AnacondaPowerShellPrompt是两个常用的命令行工具，它们的核心功能都是为了方便管理Python环境和执行相关命令，但底层依赖的命令行解释器不同，因此在使用场景和语法上存在一些区别。下面详细介绍两者的差异：1.底层依赖的命令行解释器不同这是两者最根本的区别，决定了它们的语法规则和功能范围：AnacondaPrompt基于Wi
virtualenv 小小怪吃吃吃
virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。(1)用pip安装virtualenv:pip3installvirtualenv(2)创建开发项目目录:mkdirprojectcdproject/(3)创建一个独立的Python运行环境，命名为venv:virtualenv--no-site-packagesvenv命令virtualenv就可以创建一个独立的Pyt
VSCode使用Jupyter完整指南配置机器学习环境 z日火校招学习日记 vscode jupyter 机器学习
接下来开始机器学习部分第一步配置环境：VSCode使用Jupyter完整指南1.安装必要的扩展打开VSCode，按Ctrl+Shift+X打开扩展市场，搜索并安装以下扩展：必装扩展：Python(Microsoft官方)-Python语言支持Jupyter(Microsoft官方)-Jupyternotebook支持Pylance(Microsoft官方)-Python智能提示和语法检查推荐扩展：
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen