csdn王艺

李理：三层卷积网络和vgg的实现

本系列文章面向深度学习研发者，希望通过Image Caption Generation，一个有意思的具体任务，深入浅出地介绍深度学习的知识。本系列文章涉及到很多深度学习流行的模型，如CNN，RNN/LSTM，Attention等。本文为第12篇。

作者：李理
目前就职于环信，即时通讯云平台和全媒体智能客服平台，在环信从事智能客服和智能机器人相关工作，致力于用深度学习来提高智能机器人的性能。

相关文章：
李理：从Image Caption Generation理解深度学习（part I）
李理：从Image Caption Generation理解深度学习（part II）
李理：从Image Caption Generation理解深度学习（part III）
李理：自动梯度求解反向传播算法的另外一种视角
李理：自动梯度求解——cs231n的notes
李理：自动梯度求解——使用自动求导实现多层神经网络
李理：详解卷积神经网络
李理：Theano tutorial和卷积神经网络的Theano实现 Part1
李理：Theano tutorial和卷积神经网络的Theano实现 Part2
李理：卷积神经网络之Batch Normalization的原理及实现
李理：卷积神经网络之Dropout

卷积神经网络的原理已经在《李理：卷积神经网络之Batch Normalization的原理及实现》以及《李理：卷积神经网络之Dropout》二文中详细讲过了，这里我们看怎么实现。

5.1 cell1-2

打开ConvolutionalNetworks.ipynb，运行cell1和2

5.2 cell3 实现最原始的卷积层的forward部分

打开layers.py，实现conv_forward_naive里的缺失代码：

N, C, H, W = x.shape
  F, _, HH, WW = w.shape
  stride = conv_param['stride']
  pad = conv_param['pad']
  H_out = 1 + (H + 2 * pad - HH) / stride
  W_out = 1 + (W + 2 * pad - WW) / stride
  out = np.zeros((N,F,H_out,W_out))

  # Pad the input
  x_pad = np.zeros((N,C,H+2*pad,W+2*pad))
  for n in range(N):
    for c in range(C):
      x_pad[n,c] = np.pad(x[n,c],(pad,pad),'constant', constant_values=(0,0))

  for n in range(N):
      for i in range(H_out):
        for j in range(W_out):
          current_x_matrix = x_pad[n, :, i * stride: i * stride + HH, j * stride:j * stride + WW]
          for f in range(F):
            current_filter = w[f]
            out[n,f,i,j] = np.sum(current_x_matrix*current_filter)

          out[n,:,i,j] = out[n,:,i,j]+b

我们来逐行来阅读上面的代码

5.2.1 第1行

首先输入x的shape是(N, C, H, W)，N是batchSize，C是输入的channel数，H和W是输入的Height和Width

5.2.2 第2行

参数w的shape是(F, C, HH, WW)，F是Filter的个数，HH是Filter的Height，WW是Filter的Width

5.2.3 第3-4行

从conv_param里读取stride和pad

5.2.4 第5-6行

计算输出的H_out和W_out

5.2.5 第7行

定义输出的变量out，它的shape是(N, F, H_out, W_out)

5.2.6 第8-11行

对x进行padding，所谓的padding，就是在一个矩阵的四角补充0。

首先我们来熟悉一下numpy.pad这个函数。

In [19]: x=np.array([[1,2],[3,4],[5,6]])

In [20]: x
Out[20]: 
array([[1, 2],
       [3, 4],
       [5, 6]])

首先我们定义一个3*2的矩阵

然后给它左上和右下都padding1个0。

In [21]: y=np.pad(x,(1,1),'constant', constant_values=(0,0))

In [22]: y
Out[22]: 
array([[0, 0, 0, 0],
       [0, 1, 2, 0],
       [0, 3, 4, 0],
       [0, 5, 6, 0],
       [0, 0, 0, 0]])

我们看到3*2的矩阵的上下左右都补了一个0。

我们也可以只给左上补0：

In [23]: y=np.pad(x,(1,0),'constant', constant_values=(0,0))

In [24]: y
Out[24]: 
array([[0, 0, 0],
       [0, 1, 2],
       [0, 3, 4],
       [0, 5, 6]])

了解了pad函数之后，上面的代码就很容易阅读了。对于每一个样本，对于每一个channel，这都是一个二位的数组，我们根据参数pad对它进行padding。

5.2.7 第12-19行

这几行代码就是按照卷积的定义：对于输出的每一个样本(for n in range(N))，对于输出的每一个下标i和j，我们遍历所有F个filter，首先找到要计算的局部感知域：

current_x_matrix = x_pad[n,:, i*stride: i*stride+HH, j*stride:j*stride+WW]

这会得到一个(C, HH, WW)的ndarray，也就是下标i和j对应的。

然后我们把这个filter的参数都拿出来：

current_filter = w[f]

它也是(C, HH, WW)的ndarray。

然后对应下标乘起来，最后加起来。

如果最简单的实现，我们还应该加上bias

out[n,f,i,j]+=b[f]

这也是可以的，但是为了提高运算速度，我们可以把所有filter的bias一次用向量加法实现，也就是上面代码的方式。

其中烦琐的地方就是怎么通过slice得到当前的current_x_matrix。不清楚的地方可以参考下图：

关于上面的4个for循环，其实还有一种等价而且看起来更自然的实现：

  for n in range(N):
    for f in range(F):
      current_filter = w[f]
      for i in range(H_out):
        for j in range(W_out):
          current_x_matrix = x_pad[n, :, i * stride: i * stride + HH, j * stride:j * stride + WW]
          out[n, f, i, j] = np.sum(current_x_matrix * current_filter)
          out[n, f, i, j] = out[n, f, i, j] + b[f]

为什么不用这种方式呢？

首先这种方式bias没有办法写出向量的形式了，其次我觉得最大的问题是切片操作次数太多，对于这种方式，current_x_matrix从x_pad切片的调用次数是N F H_out*W_out。切片会访问不连续的内存，这是会极大影响性能的。

5.3 cell4

通过卷积实现图像处理。

这个cell通过卷积来进行图像处理，实现到灰度图的转化和边缘检测。这一方面可以验证我们之前的算法，另外也可以演示卷积可以提取一些特征。

实现灰度图比较简单，每个像素都是 gray=r∗0.1+b∗0.6+g∗0.3
用一个卷积来实现就是：

w[0, 0, :, :] = [[0, 0, 0], [0, 0.3, 0], [0, 0, 0]]
w[0, 1, :, :] = [[0, 0, 0], [0, 0.6, 0], [0, 0, 0]]
w[0, 2, :, :] = [[0, 0, 0], [0, 0.1, 0], [0, 0, 0]]

而下面的filter是一个sobel算子，用来检测水平的边缘：

w[1, 0, :, :] =0
w[1, 1, :, :] =0
w[1, 2, :, :] = [[1, 2, 1], [0, 0, 0], [-1, -2, -1]]

感兴趣的读者可以参考 sobel operator
读者可能问了，这么做有什么意义？这个例子想说明的是卷积能够做一些图像处理的事情，而通过数据的驱动，是可以(可能)学习出这样的特征的。而在深度学习之前，很多时候是人工在提取这些特征。以前做图像识别，需要很多这样的算子，需要很多图像处理的技术，而现在就不需要那么多了。

这个cell不需要实现什么代码，直接运行就好了。

5.4 cell5 实现conv_backward_naive

代码如下：

  x, w, b, conv_param = cache
  stride = conv_param['stride']
  pad = conv_param['pad']
  N, C, H, W = x.shape
  F, _, HH, WW = w.shape
  _,_,H_out,W_out = dout.shape

  x_pad = np.zeros((N,C,H+2*pad,W+2*pad))
  for n in range(N):
    for c in range(C):
      x_pad[n,c] = np.pad(x[n,c],(pad,pad),'constant', constant_values=(0,0))

  db = np.zeros((F))

  dw = np.zeros(w.shape)
  dx_pad = np.zeros(x_pad.shape)

  for n in range(N):
    for i in range(H_out):
      for j in range(W_out):
        current_x_matrix = x_pad[n, :, i * stride: i * stride + HH, j * stride:j * stride + WW]
        for f in range(F):
          dw[f] = dw[f] + dout[n,f,i,j]* current_x_matrix
          dx_pad[n,:, i*stride: i*stride+HH, j*stride:j*stride+WW] += w[f]*dout[n,f,i,j]
        db = db + dout[n,:,i,j]
  dx = dx_pad[:,:,pad:H+pad,pad:W+pad]

代码和forward很像，首先是把cache里的值取出来。由于x_pad没有放到cache里，这里还需要算一遍，当然也可以修改上面的forward，这样避免padding。

然后定义db,dw,dx_pad

最后是和forward完全一样的一个4层for循环，区别是：

    #forward
    current_x_matrix = x_pad[n, :, i * stride: i * stride + HH, j * stride:j * stride + WW]
        out[n,f,i,j] = np.sum(current_x_matrix* w[f])
       #backward
       dw[f] += dout[n,f,i,j]*current_x_matrix
       dx_pad[....]+=dout * w[f]

这里的小小技巧就是 z=np.sum(matrix1*matrix2)，怎么求dz/dmatrix1。
答案就是matrix2。

所以写出矩阵的形式就是dz/matrix1=matrix2。

我们运行一下这个cell，如果相对误差小于10的-9次方，那么我们的实现就是没有问题的。

5.5 cell6 实现max_pool_forward_naive

  N, C, H, W = x.shape
  pool_height = pool_param['pool_height']
  pool_width = pool_param['pool_width']
  stride = pool_param['stride']
  H_out = 1 + (H - pool_height) / stride
  W_out = 1 + (W - pool_width) / stride
  out = np.zeros((N,C,H_out,W_out))

  for n in range(N):
    for c in range(C):
      for h in range(H_out):
        for w in range(W_out):
          out[n,c,h,w] = np.max(x[n,c, h*stride:h*stride+pool_height, w*stride:w*stride+pool_width])

max_pool的forward非常简单，就是在对应的局部感知域里选择最大的那个数就行。

5.6 cell7 实现max_pool_backward_naive

  x, pool_param = cache
  pool_height = pool_param['pool_height']
  pool_width = pool_param['pool_width']
  stride = pool_param['stride']
  N, C, H_out, W_out = dout.shape

  dx = np.zeros(x.shape)

  for n in range(N):
    for c in range(C):
      for h in range(H_out):
        for w in range(W_out):
          current_matrix = x[n, c, h * stride:h * stride + pool_height, w * stride:w * stride + pool_width]
          max_idx = np.unravel_index(np.argmax(current_matrix),current_matrix.shape)
          dx[n, c, h * stride + max_idx[0], w * stride + max_idx[1]] += dout[n, c, h, w]

backward也很简单，就是最大的局部感知域最大的那个dx是1，其余的是0。为了提高效率，其实forward阶段是可以”记下“最大的那个下标，这里是重新计算的。

稍微注意一下就是np.argmax返回的是最大的下标，是把2维数组展开成一维的下标，为了变成二维数组的下标，我们需要用unravel_index这个函数。

In [3]: x
Out[3]: 
array([[1, 2, 3],
       [4, 5, 6]])

In [5]: x.argmax()
Out[5]: 5

In [6]: ind = np.unravel_index(np.argmax(x),x.shape)

In [7]: ind
Out[7]: (1, 2)

5.7 cell8-9

作业提供了卷积和pooling的加速实现，它里面已经实现好了，我们这里就不再讲解其实现细节了，有兴趣的读者可以参考作业的代码以及参考 http://cs231n.stanford.edu/slides/winter1516_lecture11.pdf 的im2col部分。

这里只是比较了它们的速度

卷积的快速版本和原始版本比较

pooling的快速版本和原始版本比较

5.8 cell10-11

把卷积，pooling和relu组装在一起，代码已经实现，直接执行验证一下就好了

5.9 cell12 三层的卷积神经网络

打开cs231n/cnn.py实现ThreeLayerConvNet

首先我们来看看这个网络的结构：

conv - relu - 2x2 max pool - affine - relu - affine - softmax

这个网络有三层，第一层是卷积-relu激活-max pooling。第二层是全连接层affine-relu激活，第三层是线性的affine加softmax

5.9.1 init函数

这个函数定义了网络的输入维度，卷积的filter个数，卷积的大小，全连接层隐单元个数，输出维度等。请仔细阅读代码中的注释。

  def __init__(self, input_dim=(3, 32, 32), num_filters=32, filter_size=7,
               hidden_dim=100, num_classes=10, weight_scale=1e-3, reg=0.0,
               dtype=np.float32):
    """
    初始化一个新的网络

    输入:
    - input_dim: 三元组 (C, H, W) 给定输入的Channel数，Height和Width
    - num_filters: 卷积层的filter的个数（feature map）
    - filter_size: filter的width和height，这里假设是一样的。
    - hidden_dim: 全连接层hidden unit的个数
    - num_classes: 输出的类别数
    - weight_scale: 初始化weight高斯分布的标准差

    - reg: L2正则化系数
    - dtype: 浮点数的类型
    """
    self.params = {}
    self.reg = reg
    self.dtype = dtype

    ############################################################################
    # TODO: Initialize weights and biases for the three-layer convolutional    #
    # network. Weights should be initialized from a Gaussian with standard     #
    # deviation equal to weight_scale; biases should be initialized to zero.   #
    # All weights and biases should be stored in the dictionary self.params.   #
    # Store weights and biases for the convolutional layer using the keys 'W1' #
    # and 'b1'; use keys 'W2' and 'b2' for the weights and biases of the       #
    # hidden affine layer, and keys 'W3' and 'b3' for the weights and biases   #
    # of the output affine layer.                                              #
    ############################################################################
    C, H, W = input_dim
    self.params['W1'] = np.random.normal(0, weight_scale, (num_filters, C, filter_size, filter_size))
    self.params['b1'] = np.zeros(num_filters)

    self.params['W2'] = np.random.normal(0, weight_scale, (num_filters*H/2*W/2, hidden_dim))
    self.params['b2'] = np.zeros(hidden_dim)

    self.params['W3'] = np.random.normal(0, weight_scale, (hidden_dim, num_classes))
    self.params['b3'] = np.zeros(num_classes)

    ############################################################################
    #                             END OF YOUR CODE                             #
    ############################################################################

    for k, v in self.params.iteritems():
      self.params[k] = v.astype(dtype)

init主要的代码就是初始化三层卷积网络的参数W和b。

W1的shape是(num_filters, C, filter_size, filter_size)
b1的shape是(num_filters)
W2的shape是(num_filters H/2 w/2, hidden_dim)，因为(C, H, W)经过卷积后变成(num_filters, H, W)【这里使用的padding方法使得输出的H和W保持不变】，在经过pooling后H，W减半【这里的pooling没有padding，2*2 pooling，stride是2】
b2的shape是(hidden_dim)
W3的shape是(hidden_dim, num_classes)
b3是(num_classes)

5.9.2 loss函数

在ThreeLayerConvNet类里，我们把predict和loss合并成了一个函数。如果输入y不是None，我们就认为是loss，否则只进行forward部分【loss也要forward】，区别在于predict没有必要计算softmax，只需要计算最好一个affine就行了，原因是softmax是单调的，计算softmax后再挑选最大的那个下标和不计算softmax是一样的。

1. forward部分

    conv_out, conv_cache = conv_forward_fast(X, W1, b1, conv_param)
    relu1_out, relu1_cache = relu_forward(conv_out)
    pool_out, pool_cache = max_pool_forward_fast(relu1_out, pool_param)
    affine_relu_out, affine_relu_cache = affine_relu_forward(pool_out, W2, b2)
    affine2_out, affine2_cache = affine_forward(affine_relu_out, W3, b3)
    scores = affine2_out

代码非常简单：

第一行是进行卷积，同时要保存cache，后面backward会用到
第二行是relu
第三行是max_pool
第四行是affine_relu，把affine和relu同时做了，当然分开也是可以的。
第五行是affine

    if y is None:
      return scores

接下来判断y是否None【也就是test还是train阶段】

2. backwoard

    loss, dscores = softmax_loss(scores, y)
    loss += 0.5 * self.reg*(np.sum(self.params['W1']* self.params['W1'])
         + np.sum(self.params['W2']* self.params['W2'])
         + np.sum(self.params['W3']* self.params['W3']))

    affine2_dx, affine2_dw, affine2_db = affine_backward(dscores, affine2_cache)
    grads['W3'] = affine2_dw + self.reg * self.params['W3']
    grads['b3'] = affine2_db

    affine1_dx, affine1_dw, affine1_db = affine_relu_backward(affine2_dx, affine_relu_cache)

    grads['W2'] = affine1_dw + self.reg * self.params['W2']
    grads['b2'] = affine1_db

    pool_dx = max_pool_backward_fast(affine1_dx, pool_cache)
    relu_dx = relu_backward(pool_dx, relu1_cache)
    conv_dx, conv_dw, conv_db = conv_backward_fast(relu_dx, conv_cache)
    grads['W1'] = conv_dw + self.reg * self.params['W1']
    grads['b1'] = conv_db

首先是调用softmax_loss函数
这个函数输入是最后一个affine的输出score和y计算出loss以及 ∂Loss/∂score
然后loss记得加上L2正则化的部分

接下来的步骤就非常”机械“和简单了。
我们之需要把forward的每个函数调用对应的back函数，
比如我们最后一句forward是：

affine2_out, affine2_cache = affine_forward(affine_relu_out, W3, b3)

那么对应的backward就是：

affine2_dx, affine2_dw, affine2_db = affine_backward(dscores, affine2_cache)

基本的”模板“就是

out, cache=xxx_forward(x,y,z)
dx,dy,dz=xxx_backward(dout, cache)

这里就不一一赘述细节了，有了dx，那么就可以把它保存到grads[‘x’]里，注意weight有正则化项 reg∗x² ，所以对x求导后还剩下 2∗reg∗x，也要记得更新到grad[‘x’]里去。

5.10 cell13-14 sanity check和gradient check

我们的代码写完了，怎么验证forward和backward呢？我们知道可以用数值梯度来验证梯度，所以这个还比较容易验证，那么forwar呢？之前的作业老师都准备好了一下单元测试的例子，给定x和y，我们实现的forward就是要通过x计算出y来。

但是如果我们自己设计一个网络，没有”参考答案”怎么验证呢？当然没法绝对的验证，但是可以做“sanity check”。什么意思？对于随机初始化的参数，我们让模型来分类，那么它应该是“乱猜”的，比如分类数是10，那么它分类的准确率应该是10%，loss应该是log(10)。当然reg不等于0，loss会更大一些。
因此运行cell13的结果类似下面的结果：

Initial loss (no regularization):  2.30258612067
Initial loss (with regularization):  2.50896273286

运行cell14：

W1 max relative error: 9.816730e-05
W2 max relative error: 3.816233e-03
W3 max relative error: 2.890462e-05
b1 max relative error: 6.426752e-05
b2 max relative error: 1.000000e+00
b3 max relative error: 1.013546e-09

关于gradient check。尽量用float64，因为32位浮点数的舍入误差会比较明显。另外就是复杂的网络最好分解成小的网络单个验证。后面我在实现VGG的网络时就发现如果网络非常深，数值梯度和我们计算的差别很大，我当时写完之后check不过，后来调试了半天也没发现问题，后来我把VGG简化成几层的网络，就能通过gradient check了。此外数值梯度的h也可能影响数值梯度。

5.11 cell15-16 拟合少量数据

为了验证我们的代码是否work，我们可以先用很少的训练数据来测试。模型应该要得到很高的训练数据上的准确率【当然测试数据会很低】

下面是测试的结果：

(Epoch 9 / 10) train acc: 0.790000; val_acc: 0.205000
(Iteration 19 / 20) loss: 0.659042
(Iteration 20 / 20) loss: 0.712001
(Epoch 10 / 10) train acc: 0.820000; val_acc: 0.225000

下面是训练和验证数据上的准确率图

5.12 cell17

在所有训练数据上训练，期望得到40%以上的分类准确率。

(Iteration 941 / 980) loss: 1.359960
(Iteration 961 / 980) loss: 1.461109
(Epoch 1 / 1) train acc: 0.476000; val_acc: 0.470000

5.13 cell18 可视化训练的特征

代码作业已经提供，有兴趣的读者可以阅读怎么可视化的代码。

下面是结果：

5.14 cell19 Spatial Batch Normalization

前面我们实现了Batch Normalization。但是怎么把它用到卷积层呢？对于全连接层，我们对每一个激活函数的输入单独进行batch normalization。对于卷积层，它的输入是C × H × W 的图像，我们需要对一个Channel的图像进行batch normalization。

5.14.1 forward

def spatial_batchnorm_forward(x, gamma, beta, bn_param):

  Inputs:
  - x: 输入数据shape (N, C, H, W)
  - gamma: scale参数 shape (C,)
  - beta: 平移参数 shape (C,)
  - bn_param: Dictionary包括:
    - mode: 'train' 或者 'test'; 必须有的
    - eps: 保持数值计算稳定的一个很小的常量
    - momentum: 计算running mean/variance的常量，前面也讲过。   
      如果momentum=0 那么每次都丢弃原来的值，只用当前最新值。
      momentum=1 表示只用原来的值。默认0.9，大部分情况下不用修改
    - running_mean: 数组 shape (D,) 保存当前的均值
    - running_var 数组 shape (D,) 保存当前的方差

  Returns a tuple of:
  - out: 输出数据 shape (N, C, H, W)
  - cache: 用于backward的cache
  """
  out, cache = None, None

  #############################################################################
  # TODO: Implement the forward pass for spatial batch normalization.         #
  #                                                                           #
  # HINT: You can implement spatial batch normalization using the vanilla     #
  # version of batch normalization defined above. Your implementation should  #
  # be very short; ours is less than five lines.                              #
  #############################################################################
  N, C, H, W = x.shape
  temp_output, cache = batchnorm_forward(x.transpose(0,2,3,1).reshape((N*H*W,C)), gamma, beta, bn_param)
  out = temp_output.reshape(N,H,W,C).transpose(0,3,1,2)

  #############################################################################
  #                             END OF YOUR CODE                              #
  #############################################################################

  return out, cache

代码这样3行：

通过x.shape获得输入的N, C, H, W代表batchSize，Channel数，Height和Width
把(N, C, H, W)的4维tensor变成(N H W,C)的2维tensor。因为要把第二维C放到最后，所以首先transponse(0,2,3,1)把第二维放到第四维，然后原来的第三和四维分别变成第二和三维。然后在reshape成二维的(N H W, C)。这样就直接调用之前的batchnorm_forward。
transpose(0,2,3,1)的意思就是：把原来的第0维放到新的第0维【不变】，把原来的第2维放到现在的第1维，把原来的第3维放到现在的第2维，把原来的第1维放到第3维。【主要这一段我说的时候下标是从0开始的了】
计算完成后我们需要把它恢复成(N, C, H, W)的4维tensor

运行这cell进行测试：

Before spatial batch normalization:
  Shape:  (2, 3, 4, 5)
  Means:  [ 10.55377221  10.73790598   9.53943534]
  Stds:  [ 3.78632253  3.62325432  3.74675181]
After spatial batch normalization:
  Shape:  (2, 3, 4, 5)
  Means:  [  5.66213743e-16  -1.38777878e-16   7.43849426e-16]
  Stds:  [ 0.99999965  0.99999962  0.99999964]
After spatial batch normalization (nontrivial gamma, beta):
  Shape:  (2, 3, 4, 5)
  Means:  [ 6.  7.  8.]
  Stds:  [ 2.99999895  3.99999848  4.99999822]

5.14.2 backward

和forward很类似

  N,C,H,W = dout.shape
  dx_temp, dgamma, dbeta = batchnorm_backward_alt(dout.transpose(0,2,3,1).reshape((N*H*W,C)),cache)
  dx = dx_temp.reshape(N,H,W,C).transpose(0,3,1,2)

下面是gradient check的结果：

dx error:  1.24124210224e-07
dgamma error:  1.440787364e-12
dbeta error:  1.19492399319e-11

5.15 实现一个validation数据上准确率超过65%的网络

这其实是一个开放的问题，这是一个很不错的问题。cifar10相对于mnist，分类数不变，但是分类难度要大不少。我们之前随便用一个3层的全连接网络就能实现95%以上的准确率，但是cifar10要实现这么高的准确率就不容易了。另一方面，相对于imagenet百万的训练数据，cifar的训练数据量只有50000，即使用十几层的卷积网络，在笔记本上训练几个小时也就收敛了。而训练imagenet即使用GPU也需要好几天才能收敛。所以用这个数据集来练手是个不错的选择。目前ResNet和Inception v4【不懂的读者不要着急，后面我们会简单的介绍它的思想，自己实现这种网络也不难】在这个数据上都能到95%以上的准确率。作业让我们达到65%的要求不算很高，读者可以尝试不同的网络层数，不同的dropout和learning_rate。

下面是我的一些调参经验：

learning_rate非常重要，刚开始要大，之后用lr_decay让它变小。如果发现开始loss下降很慢，那么可以调大这个参数。如果loss时而变大时而变小【当然偶尔反复是正常的】，那么可能是learning_rate过大了。
最原始的sgd效果不好，最好用adam或者rmsprop再加上momentum
如果训练准确率和验证准确率差距过大，说明模型过拟合了，可以增大L2正则化参数reg，另外使用dropout也是可以缓解过拟合的。
batch norm非常有用，尽量使用
越深的网络效果越好，当然要求的参数也越多，计算也越慢。后面我们会介绍一些使得我们可以训练更深网络的方法，比如著名的152层的ResNet以及参数很少的Inception系列算法，这些方法是最近一两年在ImageNet上名列前茅。

我这里就介绍VGG网络结构，原文为 Very Deep Convolutional Networks for Large-Scale Image Recognition 。这种网络结构很简单，LSVRC14的比赛上取得了很好的成绩。这一年另外一个比较好的是GoogLeNet，也就是inception v1。LSVRC15上的冠军就是ResNet，之后inception发展到v2/3(v2和v3其实是一篇论文出来的)和v4。这基本就是Image Classification比较state of the art的一些方法了。后面我们会简单的介绍ResNet和Inception的基本思想，这里我们先介绍VGG和它的实现方法。

1. VGG简介

VGG其实也没有什么的新东西，就是使用3 × 3的卷积和pooling实现比较深(16-19)层【当然ResNet出来后就不敢说自己深了】的网络结构。
VGG的结构如下图：

它的特点是：

所有的卷积都是 3×3，padding是1，stride是1，这样保证卷积后图像的大小不变，把几个filter数量一样的几个conv-relu合成一组，最后再用pooling把图像大小减半，图像大小减半之后一般就会增加filter的数量。最后接几个全连接层，最后一层是softmax。

我这里用我们已有的基础代码简单的实现了一个支持batch normalization和dropout的VGG，代码细节就不赘述了，有兴趣的读者可以参考代码。

class VGGlikeConvNet(object):
  """
  A flexible convolutional network with the following architecture:
  [(CONV-SBN-RELU)*A-POOL]*B - (FC-BN-RELU)*K - SOFTMAX

  The network operates on minibatches of data that have shape (N, C, H, W)
  consisting of N images, each with height H and width W and with C input
  channels.
  """
  def __init__(self, input_dim=(3, 32, 32), num_filters=[64, 128, 256, 512, 512], filter_size=3,
                       hidden_dims=[1024, 1024], num_classes=10, weight_scale=1e-2, reg=1e-3,
                       As=[2,2,3,3,3],use_batchnorm=True,
                       dropout=0, dtype=np.float32, seed=None):

    """
    Inputs:
    - input_dim: Tuple (C, H, W) giving size of input data
    - num_filters: A list of integers giving the filters to use in each "MAIN" convolutional layer
    - filter_size: Size of filters to use in the convolutional layer
    - hidden_dim: A list of integers giving the size of each hidden layer.
    - num_classes: Number of scores to produce from the final affine layer.
    - weight_scale: Scalar giving standard deviation for random initialization
      of weights.
    - reg: Scalar giving L2 regularization strength
    - As: Numbers of "SUB" convolution-layer replications in each num_filter
    - dtype: numpy datatype to use for computation.
    """
    self.params = {}
    self.reg = reg
    self.dtype = dtype
    self.use_dropout = dropout > 0
    self.use_batchnorm = use_batchnorm
    self.filter_size=filter_size
    self.hidden_dims=hidden_dims
    C, H, W = input_dim
    self.num_filters=num_filters
    self.As=As

    # With batch normalization we need to keep track of running means and
    # variances, so we need to pass a special bn_param object to each batch
    # normalization layer. You should pass self.bn_params[0] to the forward pass
    # of the first batch normalization layer, self.bn_params[1] to the forward
    # pass of the second batch normalization layer, etc.
    self.bn_params = {}

    for i in range(1, len(num_filters)+1):
      num_filter=num_filters[i-1]

      for j in range(1, As[i-1]+1):
        #debug
        ss=str(i)+","+str(j)
        print (H,W,C, num_filter,  filter_size, filter_size)
        self.params['W' + ss] = np.random.normal(0, weight_scale,
                                                                (num_filter, C, filter_size, filter_size))
        self.params['b' + ss] = np.zeros(num_filter)

        C=num_filter
        if self.use_batchnorm:
          self.params['beta' + ss] = np.zeros(num_filter)
          self.params['gamma'+ ss]=np.ones(num_filter)
          self.bn_params[ss]={'mode': 'train'}
      #max-pooling size/=2
      H/=2
      W/=2

    # full connected layers
    for i in range(1, len(hidden_dims)+1):
      layer_input_dim = C*H*W if i == 1 else hidden_dims[i - 2]
      layer_output_dim = hidden_dims[i - 1]
      print (layer_input_dim, layer_output_dim)
      self.params['W' + str(i)] = np.random.normal(0, weight_scale, (layer_input_dim, layer_output_dim))

      self.params['b' + str(i)] = np.zeros(layer_output_dim)

      if self.use_batchnorm:
        self.params['beta' + str(i)] = np.zeros(layer_output_dim)
        self.params['gamma' + str(i)] = np.ones(layer_output_dim)
        self.bn_params[str(i)]={'mode': 'train'}
    # softmax layer
    softmax_input_dim=hidden_dims[-1]
    softmax_output_dim=num_classes
    print (softmax_input_dim, softmax_output_dim)
    self.params['W_softmax'] = np.random.normal(0, weight_scale, (softmax_input_dim, softmax_output_dim))
    self.params['b_softmax'] = np.zeros(softmax_output_dim)
    self.dropout_param = {}
    if self.use_dropout:
      self.dropout_param = {'mode': 'train', 'p': dropout}
      if seed is not None:
        self.dropout_param['seed'] = seed


    # Cast all parameters to the correct datatype
    for k, v in self.params.iteritems():
      self.params[k] = v.astype(dtype)

  def loss(self, X, y=None):
    """
    Compute loss and gradient for the fully-connected net.

    Input / output: Same as TwoLayerNet above.
    """
    X = X.astype(self.dtype)
    mode = 'test' if y is None else 'train'

    # Set train/test mode for batchnorm params and dropout param since they
    # behave differently during training and testing.
    if self.dropout_param is not None:
      self.dropout_param['mode'] = mode
    if self.use_batchnorm:
      for bn_param in self.bn_params:
        self.bn_params[bn_param]['mode'] = mode

    scores = None

    conv_caches={}
    relu_caches={}
    bn_caches={}
    affine_relu_caches={}
    affine_bn_relu_caches={}
    dropout_caches={}
    pool_caches={}
    conv_param = {'stride': 1, 'pad': (self.filter_size - 1) / 2}

    # pass pool_param to the forward pass for the max-pooling layer
    pool_param = {'pool_height': 2, 'pool_width': 2, 'stride': 2}
    current_input = X

    # conv layers
    for i in range(1, len(self.num_filters)+1):
      for j in range(1, self.As[i-1]+1):
        ss=str(i) + "," +str(j)
        keyW = 'W' + ss
        keyb = 'b' + ss
        if not self.use_batchnorm:
          conv_out, conv_cache = conv_forward_fast(current_input, self.params[keyW], self.params[keyb], conv_param)
          relu_out, relu_cache = relu_forward(conv_out)
          conv_caches[ss]=conv_cache
          relu_caches[ss]=relu_cache
          current_input=relu_out
        else:
          key_gamma = 'gamma' + ss
          key_beta = 'beta' + ss
          conv_out, conv_cache = conv_forward_fast(current_input, self.params[keyW], self.params[keyb], conv_param)
          bn_out, bn_cache=spatial_batchnorm_forward(conv_out, self.params[key_gamma], self.params[key_beta], self.bn_params[ss])
          relu_out, relu_cache = relu_forward(bn_out)
          conv_caches[ss] = conv_cache
          relu_caches[ss] = relu_cache
          bn_caches[ss] = bn_cache
          current_input = relu_out
      pool_out, pool_cache = max_pool_forward_fast(current_input, pool_param)
      pool_caches[str(i)]=pool_cache
      current_input=pool_out

    # full connected layers
    for i in range(1, len(self.hidden_dims) + 1):
      keyW = 'W' + str(i)
      keyb = 'b' + str(i)

      if not self.use_batchnorm:
        current_input, affine_relu_caches[i] = affine_relu_forward(current_input, self.params[keyW], self.params[keyb])

      else:
        key_gamma = 'gamma' + str(i)
        key_beta = 'beta' + str(i)
        current_input, affine_bn_relu_caches[i] = affine_bn_relu_forward(current_input, self.params[keyW],
                                                                        self.params[keyb],
                                                                        self.params[key_gamma], self.params[key_beta],
                                                                        self.bn_params[str(i)])

      if self.use_dropout:
        current_input, dropout_caches[i] = dropout_forward(current_input, self.dropout_param)


    # softmax
    keyW = 'W_softmax'
    keyb = 'b_softmax'
    affine_out, affine_cache = affine_forward(current_input, self.params[keyW], self.params[keyb])

    scores=affine_out


    # If test mode return early
    if mode == 'test':
      return scores

    loss, grads = 0.0, {}

    loss, dscores = softmax_loss(scores, y)

    # last layer:
    affine_dx, affine_dw, affine_db = affine_backward(dscores, affine_cache)

    grads['W_softmax'] = affine_dw + self.reg * self.params['W_softmax']
    grads['b_softmax'] = affine_db

    loss += 0.5 * self.reg * (np.sum(self.params['W_softmax'] * self.params['W_softmax']))

    # full connected layers
    for i in range(len(self.hidden_dims), 0, -1):
      if self.use_dropout:
        affine_dx = dropout_backward(affine_dx, dropout_caches[i])

      if not self.use_batchnorm:
        affine_dx, affine_dw, affine_db = affine_relu_backward(affine_dx, affine_relu_caches[i])
      else:
        affine_dx, affine_dw, affine_db, dgamma, dbeta = affine_bn_relu_backward(affine_dx, affine_bn_relu_caches[i])
        grads['beta' + str(i)] = dbeta
        grads['gamma' + str(i)] = dgamma

      keyW = 'W' + str(i)
      keyb = 'b' + str(i)
      loss += 0.5 * self.reg * (np.sum(self.params[keyW] * self.params[keyW]))
      grads[keyW] = affine_dw + self.reg * self.params[keyW]

      grads[keyb] = affine_db

    # conv layers
    conv_dx=affine_dx
    for i in range(len(self.num_filters), 0, -1):
      dpool_out=conv_dx
      conv_dx=max_pool_backward_fast(dpool_out, pool_caches[str(i)])

      for j in range(self.As[i-1],0,-1):
        ss=str(i) + "," +str(j)
        keyW = 'W' + ss
        keyb = 'b' + ss
        if not self.use_batchnorm:
          drelu_out=conv_dx
          relu_cache=relu_caches[ss]
          conv_cache=conv_caches[ss]
          dconv_out=relu_backward(drelu_out, relu_cache)
          conv_dx, conv_dw, conv_db=conv_backward_fast(dconv_out, conv_cache)

          loss += 0.5 * self.reg * (np.sum(self.params[keyW] * self.params[keyW]))
          grads[keyW] = conv_dw + self.reg * self.params[keyW]
          grads[keyb] = conv_db

        else:
          key_gamma = 'gamma' + ss
          key_beta = 'beta' + ss

          drelu_out = conv_dx
          relu_cache = relu_caches[ss]
          conv_cache = conv_caches[ss]
          bn_cache=bn_caches[ss]

          dbn_out = relu_backward(drelu_out, relu_cache)
          dconv_out, dgamma, dbeta=spatial_batchnorm_backward(dbn_out, bn_cache)
          grads[key_beta] = dbeta
          grads[key_gamma] = dgamma

          conv_dx, conv_dw, conv_db = conv_backward_fast(dconv_out, conv_cache)

          loss += 0.5 * self.reg * (np.sum(self.params[keyW] * self.params[keyW]))
          grads[keyW] = conv_dw + self.reg * self.params[keyW]
          grads[keyb] = conv_db

    ############################################################################
    #                             END OF YOUR CODE                             #
    ############################################################################

    return loss, grads

2. 使用VGG完成作业

我没有使用太深的VGG，因为是在笔记本上跑，参数也没有仔细调过，跑了一下可以得到85%以上的准确率，有兴趣的读者可以自己调调网络层数和超参数，应该是有可能得到90%以上准确率的

model = VGGlikeConvNet(input_dim=(3, 32, 32), num_filters=[64, 64, 128, 256], filter_size=3,
                       hidden_dims=[64, 64], num_classes=10, weight_scale=1e-2, reg=1e-3, As=[2,2,3,3],
                       dropout=0.2,
                       dtype=np.float32)

solver=Solver(model, data,
       num_epochs=10, batch_size=50,
       update_rule='adam',
       lr_decay=0.95,
       optim_config={'learning_rate': 5e-4},
       verbose=True, print_every=20) 

solver.train()

下面是结果：

(Iteration 9741 / 9800) loss: 0.733453
(Iteration 9761 / 9800) loss: 0.645659
(Iteration 9781 / 9800) loss: 0.564387
(Epoch 10 / 10) train acc: 0.927000; val_acc: 0.854000

本篇文章就到这里，在下一篇文章中，我将使用caffe在imagnet上训练AlexNet以及使用训练好的模型进行分类，敬请关注。

你可能感兴趣的:(李理：三层卷积网络和vgg的实现)

智慧水厂怎么建？物联网数据采集+SCADA升级，水务工业智能转型
在智慧工业与“双碳”目标的双重驱动下，智慧水厂已成为水务行业数字化转型的必选项。通过物联网（IoT）技术实现水厂数据采集的实时化、自动化，不仅能提升供水效率与水质安全，还能降低能耗与运维成本。一、智慧水厂的核心痛点：数据孤岛与效率瓶颈传统水厂依赖人工巡检和分散式监控系统，普遍存在以下问题：1.数据滞后：人工抄表与离线分析导致决策延迟；2.设备盲区：水泵、阀门等关键设备状态无法实时感知；3.能耗浪费
冷库耗电高的原因，冷链运营者的降本增效的方法
一、冷库耗电“黑洞”：运营成本居高不下的根源冷库作为冷链物流的核心基础设施，其能耗成本常年占据商超、食品厂等企业运营支出的20%-40%。传统冷库的能耗痛点集中体现在三大场景：无效化霜耗电：定时化霜模式导致“无霜化霜”或“霜厚化霜”，单库年耗电量增加超25%，压缩机空转损耗额外攀升12%；温度波动损耗：温差波动超±5℃加速食材变质，生鲜损耗率高达15%-20%；管理粗放低效：人工巡检滞后、设备故障
领导送我一盒茶叶，我该怎么回礼？聪明的人这样做职牌屋
近日，有人后台问小编：自己刚刚入职，找领导签字，结果领导随口一问自己喝不喝茶叶，没经过大脑就说喝。领导就送了一盒茶叶给他，现在他很困惑，要不要送回一点什么给领导。希望职牌屋（zhipw2020）小编提供自己的参考意见建议。其实职场上，和领导、同事、客户简单的礼尚往来是很正常的。一来可以通过送简单的礼品，增进了解，比如你了解到领导喜欢研究茶叶，你就可以和领导谈谈茶的历史之类的（不要说这很势力，你们追
2018-03-05 殷丹
今天的坏事是：求婚姻真的是好难；最近碰到一个讲话很虚的男生，每天心情很忐忑，导致工作也出现动荡不稳定；四个力量对治一、思维笔的空性第一步，就想一想笔的道理。这一定是我过去邪淫堕胎，不孝父母的罪业犯的太多；借人钱不还，还恶意删掉别人的qq,电话，给别人不安全感；过去邪淫堕胎，不孝父母的罪业犯的太多三、合理承诺1此生不再邪淫堕胎2再也不会借人钱一年不还；3不会恶意删掉别人的微信等联系信息四、正面对治1
【有所思】凡天下事，三规定天下金钟山人
2022年6月30日周四曲靖晴终于下定决心学习书法了，这是认真的，交了费，拜了师，摆好桌，选好贴，准备至少半年的纸和笔，做足功夫。刘老师帮我分析，确定从魏碑练习开始，要求放空忘记过去，照着写，放空自己，不发挥不走样。老师还告诉我“凡天下事，三规定天下”，我也觉得持有道理。何为三规，曰规律，曰规则，曰规划。试分析如下：一、找规律世间万事万物大到宇宙运行的规律，中到人性的规律，小到孩子不同心理发展阶段
【操作系统-Day 7】程序的“分身”：一文彻底搞懂什么是进程 (Process)？吴师兄大模型操作系统操作系统计算机组成原理进程（Process）python 深度学习大模型人工智能
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
遗憾 DrJoseph
“两个人散了，是因为一个以为不会走，一个人以为会挽留。”这是最近最常看到的一句话，两个以为，却让一段感情走向分叉路口，所以才会有这么一句话，“希望所有的爱情，都没有金口难开。”很喜欢杰伦的一首歌，“就是开不了口让她知道，我一定会呵护着你也逗你笑，你对我有多重要，我后悔没让你知道，安静地听你撒娇，看你睡着一直到老。”很多时候我们都不善表达感情，有些人觉得做比说重要，把爱都付诸行动；而有的人不善甜言蜜
关于彩礼的一些观念咏不依
今天在网上看到一篇关于彩礼的讨论，这是我看到的少数不会一边倒的讨论，下面的评论五花八门，有我能接受的，有不易接受的，也有不接受的，每个人的想法观点不同，不能多做评论。具体内容是这样的，男方把给女方的彩礼15万，都存到了自己的卡里，在没有征求女方意见的情况下。就事来说，男方的行为是不对的，因为没有和女方商量就自己做了决定，两人毕竟是要一起生活的。若在一个大环境下，男方的卡很多时候由女方保管，女方用起
8.15日精进呵呵_206a
今天给路虎换气门室盖垫因为去年拆过知道怎么拆的所以这次拆很快就拆下来了有些东西只有自己动手了才能记得住
网上最火的配音台词可爱，网上最火的配音台词超燃配音就业圈
一、网上最火的配音台词可爱，网上最火的配音台词超燃在网络上，有很多可爱和燃点的配音台词广受欢迎。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。这些配音台词常常以幽默、俏皮的方式表达出人们的情感和观点，引起了广大网友的共鸣。这些台
《洞见》读后感杨慧裕
《洞见》把认知升级的过程总结为“认知闭环”：选择学习认知——践行验证认知——调整迭代认知：第一步，选择已被验证的认知，学习之。这就是一个学习知识的过程，关键要分清的是，哪些是值得学习的认知。将这个点应用在习惯养成上面，在养成习惯之前，一定要选择适合自己的方法，不要盲目跟风，就像别人四点起床阅读，呢没分清自己的学习体制，就跟风四点起来阅读，最后早起毁一天，书也没读好，人还迷迷糊糊一天什么也做不好。第
从 Spring Boot 2.x 到 Spring Boot 3.x：全面对比与快速上手指南超级小忍 SpringBoot spring boot 后端 java
一、前言SpringBoot自诞生以来，凭借其“约定优于配置”的理念、开箱即用的设计和强大的生态支持，迅速成为Java开发领域的主流框架。随着Java语言的持续演进和开发者需求的提升，SpringBoot也在不断升级。SpringBoot3.x是一次重大版本升级，不仅带来了对现代Java特性的全面支持，还对底层架构、依赖管理和性能进行了深度优化。本文将从以下几个方面，详细对比SpringBoot2
Java 中的函数式编程详解超级小忍 Java java python 开发语言
前言Java语言自从2014年发布的Java8版本引入了函数式编程（FunctionalProgramming）特性以来，其编程范式发生了深远的变革。函数式编程不仅带来了更简洁、更富有表达力的代码风格，也使得Java更加适合处理并发、流式数据处理等现代编程场景。本文将详细介绍Java中的函数式编程特性，包括Lambda表达式、函数式接口、方法引用、StreamAPI等核心概念，并通过示例展示其在实
Java 中 Consumer 与 Provider 的用法详解
前言在Java编程中，Consumer和Provider是两个非常重要的函数式接口，它们在函数式编程和依赖注入等场景中被广泛使用。本文将详细讲解这两个接口的定义、使用场景以及实际示例，帮助你更好地理解和应用它们。一、Consumer接口1.1Consumer接口的定义Consumer是Java8引入的一个函数式接口，位于java.util.function包中。它表示一个接受单个输入参数并且无返回
放下执念，过轻松自如的人生甘宁
图片来源网络马尔克斯在《百年孤独》中写到:“我们趋行在人生这个亘古的旅途，在坎坷中奔跑，在挫折里涅槃，忧愁缠满全身，痛苦飘洒一地。我们累，却无从止歇；我们苦，却无法回避。”是啊！人生实苦，唯有自渡。生活在茫茫尘世中，有时，我们感到有一种无形的力量折磨着我们，仿佛千斤重担压身，甚至有点喘不过气来，好像身上背了无数个无法扔掉的包袱。细想一下，是谁让我们如此煎熬呢？答案是:我们自己的心。要想过得轻松自如
Spring AI + MCP Client 配置与使用详解超级小忍 SpringAI spring 人工智能 java
前言随着大模型技术的快速发展，ModelCoordinationProtocol(MCP)逐渐成为连接本地系统和远程AI服务的重要桥梁。SpringAI是Spring官方推出的AI开发框架，支持多种语言模型接口，而MCPClient则是其集成远程推理能力的核心组件之一。本文将详细介绍如何在SpringBoot项目中配置和使用SpringAI的MCPClient，包括环境准备、依赖引入、配置方式、代
WEB：DOM （一）基础概念 —— 节点与选择重生之我是Java开发战士 WEB 前端
文章目录一、DOM核心概念解析1.1什么是DOM？1.2DOM与HTML的关系二、DOM节点（Node）详解2.1节点类型2.2节点的基本属性2.3元素节点特有的属性和方法三、DOM选择与访问3.1传统选择方法3.1.1getElementById()3.1.2getElementsByTagName()3.1.3getElementsByClassName()3.2现代选择方法（CSS选择器）3
WEB：DOM （二）核心操作 —— 内容
文章目录一、innerHTML二、innerText与textContent2.1innerText2.2textContent2.3对比与选择三、表单元素的值操作获取和修改元素的内容是DOM操作中最常见的需求，JavaScript提供了多种方式来操作元素的内容。一、innerHTMLinnerHTML属性用于获取或设置元素的HTML内容，设置时会解析HTML标签。原始内容constcontent
2020-11-17 b047aeaebb7d
60年代有吃的就能娶老婆，70年代有肉吃就能娶老婆，80年代有自行车就能娶老婆，90年代有冰箱彩电才能娶老婆，2000年有房就能娶老婆，2010年有房有车就能娶老婆。2020年有啥才能娶老婆呢？社会在进步，男人要努力，娶老婆的成本在上升。这是社会进步的福利，还是男人的压力呢
《反脆弱》三金的成长笔记
《反脆弱》由壹心理编著，其中收录了周梵、李雪、小楼老师、曾奇峰等各位老师的佳作，从多个心理学角度讲解分析了生活的各种问题，真的是传道授业解惑也。其中感触颇深的几点分享给大家：第一，稀缺心态，因为穷所以稀缺心态，因为稀缺心态更穷，这是蛋跟鸡的循环问题。稀缺心态的人目光短浅透支未来带宽不足（不识人），解决方案是节约带宽，不透支，多做重要而不紧急的事；第二，人生最怕的不是失败，而是连失败的勇气都没有，“
Java高并发编程核心：并发集合与原子类详解 msbQQ java 开发语言后端并发编程
在当今高并发、高吞吐的分布式系统中，Java并发编程已成为开发者必备的核心能力。当线程如潮水般涌来，如何确保数据安全？如何避免死锁陷阱？如何实现无阻塞的高效运算？答案就隐藏在并发集合与原子类这两大基石之中。1.并发集合：线程安全的容器1.1ConcurrentHashMap我在最开始学习这个容器的时候当时会记住它的特点是：线程安全，允许多个线程进行读和写。null值和键：ConcurrentHas
真的是内心深处的愿望没被满足么？艾米丽a
昨晚做了一个很长的梦。梦里有纠结，有哭泣，有挣扎，有寻找，有争吵，也有哭闹，也有后悔不已。非常的真实，让我整个人沉迷其中，不愿醒来。都说日有所思，夜有所梦。真的非常有道理！我梦里发生的事――离开公职，重新开始。已经被我埋在心底好久了。本以为过去了，不会再想起，没想到过了这么久，它竟在梦中出现。现在的我有一份堪称铁饭碗的工作。它的好处在乎稳定，提供了基本的生存保障。做些这份工作，铁定不会饿死。不足之
EXPLAIN 解码：MySQL 索引优化的黄金决策术渡难繁辰数据库 mysql sql mysql 数据库 sql
引言在MySQL数据库中，索引是优化查询性能的核心工具。但盲目添加索引会导致写性能下降和存储浪费，而缺少关键索引又会引发全表扫描的灾难。如何科学决策？答案在于深入分析查询执行计划——EXPLAIN。本文将聚焦如何通过EXPLAIN诊断查询瓶颈，精准制定索引策略。一、EXPLAIN的核心字段解读EXPLAIN输出结果中的关键字段揭示了查询的执行逻辑，以下为需重点关注的列：1.type列：查询访问数据
SQL Server和PostgreSQL填充因子 meslog 技术分享 postgresql oracle 数据库
理解SQLServer和PostgreSQL中的填充因子在调优数据库性能时，一些小设置往往能带来显著的差异。填充因子就是其中一个经常讨论的设置。SQLServer和PostgreSQL都支持这一概念，但它们的处理方式有所不同。如果你在管理这两种系统中的数据库，了解填充因子的工作原理可以帮助你避免因索引页拆分、索引碎片以及不必要的磁盘I/O带来的头疼问题。填充因子的概念让我们先从一个比喻开始。假设你
网络安全三剑客：入侵检测、威胁情报和深度检测，到底有啥区别？漠月瑾网络安全学习点滴入侵检测威胁情报深度检测网络安全
网络安全三剑客：入侵检测、威胁情报和深度检测，到底有啥区别？在网络安全领域，我们经常听到入侵检测（IDS）、威胁情报、深度检测这些术语，它们听起来很相似，但实际工作方式却大不相同。它们都是用来发现和阻止网络攻击的，但各自有不同的“特长”。今天，我们就用最通俗的语言，聊聊这三者的区别，以及它们是如何协同工作的。1.入侵检测（IDS）——按“规则”抓坏人**入侵检测系统（IDS）**就像是一个“规则警
csc（x）积分推导 weixin_43420126 数学基础知识数据挖掘人工智能
在MATLAB中同时绘制sin⁡(x),csc(x)和ln⁡∣tan⁡(x/2)∣的函数图像，需要处理函数的奇点（如csc⁡(x)在sin⁡(x)=0时无定义，ln⁡∣tan⁡(x/2)∣在x=kπ时无定义）（deepseek生成matlab代码）%定义x范围（-2π到2π），高密度采样x=linspace(-2*pi,2*pi,10000);%精确识别csc(x)的奇点（sin(x)=0的点）c
2023年手机赚钱真实有效的，盘点几个正规靠谱的赚钱软件高省张导师
手机做任务软件还是很多的，据我了解这种类型的软件至少都有好几十款，对于某些做单赚钱的人来说，肯定都想找个好一点的手机做任务赚钱软件，这样收入什么的才有保障。小编有多年做任务赚钱的经验，下面就给大家推荐五个还不错的做任务赚钱正规平台，大家可以试一试哦！大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇
张小娴的爱情语录有点感伤悠悠泡泡
孤单不是与生俱来,而是由你爱上一个人的有些人注定是等待别人的,有些人是注定被人等的。图片发自App爱上一个人的时候,总会有点害怕,怕得到他;怕失掉他。如果没法忘记他,就不要忘记好了,真正的忘记,是不需要努力的。我们放下尊严,放下个性,放下固执,都只是因为放不下一个人。你曾经不被人所爱,你才会珍惜将来那个爱你的人。图片发自App开始的时侯,我们就知道,总会有终结。这一生,总有一个人,老是跟你过不去,
我在人间流浪的日子《读书践行篇》兵部尚输
要说读书，其实谁还没读过几本书呢？言情小说，玄幻修仙，武侠豪情，科幻未来……书的种类有很多种，总有几种是适合你的而刚好你也喜欢。如果你去过图书馆，能读到我这篇文章的人，我相信你肯定去过图书馆，那么多的书摆在你面前，无数的知识像潮水一般向你涌来，你是兴奋，会无助还是很平静呢？读书这件事，对于已经养成了习惯的人来说不用过多的解释，书像吃饭喝水的生活必需品，不可一日不读。而对于那些“不喜欢读书”的人来说
昆山砍人的几个疑问鄙人姓贺
1.五进宫的人，肯定不是一个正经生活的人，也不会是一个勤劳致富的人，为何能足够富裕到开宝马？五进宫，36岁，18岁成年以后，累计刑期10年5个月，如何在短时间内挣到开宝马的钱？开宝马的人绝对是少数的，拥有财富应该进入了总入口中少数的10%。2.五进宫的人，为何还能时时携带管制刀具，并随时想砍人都可以砍人？3.被人追砍以后，刀易手，反砍人为什么会引起如此大的社会争议？你来我往不是再自然不过的事情吗？
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出