神仙盼盼

基于CNN的手写数字识别

文章目录

基于CNN的手写数字识别
- 零、写在之前
- 壹、聊聊CNN
- - 01. 什么是CNN
  - 02. 为什么要有CNN
  - 03. CNN模型
  - - 3.1 卷积层
    - 3.2 池化层
    - 3.3 全连接层
    - 3.4 relu层
    - 3.5 softmax层
- 贰、python的实践
- - 01. 代码框架的构建
  - 02. 准备工作
  - 03. 数据处理
  - 04. 卷积层正向传播
  - 05. 池化层正向传播
  - 06. softmax层正向传播
  - 07. CNN模型
  - 08. softmax层反馈
  - 09. 池化层反馈
  - 10.卷积层反馈
  - 11. 动态绘图
  - 12. 全部代码
- 叁、跑一跑模型
- 肆、调参以及思考
- - 关于池化
  - 关于卷积核大小
  - 关于学习率
  - 关于卷积核的个数
  - 迭代次数
- 总结

咳咳，首先还是在之前简单的聊一下。在之前完成全连接神经网络之后竟然非常受欢迎，这是让我没有想到的。于是在我大喜的日子【生日】的时候，我决定把 CNN给徒手扒一扒。

这里说一下，本片博客参考了非常多的其他博客和非常少的论文，但因为我没有保存的习惯，所以看完就忘记人家放哪了…有点尴尬哈，所以这里集体感谢一下！

那废话不多说了，我们的卷积神经网络【CNN】即将启航！

零、写在之前

按照惯例，我们依旧有关于阅读本篇博客的一些建议：

本篇博客有完整的代码复现，所以希望大家掌握好python的编程基础。【实话实说，很想拿C，但是望而却步】
本篇博客没有任何的框架，所用到的都属于python数据科学处理的基础知识，如有特殊函数会做出申明，所以不用担心。
还有就是你需要清楚什么是全连接神经网络，我们在这里是从全连接神经网络的区别出发的。
本篇博客会存在大量的实验，是基于神经网络完全建立完成之后的一些我好奇的地方的验证。
本篇博客很多观点仅代表我个人观点，管杀不管埋【我只是一个信息DOG，不是AI科班的】所以有错欢迎大家指正。

再有就是环境介绍了：

语言：python3.8.5

环境：jupyter

库文件：numpy | matplotlib

壹、聊聊CNN

那么在最开始的地方我们先聊一聊关于CNN的一切吧。

01. 什么是CNN

卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。对卷积神经网络的研究始于二十世纪80至90年代，时间延迟网络和LeNet-5是最早出现的卷积神经网络。 ——by《百度百科》

而如果要说正式进入公众视野，大量应用到深度学习上，还是从二十一世纪还是的。

02. 为什么要有CNN

如果有这个疑问，那么您已经在思考了，这是一个好消息。我们之前在做全连接神经网络的时候是不是只有三层?为什么是三层?隐藏层是在做什么的?如果您不知道为什么，或者您觉得这三个问题很有意思，请驻足在这里稍作思考…如果您心中有了想法，或者说您并不觉得这是什么问题，那么请继续往下看下去吧。

以下是我个人的一些拙见：

在之前的全连接神经网络中，我们对于图片的训练是将其转换成一维的数组去做运算的，但是人在做识别图像的时候可并不是这样的，因为这样将会丢失空间分布上的信息。
之前的全连接神经网络图片用的仅是28*28的图像，而现在的图片大小动辄都是百万像素起步，大小相差万倍。所以当图片打起来了以后他的参数将会非常夸张因为是全连接。
浅层的神经网络的识别率并不是非常理想，在我们之前的神经网络中可以看到，准确率大概只有88%左右。

而卷积神经网络可以非常有效的解决这些问题！

03. CNN模型

这里我们大致介绍一下CNN的模型有哪些部件，具体的讨论与实现会在后面代码中逐一展开。这里引入百度百科的图片：

3.1 卷积层

看名字就知道卷积层就是这个卷积神经网络的核心了。实际上确实如此，卷积层的参数由一组可学习的滤波器（filter）或内核（kernels）组成，它们具有一定的视野感受能力，可以对某一局部的数据有感知。在识别的过程中，每个滤波器对输入进行卷积，计算滤波器和输入之间的点积，并产生该滤波器的二维激活图。简单来说，卷积层是用来对输入层进行卷积，提取更高层次的特征。

3.2 池化层

在卷积层中，我们把数据扩大了很多，这样对于数据的训练负担无疑是加重了。但是对于神经网络来说，数据的训练本身就是一件非常费时的事情，所以我们需要对数据量进行缩小且保留有用的信息，这就是池化的作用。

3.3 全连接层

和全连接神经网络相同，全连接层是用来将数据全部连接得到预测值。

3.4 relu层

relu层是我们神经元中的激活函数。

3.5 softmax层

softmax 的主要思想是为我们的神经网络定义一种新的输出层。也就是最终帮我们筛选出新的结果的一层。

想必大家对于以上的五个层有了大致的印象，但他们究竟是怎么样的，能有什么用呢？接下来让我们在实践的过程中在慢慢梳理。

贰、python的实践

01. 代码框架的构建

在本次最基础的框架中，我们将实现卷积层、池化层以及softmax层的构建，并完成对手写数据集的训练。

02. 准备工作

%matplotlib auto

在这次的训练过程中，我们将开启炫酷的动态损失函数图的展示，所以我们将调用Ipython的魔法，使展示的图片出现在新建窗口上。

import numpy as np
import matplotlib.pyplot as plt

03. 数据处理

咱这次的CNN识别中，我们依旧采用手写数字的数据集，训练集传送门, 测试集传送门。

那么我们现在就要对这些将数据读入了：

# 读入文件的地址，返回数据集的数据和标签
def read_data(path):
    print("数据加载ing...")
    data_file = open(path, 'r')
    data_list = data_file.readlines()
    data_file.close()
    
    # 用来存放标签和数据
    target = []
    data = []
    
    print('总计需加载数据个数:' + str(len(data_list)))
    
    # 对每行数据读入
    for j in range(len(data_list)):
        line_ = data_list[j].split(',') # csv文件每行转列表
        
        numbers = [ int(x)/255 for x in line_[1:] ] # 字符串转数字列表
        
        numbers = np.array(numbers).reshape(28, 28) # 转为np数组，并转换成28*28的形状
        
        target.append(int(line_[0]))
        data.append(numbers)
        
        if j % 4000 == 0:
            print('已加载 ' + str(j*100/len(data_list))+'%')
    
    target = np.array(target)
    data = np.array(data)
    
    print('加载完成!')
    return data, target

对于这段代码，想必大家问题应该不大。

04. 卷积层正向传播

在这里为了方便卷积层的使用，我们将专门创建一个用于卷积的类。

# 卷积层模板
class conv:
    # 生成卷积模板
    def __init__(self): 
        pass
    
    # 将原图像所感受的局部视野提取出来
    def sliding(self):
        pass
    
    # 前向传播
    def forward(self):
        pass
    
    # 反馈修改权重参数
    def feedback(self):
        pass

这就是卷积层的基本框架。

那么接下来我们来正式的聊一聊卷积：

对于这个我还是很有感觉的，毕竟作为电子信息工程的学生，信号处理类的学科是我们的主要专业方向，而第一次接触卷积的时候是在信号与系统的课程上。而卷积神经网络中的卷积在思想上和信号与系统中的卷积思想相一致。

我们来看这张图：

这张图很清楚的呈现了卷积是如何去运算的，但问题也随之而来了，我们原本一个5*5的矩阵，在卷积后却只剩下3*3了，数据量大幅缩水！所以这就是第一个问题，我们该如何保存保证图片边缘不被吞噬呢？

这个问题的解答，如果有同学学习过CV技术，或者是数字图像处理的话，那么解决方法自然就出现了，在图像处理中，我们也会有滤波器对于图像进行滤波处理，可以说和卷积神经网络的这一步简直是双胞胎兄弟，那么为了防止我们滤波一不小心把图像滤没了，我们该怎么办？方法很简单，把原图像扩大一圈即可。至于用什么补足？方法有很多，常见的有补0和将边缘复制一圈。

那么明白这些的话，图像的正向传播可以去写了。如果还不是很清楚，可以参考这位大佬的博客:CNN 入门讲解：什么是卷积（Convolution）

首先我们先把初始化conv的代码完善一下。

# 卷积层模板
class conv:
    # 生成卷积模板
    def __init__(self, measure, num): 
        """
        measure: 卷积核的尺寸
        num: 卷积核的个数
        """
        self.measure = measure
        self.num = num
        
        # 随机生成模板,num*measure*measure的卷积核
        self.filtres = np.random.randn(num, measure, measure)/(measure**2)
        
        # 为了保持卷积后的图像大小不变，需要在边缘增加一圈数据
        self.edge = measure // 2
        
    
    # 将原图像所感受的局部视野提取出来
    def sliding(self, image):
        """
        作为一个生成器器，返回图片中的某一局部视野，方便卷积
        """
        self.input = image
        h, w = image.shape
        
        # 对数据进行填充，使卷积后图形尺寸不变，填充范围为edge，如需了解更多请百度numpy.pad
        pad_image = np.pad(image, ((self.edge, self.edge), (self.edge, self.edge)), 'constant', constant_values = (0, 0))
        # 迭代生成和卷积模板相卷积的图片中的范围
        for i in range(h):
            for j in range(w):
                iter_image = pad_image[i:(i+self.measure), j:(j+self.measure)]
                
                # 返回局部视野和对应的坐标
                yield iter_image, i, j
    
    # 前向传播
    def forward(self, input_image):
        # 将输入图像保存下来，方便反馈时使用
        self.last_input = input_image
        h, w = input_image.shape
        
        # 输出的是分别被不同卷积核卷积后的特征图，所以大小为h*w*num
        output_image = np.zeros((h, w, self.num))
        
        # 卷积运算
        for iter_image, i, j in self.sliding(input_image):
            output_image[i, j] = np.sum(iter_image*self.filtres, axis=(1, 2))
        
        # 返回结果
        return output_image
    
    # 反馈修改权重参数
    def feedback(self):
        pass

至此就是卷积层的工作。

这里说一下，卷积核也可以不是一步一步走的，可以跳步，那么具体跳几步就是我们认为定义的了。

05. 池化层正向传播

在之前我们说到池化层，他的主要作用是用作减少数据量，并且保留特征信息。如何减少数据量？说白了不就是把特征图变小嘛~

所以常见的方法有两种，最大池化和平均池化，当然了，方法还有很多，例如：随机池化，中值池化，组合池化等。

那我们这里选择用的是最大池化~

具体的原理参考一下代码就可以理解啦：

# 池化层结构
class pooling:
    
    def __init__(self, poolsize):
        # 选择池化的大小
        self.size = poolsize
    
    def sliding(self, image):
        """
        需要注意的是这里输入的图像是已经经过卷积的三位数组了
        """
        self.last_input = image
        h = image.shape[0] // self.size
        w = image.shape[1] // self.size
        
        # 大致上与卷积的相似，作用是挑选出需要池化的范围
        for i in range(h):
            for j in range(w):
                iter_image = image[(i*self.size):(i*self.size+self.size), (j*self.size):(j*self.size+self.size)]
                yield iter_image, i, j
	
    def forward(self, input_image):
        # 输出的大小长宽就是原图像/池化大小
        output_image = np.zeros((input_image.shape[0] // self.size, input_image.shape[1] // self.size, input_image.shape[2]))
        # 对多层特征图循环
        for iter_image, i, j in self.sliding(input_image):
            # 在每层特征图的范围中选出最大元素
            output_image[i, j] = np.amax(iter_image, axis=(0, 1))
        
        return output_image
    
    def feedback(self):
		pass

06. softmax层正向传播

为了完成我们的 CNN，我们需要进行具体的预测。通过 softmax 来实现，将一组数字转换为一组概率，总和为 1。在手写数字识别中，我们需要输出的可能值分别有0到9 是个数字，所以我们的输出节点共有10个，分别代表各自的概率。

在这里我们用交叉熵来计算概率之间的距离【信息论的知识，实话实说，在学习的过程中真感觉电子信息学人工智能好对口啊】：
$\sum _{x}p(x) \ln (q(x))$
其中 $p (x)$ 为正式的概率， $q (x)$ 为预测概率。又因为真实概率的结果固定为1或者0，所以其最终的值为 $ln(p_c)$ ，换句话说就是 $e^{p(c)}$ ，即正确分类的预测概率。由代码体现如下

class softmax:
    def __init__(self, input_size, outnodes):
        # 权重文件，该层的输入节点全连接输出节点
        self.weights = np.random.randn(input_size, outnodes) / input_size
        # 输出节点偏置
        self.output = np.zeros(outnodes)
        
    def forward(self, input_image):
        self.last_input_shape = input_image.shape
        input_image = input_image.flatten() # 将数据转化成一维
        self.last_input = input_image       # 将该层节点记录下来，用作反馈
        length, nodes = self.weights.shape
        
        # 最后的概率， totals是尺寸为outnodes的一维数组
        totals = np.dot(input_image, self.weights) + self.output
        self.last_totals = totals
        
        # 结论
        out = np.exp(totals)       
        # 将归一化后的结果返回
        return out / np.sum(out, axis=0)
    
    def feedback(self):
        pass

有需要关注softmax具体推导等的同学可以关注这篇博客一文详解Softmax函数 - 知乎 (zhihu.com)

至此，我们的前向传播函数正式ending!

07. CNN模型

接下来，我们需要把整个CNN模型给搭建出来了，在这个模型中，我们需要有训练用的方法，也需要有预测的方法。在之前全连接的神经网络中，我们知道，训练的函数是在测试的函数后加入了反馈的过程，于是我们便得到了他：

class CNN:
    def __init__(self, convsize, poolsize, image_size, channel, classis):
        """
        convsize : 卷积核视野的大小
        poolsize : 池化范围大小
        imagesize: 图片的尺寸
        channel  : 卷积核的层数
        classis  : 分类数
        """
        # 定义一个卷积层
        self.conv3 = conv(convsize, channel)
        # 定义一个池化层
        self.pool2 = pooling(poolsize)
        # 定义一个softmax层
        self.softmax_ = softmax((image_size[0]//poolsize)*(image_size[1]//poolsize)*channel, classis)
        
    # 训练过程
    def train(self, images, target, wheel, learn_rate):
   		"""
   		images    : 训练用的图片组
   		target    : 训练用的答案
   		wheel     : 训练的轮数
   		learn_rate: 学习率
   		"""
        # 记录损失的函数
        loss = []
        for i in range(wheel):
            item_loss = 0 # 每轮损失函数计算
            for image in range(len(images)):
                # 数据的正向传播
                out = self.conv3.forward(images[image])
                out = self.pool2.forward(out)
                out = self.softmax_.forward(out)
                
                # 损失值计算
                item_loss += -np.log(out[target[image]])
                
                # 反馈数据
                # 仅关注正确标签，初始反馈的函数为 (-1/正确答案对应的概率)
                gradient = np.zeros(10)
                gradient[target[image]] = -1 / out[target[image]]               
                
                gradient = self.softmax_.feedback(gradient, learn_rate)
                gradient = self.pool2.feedback(gradient)
                gradient = self.conv3.feedback(gradient, learn_rate)
            loss.append(item_loss / len(wheel))
        return loss
                    
    # 测试函数
    def test(self, image):
        # 测试函数仅包含正向传播
        out = self.conv3.forward(image)
        out = self.pool2.forward(out)
        out = self.softmax_.forward(out)
        
        return out, np.argmax(out)

接下来就是构建我们的反馈函数了。

08. softmax层反馈

我们现在可以知道softmax层是用来输出结果的一层，而现在我们需要从这里将数据反馈回去。从CNN的框架中，我们可以看到，我们的反馈是一层一层逐步回退的，现在我们开始具体实现吧~

class softmax:
    def __init__(self, input_size, outnodes):
        # 权重文件，该层的输入节点全连接输出节点
        self.weights = np.random.randn(input_size, outnodes) / input_size
        # 输出节点偏置
        self.output = np.zeros(outnodes)
        
    def forward(self, input_image):
        self.last_input_shape = input_image.shape
        input_image = input_image.flatten() # 将数据转化成一维
        self.last_input = input_image       # 将该层节点记录下来，用作反馈
        length, nodes = self.weights.shape
        
        # 最后的概率， totals是尺寸为outnodes的一维数组
        totals = np.dot(input_image, self.weights) + self.output
        self.last_totals = totals
        
        # 结论
        out = np.exp(totals)       
        # 将归一化后的结果返回
        return out / np.sum(out, axis=0)
    
    def feedback(self, gradients, learn_rate):
        """
        gradients : 反馈回来的梯度组，目前仅是正确答案所对应的下标有正确值
        learn_rate: 学习率
        """
        # 找到正确答案所对应的那个gradient
        for i, gradient in enumerate(gradients):
            if gradient == 0:
                continue
            
            # 得到一群1和一个正确答案所对应的非1值
            exps = np.exp(self.last_totals)
            s = np.sum(exps)
            
            # 反馈的数值,具体公式见注1
            out_back = -exps[i] * exps / (s ** 2)
            out_back[i] = exps[i] * (s - exps[i]) / (s ** 2)
            
            # 将反馈数值和概率做乘积，得到结果权重1
            out_back = gradient * out_back
            
            # @ 可以理解成矩阵乘法
            # 最后的输出与结果反馈的权重做点乘，获得权重的偏置
            weight_back = self.last_input[np.newaxis].T @ out_back[np.newaxis]
            inputs_back = self.weights @ out_back

            self.weights -= learn_rate * weight_back
            self.output -= learn_rate * out_back
        
        # 将矩阵从 1d 转为 3d
        # 1352 to 13x13x8
        return inputs_back.reshape(self.last_input_shape)

注1:
$\frac{ \partial out_{a}(k)}{ \partial t}= \begin{cases} \frac{-e^{t_{c}}e^{t_{k}}}{S^{2}} if k \neq c \\\\ \frac{e^{t_{c}}(S-e^{t_{c}}}{S^{2}}ifk=c \end{cases}$

具体的公式推导这里无了，太累了。

09. 池化层反馈

池化层的反馈与其说是反馈，到不如说是走个形式，为什么这么说呢？看代码~

# 池化层结构
class pooling:
    
    def __init__(self, poolsize):
        # 选择池化的大小
        self.size = poolsize
    
    def sliding(self, image):
        """
        需要注意的是这里输入的图像是已经经过卷积的三位数组了
        """
        self.last_input = image
        h = image.shape[0] // self.size
        w = image.shape[1] // self.size
        
        # 大致上与卷积的相似，作用是挑选出需要池化的范围
        for i in range(h):
            for j in range(w):
                iter_image = image[(i*self.size):(i*self.size+self.size), (j*self.size):(j*self.size+self.size)]
                yield iter_image, i, j
	
    def forward(self, input_image):
        # 输出的大小长宽就是原图像/池化大小
        output_image = np.zeros((input_image.shape[0] // self.size, input_image.shape[1] // self.size, input_image.shape[2]))
        # 对多层特征图循环
        for iter_image, i, j in self.sliding(input_image):
            # 在每层特征图的范围中选出最大元素
            output_image[i, j] = np.amax(iter_image, axis=(0, 1))
        
        return output_image
    
    def feedback(self, backnodes):
        # 池化层输入数据，26x26x8，默认初始化为 0
        inputnodes = np.zeros(self.last_input.shape)
 
        # 每一个 iter_image 都是一个 3x3x8 的8层小矩阵
        # 修改 max 的部分，首先查找 max
        for iter_image, i, j in self.sliding(self.last_input):
            h, w, f = iter_image.shape
            # 获取 iter_image 里面最大值的索引向量，一叠的感觉
            amax = np.amax(iter_image, axis=(0, 1))
 
            # 遍历整个 iter_image，对于传递下去的像素点，修改 gradient 为 loss 对 output 的gradient
            for i2 in range(h):
                for j2 in range(w):
                    for f2 in range(f):
                        # 如果这个像素是最大值，复制梯度到它。
                        if iter_image[i2, j2, f2] == amax[f2]:
                            inputnodes[i * self.size + i2, j * self.size + j2, f2] = backnodes[i, j, f2]
 
        return inputnodes

是不是很简单，笑哭。

10.卷积层反馈

卷积层说是我们CNN的核心，但是在反馈上相对于前面来说也并不复杂，

# 卷积层模板
class conv:
    # 生成卷积模板
    def __init__(self, measure, num): 
        """
        measure: 卷积核的尺寸
        num: 卷积核的个数
        """
        self.measure = measure
        self.num = num
        
        # 随机生成模板,num*measure*measure的卷积核
        self.filtres = np.random.randn(num, measure, measure)/(measure**2)
        
        # 为了保持卷积后的图像大小不变，需要在边缘增加一圈数据
        self.edge = measure // 2
        
    
    # 将原图像所感受的局部视野提取出来
    def sliding(self, image):
        """
        作为一个生成器器，返回图片中的某一局部视野，方便卷积
        """
        self.input = image
        h, w = image.shape
        
        # 对数据进行填充，使卷积后图形尺寸不变，填充范围为edge，如需了解更多请百度numpy.pad
        pad_image = np.pad(image, ((self.edge, self.edge), (self.edge, self.edge)), 'constant', constant_values = (0, 0))
        # 迭代生成和卷积模板相卷积的图片中的范围
        for i in range(h):
            for j in range(w):
                iter_image = pad_image[i:(i+self.measure), j:(j+self.measure)]
                
                # 返回局部视野和对应的坐标
                yield iter_image, i, j
    
    # 前向传播
    def forward(self, input_image):
        # 将输入图像保存下来，方便反馈时使用
        self.last_input = input_image
        h, w = input_image.shape
        
        # 输出的是分别被不同卷积核卷积后的特征图，所以大小为h*w*num
        output_image = np.zeros((h, w, self.num))
        
        # 卷积运算
        for iter_image, i, j in self.sliding(input_image):
            output_image[i, j] = np.sum(iter_image*self.filtres, axis=(1, 2))
        
        # 返回结果
        return output_image
    
    # 反馈修改权重参数
    def feedback(self, out, learn_rate):
        # 申请一个和卷积核相仿的数组
        filters = np.zeros(self.filtres.shape)
        for iter_image, i, j in self.sliding(self.last_input):
            for f in range(self.num):
                # 将反馈回来的卷积层权重和模板走上一遭，并对模板进行修正，因为之间的的反馈数据都包含着图像感兴趣的点
                filters[f] += out[i,j,f] * iter_image
        self.filtres -= learn_rate * filters

至此，我们的目标就实现了，那么还有一些渲染的过程可以加入~

11. 动态绘图

如何使将训练时候的损失函数更好的展示出来呢？这里我想到的是用动态绘图的方式，具体代码修改CNN中的图如下如下

class CNN:
    def __init__(self, convsize, poolsize, image_size, channel, classis):
        """
        convsize : 卷积核视野的大小
        poolsize : 池化范围大小
        imagesize: 图片的尺寸
        channel  : 卷积核的层数
        classis  : 分类数
        """
        # 定义一个卷积层
        self.conv3 = conv(convsize, channel)
        # 定义一个池化层
        self.pool2 = pooling(poolsize)
        # 定义一个softmax层
        self.softmax_ = softmax((image_size[0]//poolsize)*(image_size[1]//poolsize)*channel, classis)
        
    # 训练过程
    def train(self, images, target, wheel, learn_rate):
   		"""
   		images    : 训练用的图片组
   		target    : 训练用的答案
   		wheel     : 训练的轮数
   		learn_rate: 学习率
   		"""
        # 记录损失的函数
        loss = []
        # 计次
        item = 0
        # 绘图窗口打开
        plt.ion()
        for i in range(wheel):
            item_loss = 0 # 每轮损失函数计算
            for image in range(len(images)):
                # 数据的正向传播
                out = self.conv3.forward(images[image])
                out = self.pool2.forward(out)
                out = self.softmax_.forward(out)
                
                # 损失值计算
                item_loss += -np.log(out[target[image]])
                
                # 反馈数据
                # 仅关注正确标签，初始反馈的函数为 (-1/正确答案对应的概率)
                gradient = np.zeros(10)
                gradient[target[image]] = -1 / out[target[image]]               
                
                gradient = self.softmax_.feedback(gradient, learn_rate)
                gradient = self.pool2.feedback(gradient)
                gradient = self.conv3.feedback(gradient, learn_rate)

                item += 1
                if item % 200 == 0:
                    plt.clf()                  # 清除之前画的图
                    loss.append(item_loss/200) 
                    plt.plot(loss)
                    plt.pause(0.001)
                    print("process: %.4f loss: %.7f" % (item / (wheel * len(images)), item_loss/200))
                    item_loss = 0
                    plt.ioff()
                  
        return loss
                    
    # 测试函数
    def test(self, image):
        # 测试函数仅包含正向传播
        out = self.conv3.forward(image)
        out = self.pool2.forward(out)
        out = self.softmax_.forward(out)
        
        return out, np.argmax(out)

12. 全部代码

import numpy as np
import matplotlib.pyplot as plt

# 读入文件的地址，返回数据集的数据和标签
def read_data(path):
    print("数据加载ing...")
    data_file = open(path, 'r')
    data_list = data_file.readlines()
    data_file.close()
    
    # 用来存放标签和数据
    target = []
    data = []
    
    print('总计需加载数据个数:' + str(len(data_list)))
    
    # 对每行数据读入
    for j in range(len(data_list)):
        line_ = data_list[j].split(',') # csv文件每行转列表
        
        numbers = [ int(x)/255 for x in line_[1:] ] # 字符串转数字列表
        
        numbers = np.array(numbers).reshape(28, 28) # 转为np数组，并转换成28*28的形状
        
        target.append(int(line_[0]))
        data.append(numbers)
        
        if j % 4000 == 0:
            print('已加载 ' + str(j*100/len(data_list))+'%')
    
    target = np.array(target)
    data = np.array(data)
    
    print('加载完成!')
    return data, target

# 卷积层模板
class conv:
    # 生成卷积模板
    def __init__(self, measure, num): 
        """
        measure: 卷积核的尺寸
        num: 卷积核的个数
        """
        self.measure = measure
        self.num = num
        
        # 随机生成模板,num*measure*measure的卷积核
        self.filtres = np.random.randn(num, measure, measure)/(measure**2)
        
        # 为了保持卷积后的图像大小不变，需要在边缘增加一圈数据
        self.edge = measure // 2
        
    
    # 将原图像所感受的局部视野提取出来
    def sliding(self, image):
        """
        作为一个生成器器，返回图片中的某一局部视野，方便卷积
        """
        self.input = image
        h, w = image.shape
        
        # 对数据进行填充，使卷积后图形尺寸不变，填充范围为edge，如需了解更多请百度numpy.pad
        pad_image = np.pad(image, ((self.edge, self.edge), (self.edge, self.edge)), 'constant', constant_values = (0, 0))
        # 迭代生成和卷积模板相卷积的图片中的范围
        for i in range(h):
            for j in range(w):
                iter_image = pad_image[i:(i+self.measure), j:(j+self.measure)]
                
                # 返回局部视野和对应的坐标
                yield iter_image, i, j
    
    # 前向传播
    def forward(self, input_image):
        # 将输入图像保存下来，方便反馈时使用
        self.last_input = input_image
        h, w = input_image.shape
        
        # 输出的是分别被不同卷积核卷积后的特征图，所以大小为h*w*num
        output_image = np.zeros((h, w, self.num))
        
        # 卷积运算
        for iter_image, i, j in self.sliding(input_image):
            output_image[i, j] = np.sum(iter_image*self.filtres, axis=(1, 2))
        
        # 返回结果
        return output_image
    
    # 反馈修改权重参数
    def feedback(self, out, learn_rate):
        # 申请一个和卷积核相仿的数组
        filters = np.zeros(self.filtres.shape)
        for iter_image, i, j in self.sliding(self.last_input):
            for f in range(self.num):
                # 将反馈回来的卷积层权重和模板走上一遭，并对模板进行修正，因为之间的的反馈数据都包含着图像感兴趣的点
                filters[f] += out[i,j,f] * iter_image
        self.filtres -= learn_rate * filters
      
# 池化层结构
class pooling:
    
    def __init__(self, poolsize):
        # 选择池化的大小
        self.size = poolsize
    
    def sliding(self, image):
        """
        需要注意的是这里输入的图像是已经经过卷积的三位数组了
        """
        self.last_input = image
        h = image.shape[0] // self.size
        w = image.shape[1] // self.size
        
        # 大致上与卷积的相似，作用是挑选出需要池化的范围
        for i in range(h):
            for j in range(w):
                iter_image = image[(i*self.size):(i*self.size+self.size), (j*self.size):(j*self.size+self.size)]
                yield iter_image, i, j

    def forward(self, input_image):
        # 输出的大小长宽就是原图像/池化大小
        output_image = np.zeros((input_image.shape[0] // self.size, input_image.shape[1] // self.size, input_image.shape[2]))
        # 对多层特征图循环
        for iter_image, i, j in self.sliding(input_image):
            # 在每层特征图的范围中选出最大元素
            output_image[i, j] = np.amax(iter_image, axis=(0, 1))
        
        return output_image
    
    def feedback(self, backnodes):
        # 池化层输入数据，26x26x8，默认初始化为 0
        inputnodes = np.zeros(self.last_input.shape)
 
        # 每一个 iter_image 都是一个 3x3x8 的8层小矩阵
        # 修改 max 的部分，首先查找 max
        for iter_image, i, j in self.sliding(self.last_input):
            h, w, f = iter_image.shape
            # 获取 iter_image 里面最大值的索引向量，一叠的感觉
            amax = np.amax(iter_image, axis=(0, 1))
 
            # 遍历整个 iter_image，对于传递下去的像素点，修改 gradient 为 loss 对 output 的gradient
            for i2 in range(h):
                for j2 in range(w):
                    for f2 in range(f):
                        # 如果这个像素是最大值，复制梯度到它。
                        if iter_image[i2, j2, f2] == amax[f2]:
                            inputnodes[i * self.size + i2, j * self.size + j2, f2] = backnodes[i, j, f2]
 
        return inputnodes

class softmax:
    def __init__(self, input_size, outnodes):
        # 权重文件，该层的输入节点全连接输出节点
        self.weights = np.random.randn(input_size, outnodes) / input_size
        # 输出节点偏置
        self.output = np.zeros(outnodes)
        
    def forward(self, input_image):
        self.last_input_shape = input_image.shape
        input_image = input_image.flatten() # 将数据转化成一维
        self.last_input = input_image       # 将该层节点记录下来，用作反馈
        length, nodes = self.weights.shape
        
        # 最后的概率， totals是尺寸为outnodes的一维数组
        totals = np.dot(input_image, self.weights) + self.output
        self.last_totals = totals
        
        # 结论
        out = np.exp(totals)       
        # 将归一化后的结果返回
        return out / np.sum(out, axis=0)
    
    def feedback(self, gradients, learn_rate):
        """
        gradients : 反馈回来的梯度组，目前仅是正确答案所对应的下标有正确值
        learn_rate: 学习率
        """
        # 找到正确答案所对应的那个gradient
        for i, gradient in enumerate(gradients):
            if gradient == 0:
                continue
            
            # 得到一群1和一个正确答案所对应的非1值
            exps = np.exp(self.last_totals)
            s = np.sum(exps)
            
            # 反馈的数值,具体公式见注1
            out_back = -exps[i] * exps / (s ** 2)
            out_back[i] = exps[i] * (s - exps[i]) / (s ** 2)
            
            # 将反馈数值和概率做乘积，得到结果权重1
            out_back = gradient * out_back
            
            # @ 可以理解成矩阵乘法
            # 最后的输出与结果反馈的权重做点乘，获得权重的偏置
            weight_back = self.last_input[np.newaxis].T @ out_back[np.newaxis]
            inputs_back = self.weights @ out_back

            self.weights -= learn_rate * weight_back
            self.output -= learn_rate * out_back
        
        # 将矩阵从 1d 转为 3d
        # 1352 to 13x13x8
        return inputs_back.reshape(self.last_input_shape)

    
class CNN:
    def __init__(self, convsize, poolsize, image_size, channel, classis):
        """
        convsize : 卷积核视野的大小
        poolsize : 池化范围大小
        imagesize: 图片的尺寸
        channel  : 卷积核的层数
        classis  : 分类数
        """
        # 定义一个卷积层
        self.conv3 = conv(convsize, channel)
        # 定义一个池化层
        self.pool2 = pooling(poolsize)
        # 定义一个softmax层
        self.softmax_ = softmax((image_size[0]//poolsize)*(image_size[1]//poolsize)*channel, classis)
        
    # 训练过程
    def train(self, images, target, wheel, learn_rate):
        """
        images    : 训练用的图片组
        target    : 训练用的答案
        wheel     : 训练的轮数
        learn_rate: 学习率
        """
        # 记录损失的函数
        loss = []
        # 计次
        item = 0
        # 绘图窗口打开
        plt.ion()
        for i in range(wheel):
            item_loss = 0 # 每轮损失函数计算
            for image in range(len(images)):
                # 数据的正向传播
                out = self.conv3.forward(images[image])
                out = self.pool2.forward(out)
                out = self.softmax_.forward(out)
                
                # 损失值计算
                item_loss += -np.log(out[target[image]])
                
                # 反馈数据
                # 仅关注正确标签，初始反馈的函数为 (-1/正确答案对应的概率)
                gradient = np.zeros(10)
                gradient[target[image]] = -1 / out[target[image]]               
                
                gradient = self.softmax_.feedback(gradient, learn_rate)
                gradient = self.pool2.feedback(gradient)
                gradient = self.conv3.feedback(gradient, learn_rate)

                item += 1
                if item % 200 == 0:
                    plt.clf()                  # 清除之前画的图
                    loss.append(item_loss/200) 
                    plt.plot(loss)
                    plt.pause(0.001)
                    print("process: %.4f loss: %.7f" % (item / (wheel * len(images)), item_loss/200))
                    item_loss = 0
                    plt.ioff()
                  
        return loss
                    
    # 测试函数
    def test(self, image):
        # 测试函数仅包含正向传播
        out = self.conv3.forward(image)
        out = self.pool2.forward(out)
        out = self.softmax_.forward(out)
        
        return out, np.argmax(out)

叁、跑一跑模型

实话实说，这么幸苦的写了一个模型不玩玩肯定是不可能的，所以让我们来运行运行玩玩~

写一下运行的脚本：

demo = CNN(3, 2, [28, 28], 3, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.001)

大致上看了一下，效果还不错，首先看一下loss图：

随后我们可以在测试集上进行测试：

data2, target2 = read_data('mnist_test.csv')
count = 0
item_loss = 0
for item in range(len(data2)):
    out, result = demo.test(data2[item])
    if result == target2[item]:
        count += 1
        
    item_loss += -np.log(out[target2[item]])
    
print("准确率为：", count/(len(data2)))
print("average_loss：", item_loss/(len(data2)))

准确率为: 0.8977
average_loss: 0.3368406190461122

在用时上不到一个小时，对比NN我们可以发现，在相近的准确率上CNN会更加快速。

但这就是极限吗？准确度就止步于此了吗？我们现在所用的CNN有很多可调参数，接下来我们来一一探寻！

肆、调参以及思考

回顾一下我们运行的脚本，我们可以看到无论是卷积核还是卷积核的个数，又或者是池化大小学习率等都是可调整的，那么接下来我们就来尝试一下吧。

关于池化

首先我们可以增加池化大小，在之前的训练中，我们池化大小是2，现在我们调整到4来看看：

demo = CNN(3, 4, [28, 28], 3, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.001)

从结果中我们可以看到，总计耗时，我们和之前对比一下发现：

池化为4的时候
准确率为: 0.8656
average_loss: 0.43426243230812334
用时27min50s

池化为2的时候
准确率为: 0.8656
average_loss: 0.43426243230812334
用时30min25s

所以我们可以得出结论1：

池化范围增大，准确率下降，用时缩短【原理还是简单的，池化范围越大，对于原图数据的感知越模糊】

关于卷积核大小

demo = CNN(7, 2, [28, 28], 3, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.001)

结果对比原数据来看。

卷积核大小为7的时候
准确率为: 0.9314
average_loss: 0.22480404055570863

从结果对比上，我们可以发现卷积核放大后，准确率有明显上升，但用是更长了.

关于学习率

demo = CNN(7, 2, [28, 28], 3, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.005)

学习率为0.005的时候
准确率为: 0.9531
average_loss: 0.15126643409196025

我们继续增大学习率

demo = CNN(7, 2, [28, 28], 3, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.01)

学习率为0.01的时候
准确率为: 0.9417
average_loss: 0.19984729973377996

对比后我们可以发现，学习率并非越高越好，学习率有一个稳定适合的值是最好的。【证明公式可以参考一下梯度下降】

关于卷积核的个数

demo = CNN(7, 2, [28, 28], 8, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 1, 0.005)

卷积核个数为8的时候
准确率为: 0.9613
average_loss: 0.12449047922167399

从这个角度来看，卷积核个数可以提高准确率，但同时也会提高时间的损耗。

迭代次数

这部分就没有图了，但我确实运行了。

demo = CNN(7, 2, [28, 28], 8, 10)
data, target = read_data('mnist_train.csv')
demo.train(data, target, 3, 0.005)

迭代三轮的时候
准确率为: 0.9694
average_loss: 0.09630516698175499

可以看到这里迭代次数对于准确率是由提高的，但随着时间的增长，效果越弱。

总结

从这次试验来看，CNN的表现效果明显强过全连接神经网络，并且最优可以达到将近97%的准确率，其中比较欠缺的是还没有加入全连接层和没有加入激活函数，但对于本次的实验来看，效果还是令人满意的。

好的，到了这里我也算是比较满意的对CNN的学习告一段落了【其实还有一些感兴趣的，不过就不在这里一一写完了，时间不允许了】。希望这篇博客可以对大家有所帮助。

你可能感兴趣的:(机器学习,深度学习,神经网络)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

基于CNN的手写数字识别

基于CNN的手写数字识别

文章目录

零、 写在之前

壹、 聊聊CNN

01. 什么是CNN

02. 为什么要有CNN

03. CNN模型

3.1 卷积层

3.2 池化层

3.3 全连接层

3.4 relu层

3.5 softmax层

贰、python的实践

01. 代码框架的构建

02. 准备工作

03. 数据处理

04. 卷积层正向传播

05. 池化层正向传播

06. softmax层正向传播

07. CNN模型

08. softmax层反馈

09. 池化层反馈

10.卷积层反馈

11. 动态绘图

12. 全部代码

叁、跑一跑模型

肆、调参以及思考

关于池化

关于卷积核大小

关于学习率

关于卷积核的个数

迭代次数

总结

你可能感兴趣的:(机器学习,深度学习,神经网络)

零、写在之前

壹、聊聊CNN