手写数字识别之数据处理-----以MNIST为例进行完整数据读取与处理

在实际项目中，我们通常需要对模型进行调优。需要自己编写适合当前任务的数据处理程序，一般涉及如下五个环节：

读入数据
划分数据集
生成批次数据
训练样本集乱序
效验数据有效性

这里使用飞桨平台进行运行，所以在数据读取与处理前，首先要加载飞桨平台和数据处理库，代码如下：

#数据处理部分之前的代码，加入部分数据处理的库
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Linear
import numpy as np
import os
import gzip
import json
import random

读入数据并划分数据集：

这里以MNIST数据集为例，其数据结构如图所示：

图：MNIST数据集的存储结构

data包含三个元素的列表：train_set、val_set、test_set.

train_set(训练集)：包含50000张手写数字图片和对应的标签，用于确定模型参数。

train_set包含两个元素的列表：train_images、train_labels.

train_imgs:[50000,784]的二维列表，包含50000张图片。每张图片用一个长度为784的向量表示，内容是28*28尺寸的像素灰度值（黑白图片）

train_labels:[50000,]的列表，表示这些图片对应的分类标签，即0·9之间的一个数字。

val_set(验证集)：包含10000张手写数字图片和对应的标签，用于调节模型超参数（如多个网络模型、正则化权重的最优选择，在多个训练模型中找最好的模型）
test_set(测试集)：包含1000张手写数字图片和对应的标签，用于估计应用效果（没有在模型中应用过的数据，更贴近模型在真实场景应用的效果）

在本地“./WORK/"目录下读取文件名为'mnist.json.gz'的MNIST数据，并拆分训练集、验证集和测试集，代码如下所示：

#声明数据集文件位置
datafile = './work/mnist.json.gz'
print('loading mnist dataset from{} ......'.format(datafile))
#加载json数据文件
data = json.load(gzip.open(datafile))
print('mnist dataset load done')
#读取到的数据区分训练集、验证集和测试集。因为mnist数据集本身就已经划分好训练集、验证集和测试集，所以这里直接进行导入
train_set,val_set,eval_set = data

#数据集相关参数，图片高度IMG_ROW,图片宽度IMG_COLS
IMG_ROWS= 28
IMG_COLS=28

#打印数据信息
imgs, labels = train_set[0], train_set[1]
print("训练数据集数量: ", len(imgs))

# 观察验证集数量
imgs, labels = val_set[0], val_set[1]
print("验证数据集数量: ", len(imgs))

# 观察测试集数量
imgs, labels = val= eval_set[0], eval_set[1]
print("测试数据集数量: ", len(imgs))

结果如下：

loading mnist dataset from ./work/mnist.json.gz ......
mnist dataset load done
训练数据集数量:  50000
验证数据集数量:  10000
测试数据集数量:  10000

训练样本乱序、生成批次数据：

训练样本乱序：先将样本数据按顺序进行编号，建立ID集合index_list.然后将index_list乱序，最后按乱序后的顺序读取数据

说明：通过大量实验发现，模型对最后出现的数据印象更加深刻。训练数据导入后，越接近模型训练结束，最后几个批次数据对模型参数的影响越大。为了避免模型记忆影响训练效果，需要进行样本乱序操作。

生成批次数据：先设置合理的batch_size,在将数据转变成符合模型输入要求的np.array格式返回。同时，在返回数据时将python生成器设置为yield模式，以减少内存占用。

在执行如上两个操作之前，需要先将数据处理代码封装成load_data函数，方便后续调用。load_data有三种模式：train、valid、eval，分别对应返回的数据是训练集、验证集和测试集。

imags,labels = train_set[0], train_set[1]
#获得数据集的长度
imgs_length = len(imgs)
print("训练数据集数量："，len(imgs))
#定义数据集的每个序号，根据序号读取数据
index_list = list(range(imgs_length))
#读入数据时用到的批次大小
BATCHSIZE=100

#随机打乱训练数据的索引号
random.shuffle(index_list)

#定义数据生成器，返回批次数据
def data_generator():

    imgs_list = []
    labels_list = []
    for i in index_list:
        # 将数据处理成希望的格式，比如类型为float32，shape为[1, 28, 28]
        img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
        label = np.reshape(labels[i], [1]).astype('float32')
        imgs_list.append(img) 
        labels_list.append(label)
        if len(imgs_list) == BATCHSIZE:
            # 获得一个batchsize的数据，并返回
            yield np.array(imgs_list), np.array(labels_list)
            # 清空数据读取列表
            imgs_list = []
            labels_list = []

    # 如果剩余数据的数目小于BATCHSIZE，
    # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
    if len(imgs_list) > 0:
        yield np.array(imgs_list), np.array(labels_list)
    return data_generator

结果是：

训练数据集数量:  50000

#声明数据读取函数，从训练集中读取数据
train_loader = data_generator
#以迭代的形式读取数据
for batch_id,data inenumerate(train_loader()):
    image_data,label_data = data
    if batch_id == 0:
        #打印数据shape和类型
       print("打印第一个batch数据的维度：")
       print("图像维度：{}，标签维度：{}".format(image_data.shape,label_data.shape))
    break

输出结果是

打印第一个batch数据的维度:
图像维度: (100, 1, 28, 28), 标签维度: (100, 1)

效验数据有效性：

在实际应用中，原始数据可能存在标注不准确、数据杂乱或格式不统一等情况。因此在完成数据处理流程后，还需要进行数据效验，一般有两种方式：

机器效验：加入一些效验和清理数据的操作
人工效验：先打印数据输出结果，观察是否是设置的格式，再从训练的结果验证数据处理和读取数据的有效性。

接下来就分别展示两种不同的效验方式：

机器效验：

如下代码所示，如果数据集中的图片数量和标签数量不等，说明数据逻辑存在问题，可使用assert语句效验图像数量和标签数据是否一致。

imgs_length = len(imgs)

assert len(imgs) == len(labels)

人工效验：

人工效验是指打印数据输出结果，观察是否是预期的格式。实现数据处理和加载函数后，我们可以调用它读取一次数据，观察数据的shape和类型是否与函数中的设置一致。

#声明数据读取函数，从训练集中读取数据
train_loader = data_generator
# 以迭代的形式读取数据
for batch_id, data in enumerate(train_loader()):
    image_data, label_data = data
    if batch_id == 0:
        # 打印数据shape和类型
        print("打印第一个batch数据的维度，以及数据的类型:")
        print("图像维度: {}, 标签维度: {}, 图像数据类型: {}, 标签数据类型: {}".format(image_data.shape, label_data.shape, type(image_data), type(label_data)))
    break

打印第一个batch数据的维度，以及数据的类型:
图像维度: (100, 1, 28, 28), 标签维度: (100, 1), 图像数据类型: , 标签数据类型:

封装数据读取与处理函数

以上，我们从读取数据，划分数据集，到打乱训练数据，构建数据读取器以及数据效验，完成了一整套一般性的数据处理流程，下面将这些步骤放在一个函数中实现，方便在神经网络训练时直接调用。

def load_data(mode='train'):
    datafile = './work/mnist.json.gz'
    print('loading mnist dataset from {} ......'.format(datafile))
    # 加载json数据文件
    data = json.load(gzip.open(datafile))
    print('mnist dataset load done')
   
    # 读取到的数据区分训练集，验证集，测试集
    train_set, val_set, eval_set = data
    if mode=='train':
        # 获得训练数据集
        imgs, labels = train_set[0], train_set[1]
    elif mode=='valid':
        # 获得验证数据集
        imgs, labels = val_set[0], val_set[1]
    elif mode=='eval':
        # 获得测试数据集
        imgs, labels = eval_set[0], eval_set[1]
    else:
        raise Exception("mode can only be one of ['train', 'valid', 'eval']")
    print("训练数据集数量: ", len(imgs))
    
    # 校验数据
    imgs_length = len(imgs)

    assert len(imgs) == len(labels), \
          "length of train_imgs({}) should be the same as train_labels({})".format(len(imgs), len(label))
    
    # 获得数据集长度
    imgs_length = len(imgs)
    
    # 定义数据集每个数据的序号，根据序号读取数据
    index_list = list(range(imgs_length))
    # 读入数据时用到的批次大小
    BATCHSIZE = 100
    
    # 定义数据生成器
    def data_generator():
        if mode == 'train':
            # 训练模式下打乱数据
            random.shuffle(index_list)
        imgs_list = []
        labels_list = []
        for i in index_list:
            # 将数据处理成希望的格式，比如类型为float32，shape为[1, 28, 28]
            img = np.reshape(imgs[i], [1, IMG_ROWS, IMG_COLS]).astype('float32')
            label = np.reshape(labels[i], [1]).astype('float32')
            imgs_list.append(img) 
            labels_list.append(label)
            if len(imgs_list) == BATCHSIZE:
                # 获得一个batchsize的数据，并返回
                yield np.array(imgs_list), np.array(labels_list)
                # 清空数据读取列表
                imgs_list = []
                labels_list = []
    
        # 如果剩余数据的数目小于BATCHSIZE，
        # 则剩余数据一起构成一个大小为len(imgs_list)的mini-batch
        if len(imgs_list) > 0:
            yield np.array(imgs_list), np.array(labels_list)
    return data_generator

下面定义一层神经网络，利用定义好的数据处理函数，完成神经网络训练。

#数据处理之后的代码，数据读取的部分调用Load_data函数
#定义网络结构
class MNIST(fluid.dypraph.Layer):
    def__init__(self,name_scope):
        super(MNIST,self).__init__(name_scope)
        self.fc = Linear(input_dim=784, output_dim=1, act=None)

    def forward(self, inputs):
        inputs = fluid.layers.reshape(inputs, (-1, 784))
        outputs = self.fc(inputs)
        return outputs
# 训练配置，并启动训练过程
with fluid.dygraph.guard():
    model = MNIST("mnist")
    model.train()
    #调用加载数据的函数
    train_loader = load_data('train')
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.001, parameter_list=model.parameters())
    EPOCH_NUM = 10
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(train_loader()):
            #准备数据，变得更加简洁
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            #前向计算的过程
            predict = model(image)
            
            #计算损失，取一个批次样本损失的平均值
            loss = fluid.layers.square_error_cost(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            #每训练了200批次的数据，打印下当前Loss的情况
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))
            
            #后向传播，更新参数的过程
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    #保存模型参数
    fluid.save_dygraph(model.state_dict(), 'mnist')

结果如下

loading mnist dataset from ./work/mnist.json.gz ......
mnist dataset load done
训练数据集数量:  50000
epoch: 0, batch: 0, loss is: [17.273615]
epoch: 0, batch: 200, loss is: [4.6803107]
epoch: 0, batch: 400, loss is: [3.7592587]
epoch: 1, batch: 0, loss is: [5.3405128]
epoch: 1, batch: 200, loss is: [3.946857]
epoch: 1, batch: 400, loss is: [4.416728]
epoch: 2, batch: 0, loss is: [2.7133915]
epoch: 2, batch: 200, loss is: [2.8620245]
epoch: 2, batch: 400, loss is: [3.0233452]
epoch: 3, batch: 0, loss is: [3.8684494]
epoch: 3, batch: 200, loss is: [3.6623435]
epoch: 3, batch: 400, loss is: [4.4169235]
epoch: 4, batch: 0, loss is: [3.4422498]
epoch: 4, batch: 200, loss is: [3.493916]
epoch: 4, batch: 400, loss is: [2.8242683]
epoch: 5, batch: 0, loss is: [3.7098367]
epoch: 5, batch: 200, loss is: [3.662263]
epoch: 5, batch: 400, loss is: [4.4998116]
epoch: 6, batch: 0, loss is: [3.181002]
epoch: 6, batch: 200, loss is: [3.0345955]
epoch: 6, batch: 400, loss is: [2.9564946]
epoch: 7, batch: 0, loss is: [4.350371]
epoch: 7, batch: 200, loss is: [3.2424948]
epoch: 7, batch: 400, loss is: [3.030394]
epoch: 8, batch: 0, loss is: [3.5799572]
epoch: 8, batch: 200, loss is: [4.317978]
epoch: 8, batch: 400, loss is: [2.884202]
epoch: 9, batch: 0, loss is: [3.0298193]
epoch: 9, batch: 200, loss is: [3.953648]
epoch: 9, batch: 400, loss is: [3.0385325]

异步读取数据

上面提到的数据读取采用的是同步数据读取方式。对于样本量较大、数据读取较慢场景，建议采用异步数据读取方式。异步数据读取时，数据读取和模型训练并形执行，从而加快了数据读取速度，牺牲一小部分内存换取数据读取效率的提升，二者关系如图所示：

图：同步数据读取和异步数据读取示意图

同步数据读取：数据读取与模型训练串行。当模型需要数据时，才运行数据读取函数获得当前批次的数据。在读取数据期间，模型一直等待数据读取结束才进行训练，数据读取速度相对较慢。
异步数据读取：数据读取和模型训练并行。读取到的数据不断的放入缓存区，无需等待模型训练就可以启动下一轮数据读取。当模型训练完一个批次后，不用等待数据读取过程，直接从缓存区获得下一批次数据进行训练，从而加快了数据读取速度。
异步队列：数据读取和模型训练交互的仓库，二者均可从仓库中读取数据，它的存在使得两者的工作节奏可以结合。

# 定义数据读取后存放的位置，CPU或者GPU，这里使用CPU
# place = fluid.CUDAPlace(0) 时，数据读到GPU上
place = fluid.CPUPlace()
with fluid.dygraph.guard(place):
    # 声明数据加载函数，使用训练模式
    train_loader = load_data(mode='train')
    # 定义DataLoader对象用于加载Python生成器产生的数据
    data_loader = fluid.io.DataLoader.from_generator(capacity=5, return_list=True)
    # 设置数据生成器
    data_loader.set_batch_generator(train_loader, places=place)
    # 迭代的读取数据并打印数据的形状
    for i, data in enumerate(data_loader):
        image_data, label_data = data
        print(i, image_data.shape, label_data.shape)
        if i>=5:
            break

结果如下

loading mnist dataset from ./work/mnist.json.gz ......
mnist dataset load done
训练数据集数量:  50000
0 [100, 1, 28, 28] [100, 1]
1 [100, 1, 28, 28] [100, 1]
2 [100, 1, 28, 28] [100, 1]
3 [100, 1, 28, 28] [100, 1]
4 [100, 1, 28, 28] [100, 1]
5 [100, 1, 28, 28] [100, 1]

异步数据读取并训练的完整代码如下所示

with fluid.dygraph.guard():
    model = MNIST("mnist")
    model.train()
    #调用加载数据的函数
    train_loader = load_data('train')
    # 创建异步数据读取器
    place = fluid.CPUPlace()
    data_loader = fluid.io.DataLoader.from_generator(capacity=5, return_list=True)
    data_loader.set_batch_generator(train_loader, places=place)
    
    optimizer = fluid.optimizer.SGDOptimizer(learning_rate=0.001, parameter_list=model.parameters())
    EPOCH_NUM = 3
    for epoch_id in range(EPOCH_NUM):
        for batch_id, data in enumerate(data_loader):
            image_data, label_data = data
            image = fluid.dygraph.to_variable(image_data)
            label = fluid.dygraph.to_variable(label_data)
            
            predict = model(image)
            
            loss = fluid.layers.square_error_cost(predict, label)
            avg_loss = fluid.layers.mean(loss)
            
            if batch_id % 200 == 0:
                print("epoch: {}, batch: {}, loss is: {}".format(epoch_id, batch_id, avg_loss.numpy()))
            
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            model.clear_gradients()

    fluid.save_dygraph(model.state_dict(), 'mnist')

结果如下

loading mnist dataset from ./work/mnist.json.gz ......
mnist dataset load done
训练数据集数量:  50000
epoch: 0, batch: 0, loss is: [28.888733]
epoch: 0, batch: 200, loss is: [3.8076816]
epoch: 0, batch: 400, loss is: [3.6661437]
epoch: 1, batch: 0, loss is: [4.047027]
epoch: 1, batch: 200, loss is: [3.5504844]
epoch: 1, batch: 400, loss is: [4.3825784]
epoch: 2, batch: 0, loss is: [3.7348306]
epoch: 2, batch: 200, loss is: [2.794263]
epoch: 2, batch: 400, loss is: [3.013347]

fluid.io.DataLoader.from_generator参数名称、参数含义、默认值如下：

参数含义如下：
- feed_list 仅在paddle静态图中使用，动态图中设置为None，本教程默认使用动态图的建模方式。
- capacity 表示在DataLoader中维护的队列容量，如果读取数据的速度很快，建议设置为更大的值。
- use_double_buffer 是一个布尔型的参数，设置为True时Dataloader会预先异步读取下一个batch的数据放到缓存区。
- iterable 表示创建的Dataloader对象是否是可迭代的，一般设置为True。
- return_list 在动态图模式下需要设置为True，静态图模式下设置为False。
参数名和默认值如下：
- feed_list=None,
- capacity=None,
- use_double_buffer=True,
- iterable=True,
- return_list=False

回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
SQLite的入门级项目学习记录（二）深蓝海拓 SQLite学习笔记 sqlite 学习数据库
再补充一些基础知识：并行操作的问题1、可以多游标同时运行SQLite，对于同一个连接sqlite3.connect(db_file)，可以同时创建多个游标，每个游标都是独立的，可以执行各自的SQL命令序列。importsqlite3#创建数据库连接conn=sqlite3.connect('example.db')#创建第一个游标cursor1=conn.cursor()cursor1.execu
RISC-V架构生态及相关学习记录我朝山海而去 risc-v 学习
从网络整理，仅供自己学习_____________________________________________________________________________1.RISC-V架构的两个特性RISC-V，第五代精简指令处理器。RISC-V指令集，可以在理解上类比于主流商用Inter的x86，ARM的指令集，用于CPU读取、翻译从而指挥计算机进行相应操作。它在RISC（基于精简指令
英语心得1 小坤的梦呓
姑且这段学习记录的名字就这么叫吧。现在看了很多学习方面的经验分享，自己也在实践当中。正如贾兄在经验分享中看到的那样，学习英语而不是学习知识。英语是语言，语言是用来说的，既然要说语言，那必然要从听开始。很多原理和道理也不细说了，这个还需要学习很久。我现在要做的就是根据这些经验和自己的感悟去学习，然后加以改进方法，提高学习效率。现在也有给自己定了一个短期的小目标，争取年底或明年初可以考过雅思。至少达到
man命令学习记录天南地北飞 linux基础学习学习 linux 运维
使用man来查看命令的用法manls想了解Linux命令的用法假设你想查ls命令的更多信息，输入manls，就会打开manpage（man是manual的缩写，因此manpage就是“手册页面”），显示关于ls命令各个方面的信息。通常，manpage是由编写程序的开发人员编写的。使用这个命令并不难，只需要输入man，后面再跟上你想要了解的命令。$manlsLS(1)UserCommandsLS(1
C语言简单复习(在力扣上刷题）【学习记录】清蒸君 51单片机 c语言 leetcode
一、魔术索引在数组A[0...n-1]中，有所谓的魔术索引，满足条件A[i]=i。给定一个有序整数数组，编写一种方法找出魔术索引，若有的话，在数组A中找出一个魔术索引，如果没有，则返回-1。若有多个魔术索引，返回索引值最小的一个。示例1:输入：nums=[0,2,3,4,5]输出：0说明:0下标的元素为0来源：力扣（LeetCode）链接：https://leetcode-cn.com/probl
推荐算法学习记录2.2——kaggle数据集的动漫电影数据集推荐算法实践——基于内容的推荐算法、协同过滤推荐萱仔学习自我记录推荐算法学习 python matplotlib 开发语言
1、基于内容的推荐：这种方法根据项的相关信息（如描述信息、标签等）和用户对项的操作行为（如评论、收藏、点赞等）来构建推荐算法模型。它可以直接利用物品的内容特征进行推荐，适用于内容较为丰富的场景。‌#1.基于内容的推荐算法fromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimport
LeetCode hot 100 学习记录 day 2 a77895 leetcode 学习算法
文章目录Integer方法除自身以外数组的乘积缺失的第一个正数参考链接Integer方法由轮转数组到Interger方法、System方法轮转数组：涉及到的方法：System.arraycopy(newArr,0,nums,0,n)nums.assign(newArr.begin(),newArr.end());方法介绍：publicstaticnativevoidarraycopy(Object
学习记录——day43 C++ 异常处理子座学习
一、异常处理的格式1、在可能产生异常的地方使用关键字：throw抛出异常2、try{可能会抛出异常的语句}catch(接收异常的形参){处理异常}任何函数在定义时，可以指定能抛出的异常格式如下返回值类型函数名(形参列表)throw(异常类型1，异常类型2，。。。。)定义时throw没有不影响函数体内throw的使用，系统会自动匹配，如果有，内外类型要一致，不能缺少对于一定不会抛出异常的函数，可用n
9.6学习记录+三场笔试冰榫学习
一、去哪儿笔试+挚文集团1.在调度算法中平均等待时间最短的是什么?短作业优先2.给定一个字符串s，最有效的找到其中第一个不重复的字符的方法是?一、使用哈希表创建一个哈希表，用于存储字符及其出现的次数。可以使用编程语言中提供的字典（如Python中的dict）或类似的数据结构。遍历字符串s：对于每个字符，检查它是否在哈希表中。如果不在哈希表中，将其加入哈希表，并将其出现次数初始化为1。如果已经在哈希
Groovy入门（有java基础） black_dawn groovy java 开发语言
一、基本概念Groovy是一种基于Java虚拟机（JVM）的动态开发语言，旨在扩展Java语法，提供更简洁、灵活和易于使用的编码方式。本文是在会一定java语言开发的基础上进行的对比入门学习记录。1.特点：动态性：Groovy支持动态类型和动态元编程，使得代码更加灵活和易于编写。简洁性：Groovy的语法相对于Java来说更加简洁，可以用更少的代码实现相同的功能。闭包：Groovy提供了强大的闭包
搭载python环境 guluguluduang 学习记录区 00000001
超级小白学习记录搭载python环境一：找官网下载python二：python是否可以在电脑上找到，用cmd打一下python看看是否有弹出三：有弹出直接用，无弹出信息则用环境变量改一下四：环境变量在高级系统设置中，双击系统设置中的path新建一个自己的python文件五：下载geany用于编程，新建一个文件夹叫xx.py。后缀.py可让geany识别出这是个python的文件，以便于让geany
学习记录——语义分割和实例分割的标签结构落叶击球学习笔记学习人工智能
语义分割：一张样本，生成一张掩码图像标签。灰度图像，背景亮度为0，每个目标根据分类赋予不同亮度——1，2，3......实现像素级的类别区分，但无法区分个体。实例分割：原理：一张样本，生成一个多通道的Mat矩阵，也就是多张掩码图像叠在一起。每张掩码图负责存储一个类别的目标，亮度只有0和1，通过通道号区分每个类别。同时，每张掩码图内，每个目标拥有ID号（通过增加一个维度实现），负责区分一个类别中的每
开开心心最重要进步记录2020
1.难得2月9号，10号这两天没什么工作内容，不过我也充分利用了这两天，闲里时间，紧张的学习记录一些文章套路，为以后写文章打下一定的基础，但愿还是有用的吧。毕竟勤能补拙是真理，再加上潜移默化的学习熏陶，估计会有用。2.今天站闲里忙着买了家电，京东3000多点买了空调，拼多多888买了冰箱，三开门的，应该还可以。但愿安装费时候没有什么事情，祝一切顺利。3这两天不知道为什么，神经总是很紧张，也不知道怎
冶金加热炉学习记录11加热制度改善昨天的自己
11、加热炉的热制度正确选择钢坯加热工艺，不仅要考虑钢坯的加热温度，还应考虑断面上的温度差，即温度的均匀性。加热炉热制度的确定是进行物料加热计算的前提，也是炉子投产后热工操作制度的依据。钢种不同，料坯的形状、尺寸不同，加热炉的热制度亦应有所区别。对压力加工前的钢坯加热炉而言，钢坯的加热制度可分为：一段加热制度、二段加热制度、三段加热制度。一段式加热制度（也称一期加热制度）是把钢坯放在炉温基本上不变
Flutter学习记录-基础控件薰舞空
statelesswidget没有内部状态.Icon、IconButton,和Text都是无状态widget,他们都是StatelessWidget的子类。statefulwidget是动态的.用户可以和其交互(例如输入一个表单、或者移动一个slider滑块),或者可以随时间改变(也许是数据改变导致的UI更新).Checkbox,Radio,Slider,InkWell,Form,andTextF
（深度学习记录）：第T3周：天气识别 liuyiqi1 深度学习人工智能
>-**本文为[365天深度学习训练营](https://mp.weixin.qq.com/s/rbOOmire8OocQ90QM78DRA)中的学习记录博客**>-**原作者：[K同学啊|接辅导、项目定制](https://mtyjkh.blog.csdn.net/)**我的环境-语言环境：Python3.11-编译器：PyCharm-tensorflow版本2.14.0代码部分importos
第R3周：天气预测 Jessica2017lj python
本文为[365天深度学习训练营]中的学习记录博客参考文章：第R3周：LSTM-火灾温度预测（训练营内部可读）作者：[K同学啊]任务说明：该数据集提供了来自澳大利亚许多地点的大约10年的每日天气观测数据。你需要做的是根据这些数据对RainTomorrow进行一个预测，这次任务任务与以往的不同，我增加了探索式数据分析（EDA），希望这部分内容可以帮助到大家。我的环境：●语言环境：Python3.8●编
T4周：猴痘病识别 KLaycurryifans 深度学习
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊|接辅导、项目定制Z.心得感受+知识点补充1.ModelCheckpoint讲解函数原型：tf.keras.callbacks.ModelCheckpoint(filepath,monitor='val_loss',verbose=0,save_best_only=False,save_weights_only=False,mode='a
第T4周：使用TensorFlow实现猴痘病识别 oufoc tensorflow 人工智能 python
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊文章目录一、前期工作1.设置GPU（如果使用的是CPU可以忽略这步）2.导入数据3.查看数据二、数据预处理1、加载数据2、数据可视化3、再次检查数据4、配置数据集三、构建CNN网络四、编译五、训练模型六、模型评估1.Loss与Accuracy图2.指定图片进行预测七、优化1、使用`model.evaluate`使用测试集评估模型2、网络结
文件切片上传-仅学习记录 qq_41562817 Vue vue.js javascript
一、目的：本文仅记录一次实践尝试，仅前端调试成功，后端未反馈问题，不过后来接口废弃了。二、前期博客浏览参考：本文链接：文件分片上传【前端】_分片上传原理-CSDN博客本文链接：前端大文件切片上传，断点续传、秒传等解决方案，vue中使用实例，react同理_前端文件切片_刘伟坤的博客-CSDN博客原文链接：前端大文件上传优化方案——分片上传-知乎三、原理：分片上传的整个流程大致如下：(1)将需要上传
hive学习记录 2302_80695227 hive 学习 hadoop
一、Hive的基本概念定义：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。Hive将HQL（HiveQueryLanguage）转化成MapReduce程序或其他分布式计算引擎（如Tez、Spark）的任务进行计算。数据存储：Hive处理的数据存储在HDFS（HadoopDistributedFileSystem）上。执行引擎：Hive的
双证班学习记录2-开营糖糖82
听完开营课，觉得樊老师这个课程设置主打一个认真努力，愿意坚持和突破，而且奖励颇多，这无形中让我增强了学完的信心，挺好。开营后要对2个月学习做宣誓，我发了文字，但觉得还是得抓住每个锻炼的机会，于是又录视频，这次面对镜头没有那么多顾忌了，也不太在意自己录的是否好了，就纯粹觉得自己要对自己立个flag，鼓励自己坚持走完2个月的学习内容，不轻易畏难放弃。就像宣誓说的，多行动，多参与，所以我要抓住每一个自己
Vue3学习记录——(1)MVC与MVVM 一只漫步前行的羊 Vue3学习记录 vue.js 学习 mvc
1.传统的MVC模式模型（Model）：数据存储。视图（View）：用户界面。控制器（Controller）：业务逻辑。Model代表数据存储，主要用于实现数据的持久化；View代表用户界面（UI），主要用于实现页面的显示；Controller代表业务逻辑，串联起View和Model1.流行的MVVM模式模型（Model）：数据存储。视图（View）：用户界面。视图模型（ViewModel）：数据
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
C语言学习记录4 XSR_yeah 学习
今日学习了注释和对于条件语句和和循环语句的初识：1.注释：用于解释代码。两种方式：1.代码前加//2.在被注释代码上一行加/*，在被注释代码下一行加*/。（C语言的注释不支持嵌套）2.初始条件语句与循环语句：两者与python语句相似，条件语句用if和else，循环语句用for，while,dowhile后面将加快进程，开始着手竞赛准备
第T10周：数据增强 OreoCC 深度学习人工智能 tensorflow2
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**第10周：数据增强难度：夯实基础⭐⭐语言：Python3、TensorFlow2要求：学会在代码中使用数据增强手段来提高acc请探索更多的数据增强手段并记录在本教程中，你将学会如何进行数据增强，并通过数据增强用少量数据达到非常非常棒的识别准确率。我将展示两种数据增强方式，以及如何自定义数据增强方式并将其放到
Activity7框架使用学习记录爱为斯坦项目框架使用学习学习 java
用于记录在项目中使用工作流框架PROC_DEF_ID:流程定义的idbpmn文件中对流程图定义的idTASK_DEF_KEY:任务定义的idbpmn文件中对每个任务定义的idPROC_INST_ID:流程实例id启动一个流程时对流程定义的idPROC_DEF_ID（流程定义的ID）：在BPMN（BusinessProcessModelandNotation）文件中，流程定义的ID是对整个流程图定义
动手学深度学习（pytorch）学习记录20-自定义层[学习记录] walfar pytorch 深度学习 pytorch 学习
在深度学习中，自定义层是指开发者根据特定需求编写的神经网络层，而不是使用深度学习框架（如PyTorch、TensorFlow等）提供的现成层。自定义层可以让模型更加灵活，以适应特定的任务或数据集。目录没有参数的自定义层带参数的层没有参数的自定义层下面的CenteredLayer类要从其输入中减去均值。要构建它，只需继承基础层类并实现前向传播功能。importtorchimporttorch.nn.
动手学深度学习（pytorch）学习记录21-读写文件(模型与参数)[学习记录] walfar pytorch 深度学习 pytorch 学习
目录加载和保存张量加载和保存模型参数保存模型的好处众多，涵盖了从开发到部署的整个机器学习生命周期。节省资源：训练模型可能需要大量的时间和计算资源。保存模型可以避免重复训练，从而节省时间和计算资源。快速部署：一旦模型被训练并保存，它可以迅速部署到生产环境中，加速产品上市时间。版本控制：保存不同版本的模型有助于跟踪模型的迭代过程，便于比较和回滚到之前的版本。离线使用：保存的模型可以在没有网络连接的情况
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

手写数字识别之数据处理-----以MNIST为例进行完整数据读取与处理

读入数据并划分数据集：

训练样本乱序、生成批次数据：

效验数据有效性：

封装数据读取与处理函数

异步读取数据

你可能感兴趣的:(学习记录)