striveAgain丶

pytorch MNIST 手写数字识别 + 使用自己的测试集 + 数据增强后再训练

文章目录

1. MNIST 手写数字识别
2. 聚焦数据集扩充后的模型训练
3. pytorch 手写数字识别基本实现
- 3.1完整代码及 MNIST 测试集测试结果
- - 3.1.1代码
  - 3.1.2 MNIST 测试集测试结果
- 3.2 使用自己的图片进行测试
- - 3.2.1 测试图片预处理代码
  - 3.2.2 测试图片结果
4. 数据增强
- 4.1 手动读取 MNIST 数据集
- 4.2 数据增强
- - 4.2.1 像素反转
  - 4.2.2 图像旋转
  - - 4.2.2.1 图像类别统计
    - 4.2.2.2 根据类别进行等量均类划分
  - 4.2.3 像素反转 + 图像旋转
  - 4.2.4 选择加载不同的处理后的数据集
- 4.3 完整代码
5. 模型再训练
- 5.1 怎么加载 split 后的数据？
- - 5.1.1 创建自己的 dataset 类
  - 5.1.2 load 分割好的数据
- 5.2 加载完成后怎么和原始数据合并，然后送入模型进行训练？
- 5.3 完整代码
- 5.4 训练结果
- - 5.4.1 只进行像素反转
  - - 5.4.1.1 测试结果
    - 5.4.1.2 在自己的数据上测试
    - - 测试代码
      - 测试结果
  - 5.4.2 只进行图像旋转
  - - 5.4.2.1 测试结果
    - 5.4.2.2 在自己的数据上测试
    - - 测试代码
      - 测试结果
  - 5.4.3 二者同时进行
  - - 5.4.3.1 测试结果
    - 5.4.3.2 在自己的数据上测试
    - - 测试代码
      - 测试结果
- 5.5 结果整合
结语

1. MNIST 手写数字识别

MNIST 数据集分为两部分，分别是训练集和测试集，其中训练集含有 60000 张图片，测试集中含有 10000 张图片。从官网下载的数据集主要包括有 4 个文件：

文件名称	文件用途
train-images-idx3-ubyte.gz	训练集图像
train-labels-idx1-ubyte.gz	训练集 label
t10k-images-idx3-ubyte.gz	测试集图像
t10k-labels-idx1-ubyte.gz	测试集 label

参考：
MNIST 数据集介绍 1
MNIST 数据集介绍 2

2. 聚焦数据集扩充后的模型训练

Internet 中有很多关于 pytorch 实现手写数字识别的博客了，所以本文不再对这一方面作过多的叙述。更多地，本文对 MNIST 数据集进行了扩充，利用 3 中不同的数据集构成对模型进行训练，每类数据集构成都包含了 12000 张图片。这 3 种不同的数据集构成如下：

原始数据集（60000 张）+ 像素反转后的图片（60000 张）
原始数据集（60000 张）+ 对图像进行 90°, 180°, 270° 等量均类旋转后的图片（60000 张）（注意：此处的等量均类是指对每个角度都旋转了 20000 张图片，同时，这 20000 张图片中包含了数字 0-9 这十个类别的图片各 2000 张）
原始数据集（60000 张）+ 像素反转后的图片（30000 张）+ 等量均类旋转的图片（30000 张）

建议自己尝试进行数据分割，也可以利用分割好了的数据[链接]（资源还在审核，占个坑）

3. pytorch 手写数字识别基本实现

3.1完整代码及 MNIST 测试集测试结果

3.1.1代码

完整代码如下：

import torch
import torch.nn as nn
import torchvision.datasets
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, img):
        output = self.conv1(img)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


def get_device():
    if torch.cuda.is_available():
        train_device = torch.device('cuda')
    else:
        train_device = torch.device('cpu')

    return train_device


def get_data_loader(dat_path, bat_size, trans, to_train=False):
    dat_set = torchvision.datasets.MNIST(root=dat_path, train=to_train, transform=trans, download=True)
    if to_train is True:
        dat_loader = torch.utils.data.DataLoader(dat_set, batch_size=bat_size, shuffle=True)
    else:
        dat_loader = torch.utils.data.DataLoader(dat_set, batch_size=bat_size)

    return dat_set, dat_loader


def show_part_of_image(dat_loader, row, col):
    iteration = enumerate(dat_loader)
    idx, (exam_img, exam_label) = next(iteration)

    fig = plt.figure(num=1)
    for i in range(row * col):
        plt.subplot(row, col, i + 1)
        plt.tight_layout()
        plt.imshow(exam_img[i][0], cmap='gray', interpolation='none')
        plt.title('Number: {}'.format(exam_label[i]))
        plt.xticks([])
        plt.yticks([])
    plt.show()


def train(network, dat_loader, device, epos, loss_function, optimizer):
    for epoch in range(1, epos + 1):
        network.train(mode=True)
        for idx, (train_img, train_label) in enumerate(dat_loader):
            train_img = train_img.to(device)
            train_label = train_label.to(device)

            outputs = network(train_img)
            optimizer.zero_grad()
            loss = loss_function(outputs, train_label)
            loss.backward()
            optimizer.step()

            if idx % 100 == 0:
                cnt = idx * len(train_img) + (epoch - 1) * len(dat_loader.dataset)
                print('epoch: {}, [{}/{}({:.0f}%)], loss: {:.6f}'.format(epoch,
                                                                         idx * len(train_img),
                                                                         len(dat_loader.dataset),
                                                                         (100 * cnt) / (
                                                                                 len(dat_loader.dataset) * epos),
                                                                         loss.item()))
        print('------------------------------------------------')
    print('Training ended.')

    return network


def test(network, dat_loader, device, loss_function):
    test_loss_avg, correct, total = 0, 0, 0
    test_loss = []
    network.train(mode=False)

    with torch.no_grad():
        for idx, (test_img, test_label) in enumerate(dat_loader):
            test_img = test_img.to(device)
            test_label = test_label.to(device)

            total += test_label.size(0)

            outputs = network(test_img)
            loss = loss_function(outputs, test_label)
            test_loss.append(loss.item())

            predictions = torch.argmax(outputs, dim=1)
            correct += torch.sum(predictions == test_label)
        test_loss_avg = np.average(test_loss)
        print('Total: {}, Correct: {}, Accuracy: {:.2f}%, AverageLoss: {:.6f}'.format(total, correct,
                                                                                      correct / total * 100,
                                                                                      test_loss_avg))


def show_part_of_test_result(network, dat_loader, row, col):
    iteration = enumerate(dat_loader)
    idx, (exam_img, exam_label) = next(iteration)

    with torch.no_grad():
        outputs = network(exam_img)

        fig = plt.figure()
        for i in range(row * col):
            plt.subplot(row, col, i + 1)
            plt.tight_layout()
            plt.imshow(exam_img[i][0], cmap='gray', interpolation='none')
            plt.title('Number: {}, Prediction: {}'.format(
                exam_label[i], outputs.data.max(1, keepdim=True)[1][i].item()
            ))
            plt.xticks([])
            plt.yticks([])
        plt.show()


batch_size, epochs = 64, 10
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
my_device = get_device()

path = './data'
_, train_data_loader = get_data_loader(path, batch_size, transform, True)
print('Training data loaded.')

show_part_of_image(train_data_loader, 3, 3)

_, test_data_loader = get_data_loader(path, batch_size, transform)
print('Testing data loaded.')

cnn = CNN()
loss_func = nn.CrossEntropyLoss()
optim = torch.optim.Adam(cnn.parameters(), lr=0.01)

cnn = train(cnn, train_data_loader, my_device, epochs, loss_func, optim)
test(cnn, test_data_loader, my_device, loss_func)

show_part_of_test_result(cnn, test_data_loader, 5, 2)

torch.save(cnn, './cnn.pth')

3.1.2 MNIST 测试集测试结果

模型测试结果：

其中一些超参数如下：

batch_size: 64
epochs: 10

同时，采用交叉熵 CrossEntropyLoss 来计算 loss，Adam 来进行优化：

模型在测试集上的准确率达到了 97.32%，从右侧的测试集采样结果来看，正确率也相对较高；

3.2 使用自己的图片进行测试

另外，还在画图中做了 0-9 这 10 个数字代入模型进行识别。注意：在画图中做的图片必须要是 28 * 28 的大小（当然也可以用 python 进行裁剪，这里就偷个懒~）
还需要注意的是，MNIST 数据集中的图片是黑底白字的，而通过画图做出的图片是白底黑字的，因此若想得到准确结果的话，必须要对需要测试的图片进行像素反转的预处理操作；

3.2.1 测试图片预处理代码

注意：由于将模型保存进了 cnn.pth 文件，测试时直接 torch.load('./cnn.pth') 即可（当然也可以用官方推荐的只保存参数的方法）；需要注意的是：记得把网络结构的定义复制过来，否则会报错；

import torch
import numpy as np
from PIL import Image
from torchvision import transforms
import torch.nn as nn
import matplotlib.pyplot as plt


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, input):
        output = self.conv1(input)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


model = torch.load('./cnn.pth')
model.eval()

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
unloader = transforms.ToPILImage()

for k in range(10):
    infile = './testImgs/raw/' + '{}.jpg'.format(k)

    img = Image.open(infile)
    img = img.convert('L')
    img_array = np.array(img)
	
	# 像素反转
    for i in range(28):
        for j in range(28):
            img_array[i, j] = 255 - img_array[i, j]
    # print(img_array)
    img = Image.fromarray(img_array)
    # img.show()
    img = transform(img)
    img = torch.unsqueeze(img, 0)

    output = model(img)
    pred = torch.argmax(output, dim=1)

    image = torch.squeeze(img, 0)
    image = unloader(image)

    plt.subplot(5, 2, k + 1)
    plt.tight_layout()
    plt.imshow(image, cmap='gray', interpolation='none')
    plt.title("Number: {}, Prediction: {}".format(k, pred.item()))
    plt.xticks([])
    plt.yticks([])
plt.show()

3.2.2 测试图片结果

（虽然结果正确率挺高，但是那些图片看起来怎么是灰底呢！？）

4. 数据增强

由于我们需要对数据进行处理，因此需要单独将数据读取出来，再进行相应的处理后保存；

4.1 手动读取 MNIST 数据集

关于如何从 .gz 文件中读取图片和图片的 label，参考了这篇文章手动读取 MNIST 数据集；
主要代码：

def load_mnist(folder, img_file_name, label_file_name):
    with gzip.open(os.path.join(folder, label_file_name), 'rb') as lbpath:
        y_set = np.frombuffer(lbpath.read(), np.uint8, offset=8)

    with gzip.open(os.path.join(folder, img_file_name), 'rb') as imgpath:
        x_set = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_set), 28, 28)

    return x_set, y_set

注意，offset 的0000-0003是 magic number，offset的0004-0007是items数目，所以跳过不读，因此将 offset 设置为 8 开始读取；同理：

将 offset 设置为 16，开始读取图片数据；

4.2 数据增强

4.2.1 像素反转

主要操作就是用 255 - 原像素，代码如下：

def all_divert(x, save_path):
	# 使 numpy 矩阵可以读写
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(len(x)):
        for pixel in np.nditer(x[i], op_flags=['readwrite']):
            pixel[...] = 255 - pixel

        save_img = Image.fromarray(x[i])
        save_img = save_img.convert('L')
        save_img.save(save_path + '{}.jpg'.format(i))

4.2.2 图像旋转

4.2.2.1 图像类别统计

在对图像进行旋转的时候，需要做到等量均类，这两个条件缺一不可（因为你不可能让一个人看到一个陌生的动物却能准确说出这个动物是什么），因此首先对图片数据根据它们的 label 进行一个统计。

def classify_img(y):
    cnt = {0: [], 1: [], 2: [], 3: [], 4: [], 5: [], 6: [], 7: [], 8: [], 9: []}
    for i in range(len(y)):
        label = y[i]
        cnt[label].append(i)

    return cnt

这里返回的字典 cnt 中每个字典项保存有属于该 key(label) 的图像的编号；

4.2.2.2 根据类别进行等量均类划分

有了对每个 label 的统计，从中进行划分即可。此处是对全部图像进行 90°，180°，270° 这三类旋转，因此对于每个 label 都将其编号集合进行三等分

def all_rotate(x, cnt_seq, save_path):
	'''
	x: 图像数据集
	cnt_seq: 统计后的 cnt 字典
	save_path: 图像保存路径
	'''
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(10):
        # 将数据集分为 3 份
        data_len = int(len(cnt_seq[i]) / 3)
        for split in range(3):
            left = split * data_len
            if split == 2:
            	# 最后一份包含剩下的所有图像
                right = len(cnt_seq[i])
            else:
                right = (split + 1) * data_len

            for j in range(left, right):
            	# split + 1 表示旋转 90° 的 (split + 1) 倍
                x[cnt_seq[i][j]] = np.rot90(x[cnt_seq[i][j]], split + 1)
                save_img = Image.fromarray(x[cnt_seq[i][j]])
                save_img = save_img.convert('L')
                save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))

4.2.3 像素反转 + 图像旋转

就是上面两种操作的综合，只不过将原始数据集划分为 4 等分：

def divert_and_rotate(x, cnt_seq, save_path):
	'''
	x: 图像数据集
	cnt_seq: 统计后的 cnt 字典
	save_path: 图像保存路径
	'''
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(10):
        # 将数据集分为 4 份
        data_len = int(len(cnt_seq[i]) / 4)
        for split in range(4):
            left = split * data_len
            if split == 3:
                right = len(cnt_seq[i])
            else:
                right = (split + 1) * data_len

            if split == 0:
           		# 第一等份进行像素反转
                for j in range(left, right):
                    for pixel in np.nditer(x[cnt_seq[i][j]], op_flags=['readwrite']):
                        pixel[...] = 255 - pixel

                    save_img = Image.fromarray(x[cnt_seq[i][j]]).convert('L')
                    save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))
            else:
            	# 后面的进行图像旋转
                for j in range(left, right):
                    x[cnt_seq[i][j]] = np.rot90(x[cnt_seq[i][j]], split)
                    save_img = Image.fromarray(x[cnt_seq[i][j]]).convert('L')
                    save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))

4.2.4 选择加载不同的处理后的数据集

上面的三个函数可以实现将不同的处理方式处理后的数据集进行保存，需要注意的是：测试集进行了划分，训练集也要进行划分！ 因此下面的 split_and_save() 函数用来选择不同的处理模式；

def split_and_save(x, y, save_img_path, to_divert=False, to_rotate=False):
	'''
	x: 图像数据; y: label 数据
	save_img_path: 图像保存路径
	to_divert: 是否进行像素反转
	to_rotate: 是否进行图像旋转
	'''
    count_seq = classify_img(y)

    if to_divert is True and to_rotate is False:
        all_divert(x, save_img_path)
    elif to_divert is False and to_rotate is True:
        all_rotate(x, count_seq, save_img_path)
    elif to_divert is True and to_rotate is True:
        divert_and_rotate(x, count_seq, save_img_path)
    else:
        return

接下来就是图像处理了：

root_path = './data/MNIST/raw'
# 加载训练集
img_file_path = 'train-images-idx3-ubyte.gz'
label_file_path = 'train-labels-idx1-ubyte.gz'

raw_x, raw_y = load_mnist(root_path, img_file_path, label_file_path)

save_root_path = './testImgs'
split_and_save(raw_x, raw_y, save_root_path + '/divert/', True, False)
split_and_save(raw_x, raw_y, save_root_path + '/rotate/', False, True)
split_and_save(raw_x, raw_y, save_root_path + '/divert_and_rotate/', True, True)

# 将训练集 label 保存在 label_train.txt 中
with open(save_root_path + '/label_train.txt', 'w') as f:
    for label in raw_y:
        f.write(str(label))
        f.write('\n')
f.close()

# 加载测试集
img_file_path = 't10k-images-idx3-ubyte.gz'
label_file_path = 't10k-labels-idx1-ubyte.gz'

raw_x, raw_y = load_mnist(root_path, img_file_path, label_file_path)
split_and_save(raw_x, raw_y, save_root_path + '/divert_test/', True, False)
split_and_save(raw_x, raw_y, save_root_path + '/rotate_test/', False, True)
split_and_save(raw_x, raw_y, save_root_path + '/divert_and_rotate_test/', True, True)

# 将测试集 label 保存在 label_test.txt 中
with open(save_root_path + '/label_test.txt', 'w') as f:
    for label in raw_y:
        f.write(str(label))
        f.write('\n')
f.close()

4.3 完整代码

import gzip
import os
import numpy as np
from PIL import Image


def load_mnist(folder, img_file_name, label_file_name):
    with gzip.open(os.path.join(folder, label_file_name), 'rb') as lbpath:
        y_set = np.frombuffer(lbpath.read(), np.uint8, offset=8)

    with gzip.open(os.path.join(folder, img_file_name), 'rb') as imgpath:
        x_set = np.frombuffer(imgpath.read(), np.uint8, offset=16).reshape(len(y_set), 28, 28)

    return x_set, y_set


def all_divert(x, save_path):
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(len(x)):
        for pixel in np.nditer(x[i], op_flags=['readwrite']):
            pixel[...] = 255 - pixel

        save_img = Image.fromarray(x[i])
        save_img = save_img.convert('L')
        save_img.save(save_path + '{}.jpg'.format(i))


def classify_img(y):
    cnt = {0: [], 1: [], 2: [], 3: [], 4: [], 5: [], 6: [], 7: [], 8: [], 9: []}
    for i in range(len(y)):
        label = y[i]
        cnt[label].append(i)

    return cnt


def all_rotate(x, cnt_seq, save_path):
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(10):
        # 将数据集分为 3 份
        data_len = int(len(cnt_seq[i]) / 3)
        for split in range(3):
            left = split * data_len
            if split == 2:
                right = len(cnt_seq[i])
            else:
                right = (split + 1) * data_len

            for j in range(left, right):
                x[cnt_seq[i][j]] = np.rot90(x[cnt_seq[i][j]], split + 1)
                save_img = Image.fromarray(x[cnt_seq[i][j]])
                save_img = save_img.convert('L')
                save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))


def divert_and_rotate(x, cnt_seq, save_path):
    x = np.require(x, dtype='f4', requirements=['O', 'W'])

    for i in range(10):
        # 将数据集分为 4 份
        data_len = int(len(cnt_seq[i]) / 4)
        for split in range(4):
            left = split * data_len
            if split == 3:
                right = len(cnt_seq[i])
            else:
                right = (split + 1) * data_len

            if split == 0:
                for j in range(left, right):
                    for pixel in np.nditer(x[cnt_seq[i][j]], op_flags=['readwrite']):
                        pixel[...] = 255 - pixel

                    save_img = Image.fromarray(x[cnt_seq[i][j]]).convert('L')
                    save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))
            else:
                for j in range(left, right):
                    x[cnt_seq[i][j]] = np.rot90(x[cnt_seq[i][j]], split)
                    save_img = Image.fromarray(x[cnt_seq[i][j]]).convert('L')
                    save_img.save(save_path + '{}.jpg'.format(cnt_seq[i][j]))


def split_and_save(x, y, save_img_path, to_divert=False, to_rotate=False):
    count_seq = classify_img(y)

    if to_divert is True and to_rotate is False:
        all_divert(x, save_img_path)
    elif to_divert is False and to_rotate is True:
        all_rotate(x, count_seq, save_img_path)
    elif to_divert is True and to_rotate is True:
        divert_and_rotate(x, count_seq, save_img_path)
    else:
        return


root_path = './data/MNIST/raw'
img_file_path = 'train-images-idx3-ubyte.gz'
label_file_path = 'train-labels-idx1-ubyte.gz'

raw_x, raw_y = load_mnist(root_path, img_file_path, label_file_path)

save_root_path = './testImgs'
split_and_save(raw_x, raw_y, save_root_path + '/divert/', True, False)
split_and_save(raw_x, raw_y, save_root_path + '/rotate/', False, True)
split_and_save(raw_x, raw_y, save_root_path + '/divert_and_rotate/', True, True)

with open(save_root_path + '/label_train.txt', 'w') as f:
    for label in raw_y:
        f.write(str(label))
        f.write('\n')
f.close()

img_file_path = 't10k-images-idx3-ubyte.gz'
label_file_path = 't10k-labels-idx1-ubyte.gz'

raw_x, raw_y = load_mnist(root_path, img_file_path, label_file_path)
split_and_save(raw_x, raw_y, save_root_path + '/divert_test/', True, False)
split_and_save(raw_x, raw_y, save_root_path + '/rotate_test/', False, True)
split_and_save(raw_x, raw_y, save_root_path + '/divert_and_rotate_test/', True, True)

with open(save_root_path + '/label_test.txt', 'w') as f:
    for label in raw_y:
        f.write(str(label))
        f.write('\n')
f.close()

5. 模型再训练

模型再训练需要解决 2 个问题：

怎么加载 split 后的数据？
加载完成后怎么和原始数据合并，然后送入模型进行训练？

5.1 怎么加载 split 后的数据？

5.1.1 创建自己的 dataset 类

为了使自己的数据集和原始数据集进行合并，可以继承 torch.utils.data.Dataset 类开发自己的 my_dataset 类：

class my_dataset(torch.utils.data.Dataset):
    def __init__(self, img, label, transform=None):
        super(my_dataset, self).__init__()
        self.dataset = img
        self.label = label
        self.transform = transform

    def __getitem__(self, item):
        data = self.dataset[item]
        lb = self.label[item]
        if self.transform is not None:
            data = self.transform(data)
        return data, lb

    def __len__(self):
        return len(self.dataset)

这里，__init(self)__, __getitem(self, item)__, __len(self)__ 是必须实现的，当把之前分割好的 img, label 数据加载进来后，放入 my_dataset 类即可；

5.1.2 load 分割好的数据

加载分割好的数据，返回 my_dataset 对象；

def load(trans, to_divert=False, to_rotate=False, train=False):
	'''
	trans: torchvision.transforms 对象
	to_divert: 是否进行像素反转
	to_rotate: 是否进行图像旋转
	train: 是否是用于训练的数据
	'''
    x, y = [], []
    root_path = './testImgs/'
    # 加载训练数据
    if train is True:
        num = 6e4
        label_path = root_path + 'label_train.txt'
        if to_divert is True and to_rotate is False:
            load_path = root_path + 'divert/'
        elif to_divert is False and to_rotate is True:
            load_path = root_path + 'rotate/'
        elif to_divert is True and to_rotate is True:
            load_path = root_path + 'divert_and_rotate/'
        else:
            return
    else:
        num = 1e4
        label_path = root_path + 'label_test.txt'
        if to_divert is True and to_rotate is False:
            load_path = root_path + 'divert_test/'
        elif to_divert is False and to_rotate is True:
            load_path = root_path + 'rotate_test/'
        elif to_divert is True and to_rotate is True:
            load_path = root_path + 'divert_and_rotate_test/'
        else:
            return

    for i in range(int(num)):
        path = load_path + '{}.jpg'.format(i)

        img = Image.open(path).convert('L')
        x.append(img)
	
	# 加载 label
    with open(label_path, 'r') as f:
        for i in range(int(num)):
            label = f.readline()
            label = label.strip('\n')
            y.append(int(label))
    f.close()

    dataset = my_dataset(x, y, trans)
    return dataset

5.2 加载完成后怎么和原始数据合并，然后送入模型进行训练？

以原始训练集和数据增强后的训练集合并为例：

	path = './data'
	# get_data_loader() 就是基本实现中定义好的函数
    train_data_set, _ = get_data_loader(path, batch_size, transform, True)
    # 增强后的数据集
    enhanced_train_data_set = load(transform, True, True, True)
    # 采用 ConcatDataset() 进行连接
    train_data_set = torch.utils.data.dataset.ConcatDataset([enhanced_train_data_set, train_data_set])
    print('Training data loaded.')
	# 将 dataset 放入 loader 中
	train_data_loader = torch.utils.data.DataLoader(train_data_set, batch_size=batch_size, shuffle=True)

5.3 完整代码

完整代码和基本实现中的差不多，主要区别在于：

增加了 my_dataset 类；
加载自己的数据集的 load() 函数；
主函数里面对数据进行了加载和合并；

import torch
import torch.nn as nn
import torchvision.datasets
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, img):
        output = self.conv1(img)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


class my_dataset(torch.utils.data.Dataset):
    def __init__(self, img, label, transform=None):
        super(my_dataset, self).__init__()
        self.dataset = img
        self.label = label
        self.transform = transform

    def __getitem__(self, item):
        data = self.dataset[item]
        lb = self.label[item]
        if self.transform is not None:
            data = self.transform(data)
        return data, lb

    def __len__(self):
        return len(self.dataset)


def get_device():
    if torch.cuda.is_available():
        train_device = torch.device('cuda')
    else:
        train_device = torch.device('cpu')

    return train_device


def get_data_loader(dat_path, bat_size, trans, to_train=False):
    dat_set = torchvision.datasets.MNIST(root=dat_path, train=to_train, transform=trans, download=True)
    if to_train is True:
        dat_loader = torch.utils.data.DataLoader(dat_set, batch_size=bat_size, shuffle=True)
    else:
        dat_loader = torch.utils.data.DataLoader(dat_set, batch_size=bat_size)

    return dat_set, dat_loader


def show_part_of_image(dat_loader, row, col):
    iteration = enumerate(dat_loader)
    idx, (exam_img, exam_label) = next(iteration)

    fig = plt.figure(num=1)
    for i in range(row * col):
        plt.subplot(row, col, i + 1)
        plt.tight_layout()
        plt.imshow(exam_img[i][0], cmap='gray', interpolation='none')
        plt.title('Number: {}'.format(exam_label[i]))
        plt.xticks([])
        plt.yticks([])
    plt.show()


def train(network, dat_loader, device, epos, loss_function, optimizer):
    for epoch in range(1, epos + 1):
        network.train(mode=True)
        for idx, (train_img, train_label) in enumerate(dat_loader):
            train_img = train_img.to(device)
            train_label = train_label.to(device)

            outputs = network(train_img)
            optimizer.zero_grad()
            loss = loss_function(outputs, train_label)
            loss.backward()
            optimizer.step()

            if idx % 100 == 0:
                cnt = idx * len(train_img) + (epoch - 1) * len(dat_loader.dataset)
                print('epoch: {}, [{}/{}({:.0f}%)], loss: {:.6f}'.format(epoch,
                                                                         idx * len(train_img),
                                                                         len(dat_loader.dataset),
                                                                         (100 * cnt) / (
                                                                                 len(dat_loader.dataset) * epos),
                                                                         loss.item()))
        print('------------------------------------------------')
    print('Training ended.')

    return network


def test(network, dat_loader, device, loss_function):
    test_loss_avg, correct, total = 0, 0, 0
    test_loss = []
    network.train(mode=False)

    with torch.no_grad():
        for idx, (test_img, test_label) in enumerate(dat_loader):
            test_img = test_img.to(device)
            test_label = test_label.to(device)

            total += test_label.size(0)

            outputs = network(test_img)
            loss = loss_function(outputs, test_label)
            test_loss.append(loss.item())

            predictions = torch.argmax(outputs, dim=1)
            correct += torch.sum(predictions == test_label)
        test_loss_avg = np.average(test_loss)
        print('Total: {}, Correct: {}, Accuracy: {:.2f}%, AverageLoss: {:.6f}'.format(total, correct,
                                                                                      correct / total * 100,
                                                                                      test_loss_avg))


def show_part_of_test_result(network, dat_loader, row, col):
    iteration = enumerate(dat_loader)
    idx, (exam_img, exam_label) = next(iteration)

    with torch.no_grad():
        outputs = network(exam_img)

        fig = plt.figure()
        for i in range(row * col):
            plt.subplot(row, col, i + 1)
            plt.tight_layout()
            plt.imshow(exam_img[i][0], cmap='gray', interpolation='none')
            plt.title('Number: {}, Prediction: {}'.format(
                exam_label[i], outputs.data.max(1, keepdim=True)[1][i].item()
            ))
            plt.xticks([])
            plt.yticks([])
        plt.show()


def load(trans, to_divert=False, to_rotate=False, train=False):
    x, y = [], []
    root_path = './testImgs/'
    if train is True:
        num = 6e4
        label_path = root_path + 'label_train.txt'
        if to_divert is True and to_rotate is False:
            load_path = root_path + 'divert/'
        elif to_divert is False and to_rotate is True:
            load_path = root_path + 'rotate/'
        elif to_divert is True and to_rotate is True:
            load_path = root_path + 'divert_and_rotate/'
        else:
            return
    else:
        num = 1e4
        label_path = root_path + 'label_test.txt'
        if to_divert is True and to_rotate is False:
            load_path = root_path + 'divert_test/'
        elif to_divert is False and to_rotate is True:
            load_path = root_path + 'rotate_test/'
        elif to_divert is True and to_rotate is True:
            load_path = root_path + 'divert_and_rotate_test/'
        else:
            return

    for i in range(int(num)):
        path = load_path + '{}.jpg'.format(i)

        img = Image.open(path).convert('L')
        x.append(img)

    with open(label_path, 'r') as f:
        for i in range(int(num)):
            label = f.readline()
            label = label.strip('\n')
            y.append(int(label))
    f.close()

    dataset = my_dataset(x, y, trans)
    return dataset


if __name__ == '__main__':
    batch_size, epochs = 128, 10
    transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
    my_device = get_device()

    path = './data'
    train_data_set, _ = get_data_loader(path, batch_size, transform, True)
    enhanced_train_data_set = load(transform, True, True, True)
    train_data_set = torch.utils.data.dataset.ConcatDataset([enhanced_train_data_set, train_data_set])
    print('Training data loaded.')

    train_data_loader = torch.utils.data.DataLoader(train_data_set, batch_size=batch_size, shuffle=True)
    show_part_of_image(train_data_loader, 3, 3)

    test_data_set, _ = get_data_loader(path, batch_size, transform)
    enhanced_test_data_set = load(transform, True, True, False)
    test_data_set = torch.utils.data.dataset.ConcatDataset([enhanced_test_data_set, test_data_set])
    print('Testing data loaded.')

    test_data_loader = torch.utils.data.DataLoader(test_data_set, batch_size=batch_size, shuffle=True)

    cnn = CNN()
    loss_func = nn.CrossEntropyLoss()
    optim = torch.optim.Adam(cnn.parameters(), lr=0.01)

    cnn = train(cnn, train_data_loader, my_device, epochs, loss_func, optim)
    test(cnn, test_data_loader, my_device, loss_func)

    show_part_of_test_result(cnn, test_data_loader, 5, 2)

    torch.save(cnn, './cnn2.pth')

5.4 训练结果

5.4.1 只进行像素反转

5.4.1.1 测试结果

其中一些超参数如下：

batch_size: 128
epochs: 10

模型在测试集上的准确率达到了 97.76%，从右侧的测试集采样结果来看，正确率也相对较高；

5.4.1.2 在自己的数据上测试

测试代码

import torch
# from test import CNN
import numpy as np
from PIL import Image
from torchvision import transforms
import torch.nn as nn
import matplotlib.pyplot as plt


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, input):
        output = self.conv1(input)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


model = torch.load('./cnn2.pth')
model.eval()

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
unloader = transforms.ToPILImage()

for k in range(10):
    infile = './testImgs/raw/' + '{}.jpg'.format(k)

    img = Image.open(infile)
    img = img.convert('L')
    img_array = np.array(img)

    img = Image.fromarray(img_array)
    # img.show()
    img = transform(img)
    img = torch.unsqueeze(img, 0)

    output = model(img)
    pred = torch.argmax(output, dim=1)

    image = torch.squeeze(img, 0)
    image = unloader(image)

    plt.subplot(5, 2, k + 1)
    plt.tight_layout()
    plt.imshow(image, cmap='gray', interpolation='none')
    plt.title("Number: {}, Prediction: {}".format(k, pred.item()))
    plt.xticks([])
    plt.yticks([])
plt.show()

测试结果

可以从右侧的结果中看出，准确率比较高（除了看起来比较讨厌的灰底？）；

5.4.2 只进行图像旋转

5.4.2.1 测试结果

用到的 batch_size, epochs 和上面的一样。
模型在测试集上的准确率达到了 93.54%，从右侧的测试集采样结果来看，正确率也相对较高；

5.4.2.2 在自己的数据上测试

测试代码

import torch
# from test import CNN
import numpy as np
from PIL import Image
from torchvision import transforms
import torch.nn as nn
import matplotlib.pyplot as plt


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, input):
        output = self.conv1(input)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


model = torch.load('./cnn2.pth')
model.eval()

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
unloader = transforms.ToPILImage()

for k in range(10):
    infile = './testImgs/raw/' + 'r{}.jpg'.format(k)

    img = Image.open(infile)
    img = img.convert('L')
    img_array = np.array(img)
	
	# 注意进行需要是黑底白字的图片
    for i in range(28):
        for j in range(28):
            img_array[i, j] = 255 - img_array[i, j]
    img = Image.fromarray(img_array)
    img = transform(img)
    img = torch.unsqueeze(img, 0)

    output = model(img)
    pred = torch.argmax(output, dim=1)

    image = torch.squeeze(img, 0)
    image = unloader(image)

    plt.subplot(5, 2, k + 1)
    plt.tight_layout()
    plt.imshow(image, cmap='gray', interpolation='none')
    plt.title("Number: {}, Prediction: {}".format(k, pred.item()))
    plt.xticks([])
    plt.yticks([])
plt.show()

测试结果

比较有趣的就是 9 旋转 180° 就变成 6 了hhh

5.4.3 二者同时进行

5.4.3.1 测试结果

用到的 batch_size, epochs 同样是 128 和 10；
模型在测试集上的准确率达到了 95.38%，从右侧的测试集采样结果来看，正确率也相对较高；

5.4.3.2 在自己的数据上测试

测试代码

import torch
# from test import CNN
import numpy as np
from PIL import Image
from torchvision import transforms
import torch.nn as nn
import matplotlib.pyplot as plt


class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv2 = nn.Sequential(
            nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )

        self.conv3 = nn.Sequential(
            nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(),
        )

        self.fullyConnected = nn.Sequential(
            nn.Flatten(),
            nn.Linear(in_features=7 * 7 * 64, out_features=128),
            nn.ReLU(),
            nn.Linear(in_features=128, out_features=10),
        )

    def forward(self, input):
        output = self.conv1(input)
        output = self.conv2(output)
        output = self.conv3(output)
        output = self.fullyConnected(output)
        return output


model = torch.load('./cnn2.pth')
model.eval()

transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize(mean=[0.1307], std=[0.3081])])
unloader = transforms.ToPILImage()

# 前 3 张图片是像素反转后的图片，后 3 张是未作处理的图片，最后 4 张二者同时进行的图片（注意像素反转是指将黑底白字转换为白底黑字）
for k in range(10):
    if k < 3:
        infile = './testImgs/raw/' + '{}.jpg'.format(k)

        img = Image.open(infile)
        img = img.convert('L')
        img_array = np.array(img)
    elif 3 <= k < 6:
        infile = './testImgs/raw/' + 'r{}.jpg'.format(k)

        img = Image.open(infile)
        img = img.convert('L')
        img_array = np.array(img)

        for i in range(28):
            for j in range(28):
                img_array[i, j] = 255 - img_array[i, j]
    else:
        infile = './testImgs/raw/' + 'r{}.jpg'.format(k)

        img = Image.open(infile)
        img = img.convert('L')
        img_array = np.array(img)

    img = Image.fromarray(img_array)
    img = transform(img)
    img = torch.unsqueeze(img, 0)
    output = model(img)
    pred = torch.argmax(output, dim=1)

    image = torch.squeeze(img, 0)
    image = unloader(image)

    plt.subplot(5, 2, k + 1)
    plt.tight_layout()
    plt.imshow(image, cmap='gray', interpolation='none')
    plt.title("Number: {}, Prediction: {}".format(k, pred.item()))
    plt.xticks([])
    plt.yticks([])
plt.show()

测试结果

5.5 结果整合

	原始数据	只进行像素反转	只进行图像旋转	二者同时进行
batch_size, epochs	64, 10	128, 10	128, 10	128, 10
accuracy	97.32%	97.76%	93.54%	95.38%

结语

这样的想法来源于在对 MNIST 手写数字识别进行基本实现并利用自己做的图进行进行测试的时候，开始由于没有认识到黑底白字和白底黑字的问题，因此模型测试结果很差；然后就是写的数字必须比较端正，否则测试结果也很差；
因此在学长的启发下对数据集进行了拓展，使之能够应用于更广的场景中；
另外，在这里我只进行了 90°, 180°, 270° 这三种旋转，如果有兴趣的话可以尝试更多不同角度的旋转；

你可能感兴趣的:(dl,pytorch,深度学习,python)

跨语言语义理解与生成：多语言预训练方法及一致性优化策略网罗开发 AI 大模型人工智能深度学习负载均衡
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
COMP212 CA Coordination and Leader Election 后端
DepartmentofComputerScienceCOMP212-2025-CAAssignment1CoordinationandLeaderElectionSimulatingandEvaluatingDistributedProtocolsinJavaAssessmentInformationAssignmentNumber1(of2)Weighting15%AssignmentCirc
Python 抽象基类 ABC ：从实践到优雅 python
今天我们来聊聊Python中的抽象基类（AbstractBaseClass，简称ABC）。虽然这个概念在Python中已经存在很久了，但在日常开发中，很多人可能用得并不多，或者用得不够优雅。让我们从一个实际场景开始：假设你正在开发一个文件处理系统，需要支持不同格式的文件读写，比如JSON、CSV、XML等。初始版本：简单但不够严谨我们先来看看最简单的实现方式：classFileHandler:de
Python 并发编程实战：优雅地使用 concurrent.futures python
在Python多线程编程中，concurrent.futures模块提供了一个高层的接口来异步执行可调用对象。今天，我们将通过一个循序渐进的案例，深入了解如何使用这个强大的工具。从一个模拟场景开始假设我们需要处理一批网络请求。为了模拟这个场景，我们使用sleep来代表耗时操作：importtimeimportrandomdefslow_operation(task_id):"""模拟一个耗时的网络
shutil 标准库： Python 文件操作的万用刀 python
今天来聊一个被低估的Python标准库-shutil。工作中我们用Python（尤其是写一些短小轻快的脚本）虽然经常和文件打交道，却很少用到shutil。但实际上，shutil提供了比os模块更高级的文件操作接口，能让我们写出更Pythonic的代码。从一个真实场景说起最近在整理项目代码时，需要将散落在各处的配置文件归类到统一目录。按以往的习惯，我会这样写：importos#创建目标目录ifnot
Python 自带的日期日历处理大师：calendar 库 python
在Python开发中，我们经常需要处理日期和时间。虽然datetime库是最常用的选择，但其实Python标准库中的calendar模块也是一个强大的工具，特别适合处理日历相关的计算和展示。从一个真实场景开始假设你正在开发一个会议室预订系统，需要：展示月度视图计算工作日处理节假日逻辑让我们看看如何用calendar来优雅地解决这些问题。基础用法：生成日历importcalendar#创建日历对象c
Python性能优化的幕后功臣： __pycache__与字节码缓存机制 python
在日常Python开发中，我们经常会看到项目目录下神秘的__pycache__文件夹和.pyc文件。作为经验丰富的Python开发者，今天让我们深入理解这个性能优化机制。从一个性能困扰说起最近在优化一个数据处理微服务时，发现每次启动服务都需要2-3秒的预热时间。通过profile可以发现大量时间花在了Python模块的加载上。Python的编译过程与大多数人的认知不同，Python并不是纯解释型语
Python Generator：一个被低估的性能利器 python
调用OpenAI的API时，设置stream=True，接着forchunkincompletion:我们就可以“流式”地获取响应的内容。而非等待远程的模型将所有内容生成完毕，再返回给我们（这通常要等很久）。本文讨论这背后的PythonGenerator。从一个经典问题开始假设我们要处理一个超大的日志文件，需要按行读取并分析。传统的做法是：defread_log_file(filename):re
Python `__slots__` 进阶指南：不止于节省内存，从原理到实践 python
相信不少Python开发者都听说过__slots__，知道它可以帮助节省内存。但你是否思考过它背后的原理，以及在实际开发中的其他妙用？让我们一起深入探讨。从一个性能问题说起假设你的一个系统需要处理大量的订单对象：classOrder:def__init__(self,order_id,symbol,price,quantity):self.order_id=order_idself.symbol=
Python 元类（Meta Class）：解密 Python 面向对象编程的幕后推手后端python
在Python编程中，我们每天都在和类打交道，但是你是否也和我一样想过：类本身是什么？是谁创建了类？元类（MetaClass）就是用来创建类的"类"。今天让我们一起深入理解这个强大而神秘的特性。从一个简单的类说起classPerson:def__init__(self,name):self.name=namedefgreet(self):returnf"Hello,I'm{self.name}"#
langchain系列（二）- 提示词模板以及消息码--到成功大语言模型 langchain
导读环境：OpenEuler、Windows11、WSL2、Python3.12.3langchain0.3背景：前期忙碌的开发阶段结束，需要沉淀自己的应用知识，过一遍LangChain时间：20250212说明：技术梳理提示词模板理论说明提示模板将用户输入和参数转换为语言模型的指令，以此来实现模型的响应，帮助它理解上下文并生成相关且连贯的基于语言的输出。其接受一个字典作为输入，其中每个键代表提示
langchain系列 - FewShotPromptTemplate 少量示例码--到成功大语言模型 langchain
导读环境：OpenEuler、Windows11、WSL2、Python3.12.3langchain0.3背景：前期忙碌的开发阶段结束，需要沉淀自己的应用知识，过一遍LangChain时间：20250220说明：技术梳理，针对FewShotPromptTemplate专门来写一篇博客概念说明few-shot最初来源于机器学习的概念，还有one-shot、zero-shot概念，概念如下：机器学习
nginx ngx_http_module(9) 指令详解 s_fox_ nginx nginx http 运维
nginxngx_http_module(9)指令详解nginx模块目录nginx全指令目录一、目录1.1模块简介ngx_http_uwsgi_module：uWSGI支持模块，允许Nginx与uWSGI服务器进行通信。uWSGI是一种应用服务器协议，广泛用于PythonWeb应用的部署。通过该模块，Nginx可以将动态请求转发给uWSGI服务器处理，并将响应返回给客户端。常用的指令包括uwsgi
sql注入之python脚本进行时间盲注和布尔盲注温柔小胖 sql 数据库网络安全
一、什么是时间盲注和布尔盲注？答：时间盲注是攻击者通过构造恶意sql语句利用sleep()等延迟函数来观察数据库响应时间差异来进行推断信息和条件判断。如果条件为真，数据库会执行延时操作，如果为假则立即返回。响应时间较短。SELECTIF(1=1,SLEEP(5),0);如果条件为真、数据库会暂停5s如果条件为假、数据库会立即返回布尔盲注通过观察数据库返回的不同响应（如真或假）来推断信息。攻击者构造
ST332 & ST409 Medical Statistics 后端
ST332&ST409MedicalStatistics:2024-2025Assignment[20%]Deadline:13:00Thursday13thMarch2025BackgroundColleaguesatUniversityofWarwickandUniversityHospitalsCoventry&Warwickshire(UHCW)NHSTrusthaveundertaken
Python中的生成器表达式（generator expression） Java资深爱好者 python python 开发语言
Python中的生成器表达式（generatorexpression）是一种类似于列表解析（listcomprehension）的语法结构，但它返回的是一个生成器（generator）对象，而不是一个完整的列表。生成器对象是一个迭代器，它可以逐个产生元素，而不是一次性生成所有元素，从而节省内存空间。生成器表达式在形式上与列表解析非常相似，但是它们使用圆括号()而不是方括号[]。当你迭代生成器表达式
Ollama部署大模型，本地调用居7然 android 人工智能 chatgpt 爬虫开发语言 AI编程
Ollama简单介绍Ollama是一个强大的大型语言模型平台，它允许用户轻松地下载、安装和运行各种大型语言模型。在本文中，我将指导你如何在你的本地机器上部署Ollama，并展示如何使用Python进行简单的API调用以访问这些模型最近很多人在学习大模型的时候，也遇到这个问题了，Ollama下载的模型，如果不想在命令行里面直接使用，而是想用Python去调用大模型该如何去使用？这是Ollama的官网
PyInstaller参数大揭秘：一文读懂打包神器的核心密码 Abossss Python python
一、引言在Python开发的广阔领域中，我们常常会面临这样一个问题：如何将自己精心编写的Python脚本，分享给那些没有Python环境的小伙伴，或者部署到生产环境中呢？这时候，PyInstaller库就如同一位救星，闪亮登场。PyInstaller是一个功能强大的跨平台打包工具，它可以将Python脚本及其所有依赖项，打包成一个独立的可执行文件。这意味着，无论目标系统是否安装了Python环境，
【网络安全】WebPack源码（前端源码）泄露 + jsmap文件还原秋说前端 web安全 webpack
前言webpack是一个JavaScript应用程序的静态资源打包器。它构建一个依赖关系图，其中包含应用程序需要的每个模块，然后将所有这些模块打包成一个或多个bundle。大部分Vue等项目应用会使用webpack进行打包，使用webpack打包应用程序会在网站js同目录下生成js.map文件。漏洞风险通过泄露的前端源代码可以查找各种信息，如隐蔽接口、API、加密算法、管理员邮箱、内部功能等等，或
【SpringBoot教程】SpringBoot 统一异常处理(附核心工具类-ErrorInfoBuilder) 撸代码的羊驼 springboot springboot
作者简介：大家好，我是撸代码的羊驼，前阿里巴巴架构师，现某互联网公司CTO联系v：sulny_ann（17362204968），加我进群，大家一起学习，一起进步，一起对抗互联网寒冬#序言此前，我们主要通过在控制层（Controller）中手动捕捉异常（TryCatch）和处理错误，在SpringBoot统一异常处理的做法主要有两种：一是基于注解ExceptionHandler，二是基于接口Erro
量化交易策略都有哪些？怎么运用？股票程序化交易接口 Python股票量化交易股票API接口量化交易量化交易策略均值回归动量策略风险控制股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>均值回归策略：寻找价格的回归点均值回归的原理均值回归策略是基于一种市场现象，即价格不会永远偏离其长期的平均值。从市场的历史数据来看，无论是股票、期货还是其他金融资产，价格总是围绕着一个均值上下波动。这就像一个有弹性的绳子，当价格被拉伸
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页杰九 vue.js spring boot java
【全栈】SprintBoot+vue3迷你商城-细节解析（2）：分页往期的文章都在这里啦，大家有兴趣可以看一下后端部分：【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue3
有需要2025年参加蓝桥杯比赛的同学往下看！！！岱宗夫up 教程蓝桥杯职场和发展
有需要2025年参加蓝桥杯比赛的同学往下下看！！！以下是关于近两年（2023年和2024年）蓝桥杯Python组考点的详细总结：一、2023年蓝桥杯Python考点分析在2023年的蓝桥杯Python竞赛中，考点主要集中在基础算法、数据结构、动态规划、数学、高精度计算以及二分查找等方面。（一）基础算法基础算法是竞赛的基石，包括枚举、排序（如冒泡排序、选择排序、插入排序等）、搜索（如BFS和DFS）
Ubuntu22 安装多个版本的python 莫忘初心丶 python 数据库开发语言
前言使用pyenv是一个很好的选择，尤其是在需要管理多个Python版本时。它提供了一个简单的方法来安装、切换和管理多个版本的Python，而不必依赖系统的包管理器或update-alternatives。特别是当你需要在同一系统中频繁切换Python版本时，pyenv会显得更加方便。目录前言为什么使用`pyenv`安装`pyenv`1.安装依赖2.安装`pyenv`3.配置shell环境4.安装
flutter gradle版本更新到8.9 Alex_z0897 flutter
文章未完成,待续gradle版本更新到8.9项目一些需要变更的位置gradle-wrapper.propertiesandroid/build.gradle两处变更gradle与插件版本对应关系android/app/build.gradle因为java版本更新到21.0.5，打开flutter项目时vscode提示需求更新gradle版本项目一些需要变更的位置gradle-wrapper.pro
python的继承 zhangbeizhen18 L01-基础
记录：备忘录。1.继承classPerson(object):def__init__(self,p_name,p_addr,p_age):self.name=p_nameself.addr=p_addrself.age=p_ageclassGirl(Person):def__init__(self,g_name,g_addr,g_age,g_bra_cup):Person.__init__(sel
Java集合类归纳+思维导图 web2u Java 基础 java 开发语言
Java集合框架主要分为两大类：Collection接口和Map接口。Collection接口（存储对象）分为三大类：Set：HashSetLinkedHashSet（基于链表和哈希表）TreeSetQueue：PriorityQueue（基于优先级，元素按自然排序或指定比较器排序）LinkedList（作为队列使用）List：ArrayListLinkedListVectorMap接口（存储键值
【MySQL】表空间丢失处理（Tablespace is missing for table 错误处理） m0_74824823 面试学习路线阿里巴巴 mysql 数据库
问题背景最近，我在运行一个基于Python爬虫的项目时，爬虫需要频繁与MySQL数据库交互。不幸的是，在数据爬取过程中，Windows系统突然强制更新并重启。这次意外中断导致MySQL数据库的三个表格（2022年、2023年和2024年的数据表）出现了“Tablespaceismissing”的错误。起初，我尝试了常规的CHECKTABLE和REPAIRTABLE方法，但这些都没有解决问题。最终，
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号