古路

ch02-PyTorch数据预处理

- 0.引言
- 1.数据读取机制 Dataloader 与 Dataset
- - 1.1.纸币二分类
  - 1.2.DataSet与DataLoader
  - - 1.2.1.torch.utils.data.DataLoader：构建可迭代的数据装载器
    - 1.2.2.torch.utils.data.Dataset：Dataset抽象类
    - 1.2.3.以人民币分类为例
- 2.数据预处理 transforms 模块机制
- - 2.1.transforms 的运行机制
  - - 2.1.1.transforms： torchvision.transforms : 常用的图像预处理方法
    - 2.1.2.例子：人民币二分类中的 transforms
    - 2.1.3.PyTorch 中的数据预处理流程图
  - 2.2.数据标准化：transforms.Normalize:加速运算
- 3.transforms图像增强（一）裁剪、翻转及旋转
- - 3.1.数据增强
  - 3.2. transforms--Crop 裁剪
  - 3.3. transforms--翻转、旋转
  - - 3.3.1 transforms 翻转
    - 3.3.2 transforms 旋转
  - 3.4. 总结
- 4.transforms图像增强（二）图像变换、方法操作及自定义方法
- - 4.1. transforms 图像变换
  - 4.2. transforms 选择操作
  - 4.3. 自定义 transforms
- 5.transforms 方法总结
- 6.数据增强实战应用

0.引言

1.数据读取机制 Dataloader 与 Dataset

1.1.纸币二分类

图自

任务：训练一个分类模型，使得其能够对第四套人民币中的 1 元和 100 元面额的纸币进行分类。

回顾一下上节课中学习的机器学习的 5 个步骤：

其中，数据模块又可以分为以下子模块：

1.2.DataSet与DataLoader

1.2.1.torch.utils.data.DataLoader：构建可迭代的数据装载器

DataLoader(
    dataset,
    batch_size=1,
    shuffle=False,
    sampler=None,
    batch_sampler=None,
    num_workers=0,
    collate_fn=None,
    pin_memory=False,
    drop_last=False,
    timeout=0,
    worker_init_fn=None,
    multiprocessing_context=None
)

主要参数：

dataset: Dataset类，决定数据从哪读取及如何读取
batchsize : 批大小
num_works: 是否多进程读取数据
shuffle: 每个epoch是否乱序
drop_last:当样本数不能被batchsize整除时，是否舍弃最后一批数据相关

1.2.2.torch.utils.data.Dataset：Dataset抽象类

torch.utils.data.Dataset：Dataset抽象类，所有自定义的 Dataset需要继承它，并重写 __ getitem __() 方法

class Dataset(object):

    def __getitem__(self, index):
        raise NotImplementedError

    def __add__(self, other):
        return ConcatDataset([self, other])

主要参数：

getitem：接收一个索引，返回一个样本。
功能：Dataset 是抽象类，所有自定义的 Dataset 都需要继承该类，并且重写__getitem()__方法和__len__()方法。__getitem()__方法的作用是接收一个索引，返回索引对应的样本和标签，这是我们自己需要实现的逻辑。__len__()方法是返回所有样本的数量。

数据读取包含 3 个方面:

读取哪些数据：每个 Iteration 读取一个 Batchsize 大小的数据，每个 Iteration 应该读取哪些数据。
从哪里读取数据：如何找到硬盘中的数据，应该在哪里设置文件路径参数
如何读取数据：不同的文件需要使用不同的读取方法和库。

1.2.3.以人民币分类为例

这里的路径结构如下，有两类人民币图片：1 元和 100 元，每一类各有 100 张图片。

RMB_data
- 1
- 100

首先划分数据集为训练集、验证集和测试集，比例为 8:1:1。数据划分好后的路径构造如下：

rmb_split
- train
  - 1
  - 100
- valid
  - 1
  - 100
- test
  - 1
  - 100

实现读取数据的 Dataset，编写一个get_img_info()方法，读取每一个图片的路径和对应的标签，组成一个元组，再把所有的元组作为 list 存放到self.data_info变量中，这里需要注意的是标签需要映射到 0 开始的整数: rmb_label = {“1”: 0, “100”: 1}。

def get_img_info(data_dir):
    data_info = list()
    # data_dir 是训练集、验证集或者测试集的路径
    for root, dirs, _ in os.walk(data_dir):
        # 遍历类别
        # dirs ['1', '100']
        for sub_dir in dirs:
            # 文件列表
            img_names = os.listdir(os.path.join(root, sub_dir))
            # 取出 jpg 结尾的文件
            img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))
            # 遍历图片
            for i in range(len(img_names)):
                img_name = img_names[i]
                # 图片的绝对路径
                path_img = os.path.join(root, sub_dir, img_name)
                # 标签，这里需要映射为 0、1 两个类别
                label = rmb_label[sub_dir]
                # 保存在 data_info 变量中
                data_info.append((path_img, int(label)))
    return data_info

然后在Dataset 的初始化函数中调用get_img_info()方法（这里就回答了 2.从哪里读）。

def __init__(self, data_dir, transform=None):
    """
    rmb面额分类任务的Dataset
    :param data_dir: str, 数据集所在路径
    :param transform: torch.transform，数据预处理
    """
    # data_info存储所有图片路径和标签，在DataLoader中通过index读取样本
    self.data_info = self.get_img_info(data_dir)
    self.transform = transform

然后在__getitem__()方法中根据index 读取self.data_info中路径对应的数据，并在这里做 transform 操作，返回的是样本和标签。

def __getitem__(self, index):
    # 通过 index 读取样本
    path_img, label = self.data_info[index]
    # 注意这里需要 convert('RGB')
    img = Image.open(path_img).convert('RGB')     # 0~255
    if self.transform is not None:
        img = self.transform(img)   # 在这里做transform，转为tensor等等
    # 返回是样本和标签
    return img, label

在__len__()方法中返回self.data_info的长度，即为所有样本的数量。

    # 返回所有样本的数量
    def __len__(self):
        return len(self.data_info)

在train_lenet.py中，分 5 步构建模型。

第 1 步设置数据。首先定义训练集、验证集、测试集的路径，定义训练集和测试集的 transforms。然后构建训练集和验证集的 RMBDataset对象，把对应的路径和transforms传进去。再构建DataLoder，设置 batch_size，其中训练集设置shuffle=True，表示每个 Epoch 都打乱样本。

# 构建MyDataset实例
train_data = RMBDataset(data_dir=train_dir, transform=train_transform)
valid_data = RMBDataset(data_dir=valid_dir, transform=valid_transform)

# 构建DataLoder
# 其中训练集设置 shuffle=True，表示每个 Epoch 都打乱样本
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)

第 2 步构建模型，这里采用经典的 Lenet 图片分类网络。

net = LeNet(classes=2)
net.initialize_weights()

第 3 步设置损失函数，这里使用交叉熵损失函数。

criterion = nn.CrossEntropyLoss()

第 4 步设置优化器。这里采用 SGD 优化器。

optimizer = optim.SGD(net.parameters(), lr=LR, momentum=0.9)                        # 选择优化器
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.1)     # 设置学习率下降策略

第 5 步迭代训练模型，在每一个 epoch 里面，需要遍历 train_loader 取出数据，每次取得数据是一个 batchsize 大小。这里又分为 4 步。第 1 步进行前向传播，第 2 步进行反向传播求导，第 3 步使用optimizer更新权重，第 4 步统计训练情况。每一个 epoch 完成时都需要使用scheduler更新学习率，和计算验证集的准确率、loss。

for epoch in range(MAX_EPOCH):

    loss_mean = 0.
    correct = 0.
    total = 0.

    net.train()
    # 遍历 train_loader 取数据
    for i, data in enumerate(train_loader):

        # forward
        inputs, labels = data
        outputs = net(inputs)

        # backward
        optimizer.zero_grad()
        loss = criterion(outputs, labels)
        loss.backward()

        # update weights
        optimizer.step()

        # 统计分类情况
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).squeeze().sum().numpy()

        # 打印训练信息
        loss_mean += loss.item()
        train_curve.append(loss.item())
        if (i+1) % log_interval == 0:
            loss_mean = loss_mean / log_interval
            print("Training:Epoch[{:0>3}/{:0>3}] Iteration[{:0>3}/{:0>3}] Loss: {:.4f} Acc:{:.2%}".format(
                epoch, MAX_EPOCH, i+1, len(train_loader), loss_mean, correct / total))
            loss_mean = 0.

    scheduler.step()  # 更新学习率
    # 每个 epoch 计算验证集得准确率和loss
    ...
    ...

我们可以看到每个 iteration，我们是从train_loader中取出数据的。

def __iter__(self):
    if self.num_workers == 0:
        return _SingleProcessDataLoaderIter(self)
    else:
        return _MultiProcessingDataLoaderIter(self)

这里我们没有设置多进程，会执行_SingleProcessDataLoaderIter的方法。我们以_SingleProcessDataLoaderIter为例。在_SingleProcessDataLoaderIter里只有一个方法_next_data()，如下：

def _next_data(self):
    index = self._next_index()  # may raise StopIteration
    data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
    if self._pin_memory:
        data = _utils.pin_memory.pin_memory(data)
    return data

在该方法中，self._next_index()是获取一个 batchsize 大小的 index 列表(这里就回答了 1.读取那些数据)，代码如下：

def _next_index(self):
    return next(self._sampler_iter)  # may raise StopIteration

其中调用的sampler类的__iter__()方法返回 batch_size 大小的随机 index 列表。

def __iter__(self):
    batch = []
    for idx in self.sampler:
        batch.append(idx)
        if len(batch) == self.batch_size:
            yield batch
            batch = []
    if len(batch) > 0 and not self.drop_last:
        yield batch

然后再返回看 dataloader的_next_data()方法：

def _next_data(self):
    index = self._next_index()  # may raise StopIteration
    data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
    if self._pin_memory:
        data = _utils.pin_memory.pin_memory(data)
    return data

在第二行中调用了self._dataset_fetcher.fetch(index)获取数据。这里会调用_MapDatasetFetcher中的fetch()函数：

def fetch(self, possibly_batched_index):
    if self.auto_collation:
        data = [self.dataset[idx] for idx in possibly_batched_index]
    else:
        data = self.dataset[possibly_batched_index]
    return self.collate_fn(data)

这里调用了self.dataset[idx]，这个函数会调用dataset.__getitem__()方法获取具体的数据，所以__getitem__()方法是我们必须实现的（这里就回答了 2.怎么读）。我们拿到的data是一个 list，每个元素是一个 tunple，每个 tunple 包括样本和标签。所以最后要使用self.collate_fn(data)把 data 转换为两个 list，第一个元素是样本的batch 形式，形状为 [16, 3, 32, 32] (16 是 batch size，[3, 32, 32] 是图片像素)；第二个元素是标签的 batch 形式，形状为 [16]。

所以在代码中，我们使用inputs, labels = data来接收数据。

完整代码：

将数据集划分为训练集、验证集和测试集：

import os
import random
import shutil


def makedir(new_dir):
    if not os.path.exists(new_dir):
        os.makedirs(new_dir)


if __name__ == '__main__':

    random.seed(1)

    # 人民币图片数据所在目录："../../data/RMB_data"
    dataset_dir = os.path.join("..", "..", "data", "RMB_data")
    # 划分数据集所在目录："../../data/rmb_split"
    split_dir = os.path.join("..", "..", "data", "rmb_split")
    # 训练集目录："../../data/rmb_split/train"  
    train_dir = os.path.join(split_dir, "train")
    # 验证集目录："../../data/rmb_split/valid"  
    valid_dir = os.path.join(split_dir, "valid")
    # 测试集目录："../../data/rmb_split/test"  
    test_dir = os.path.join(split_dir, "test")  

    train_pct = 0.8
    valid_pct = 0.1
    test_pct = 0.1

    for root, dirs, files in os.walk(dataset_dir):
        # os.walk() 方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下，
        # 返回一个三元元组 (root, dirs, files)：
        #   root：当前正在遍历的这个文件夹的本身的地址，这里为
        #         "/Users/andy/PycharmProjects/hello_pytorch/data/RMB_data"
        #   dirs：是一个 list ，内容是该文件夹中所有的目录的名字(不包括子目录)，这里为 ["1", "100"]
        #   files：同样是 list , 内容是该文件夹中所有的文件(不包括子目录)，这里为 []

        for sub_dir in dirs:
            # os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表

            # 这里返回的是目录 "1" 或 "100" 下的文件或文件夹名字的列表
            imgs = os.listdir(os.path.join(root, sub_dir))

            # 仅保留列表中文件名后缀为 '.jpg' 的元素，即图片数据
            imgs = list(filter(lambda x: x.endswith('.jpg'), imgs))
  
            random.shuffle(imgs)
            img_count = len(imgs)

            train_point = int(img_count * train_pct)
            valid_point = int(img_count * (train_pct + valid_pct))

            for i in range(img_count):
                if i < train_point:
                    out_dir = os.path.join(train_dir, sub_dir)
                elif i < valid_point:
                    out_dir = os.path.join(valid_dir, sub_dir)
                else:
                    out_dir = os.path.join(test_dir, sub_dir)

                makedir(out_dir)

                target_path = os.path.join(out_dir, imgs[i])
                src_path = os.path.join(dataset_dir, sub_dir, imgs[i])

                # 拷贝文件和权限，这里表示将原始数据集中的图片文件拷贝到目标路径文件名下
                shutil.copy(src_path, target_path)  

            print('Class: {}, train: {}, valid :{}, test: {}'.format(sub_dir, \
            train_point, valid_point-train_point, img_count-valid_point))

输出结果：

Class: 1, train: 80, valid :10, test: 10
Class: 100, train: 80, valid :10, test: 10

数据读取：

import os
import random
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
import torch.optim as optim
from matplotlib import pyplot as plt
from model.lenet import LeNet
from tools.my_dataset import RMBDataset


def set_seed(seed=1):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)


set_seed()  # 设置随机种子
rmb_label = {"1": 0, "100": 1}

# 参数设置
MAX_EPOCH = 10
BATCH_SIZE = 16
LR = 0.01
log_interval = 10
val_interval = 1

# ========================= step 1/5 数据 ===============================
split_dir = os.path.join("..", "..", "data", "rmb_split")
train_dir = os.path.join(split_dir, "train")
valid_dir = os.path.join(split_dir, "valid")

norm_mean = [0.485, 0.456, 0.406]
norm_std = [0.229, 0.224, 0.225]

train_transform = transforms.Compose([
    # 将图像缩放到 32*32 大小
    transforms.Resize((32, 32)),
    # 对图像进行随机裁剪（数据增强）
    transforms.RandomCrop(32, padding=4),
    # 将图片转成张量形式，并进行归一化操作，把像素值区间从 0~255 归一化到 0~1
    transforms.ToTensor(),
    # 数据标准化，均值为 0，标准差为 1：output = (input - mean) / std
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

# 构建 MyDataset 实例
train_data = RMBDataset(data_dir=train_dir, transform=train_transform)
valid_data = RMBDataset(data_dir=valid_dir, transform=valid_transform)

# 构建 DataLoader
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)

RMBDataset 类实现：

import os
import random
from PIL import Image
from torch.utils.data import Dataset

random.seed(1)
rmb_label = {"1": 0, "100": 1}


class RMBDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        """
        rmb 面额分类任务的 Dataset
        :param data_dir: str, 数据集所在路径
        :param transform: torch.transform, 数据预处理
        """
        self.label_name = {"1": 0, "100": 1}
        self.data_info = self.get_img_info(data_dir)  # data_info 存储所有t图片路径和标签，在 DataLoader 中通过 index 读取样本
        self.transform = transform

    def __getitem__(self, index):
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')   # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做 transform，转为 tensor 等等

        return img, label

    def __len__(self):
        return len(self.data_info)

    @staticmethod
    def get_img_info(data_dir):
        data_info = list()
        for root, dirs, _ in os.walk(data_dir):
            # 遍历类别
            for sub_dir in dirs:
                img_names = os.listdir(os.path.join(root, sub_dir))
                img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

                # 遍历图片
                for i in range(len(img_names)):
                    img_name = img_names[i]
                    path_img = os.path.join(root, sub_dir, img_name)
                    label = rmb_label[sub_dir]
                    data_info.append((path_img, int(label)))

        return data_info

PyTorch 数据读取流程图

首先在 for 循环中遍历DataLoader，然后根据是否采用多进程，决定使用单进程或者多进程的DataLoaderIter。在DataLoaderIter里调用Sampler生成Index的 list，再调用DatasetFetcher根据index获取数据。在DatasetFetcher里会调用Dataset的__getitem__()方法获取真正的数据。这里获取的数据是一个 list，其中每个元素是 (img, label) 的元组，再使用 collate_fn()函数整理成一个 list，里面包含两个元素，分别是 img 和 label 的tenser。

2.数据预处理 transforms 模块机制

本小结主要学习 PyTorch 中的图像预处理模块 —— transforms 的运行机制，以及常用的数据标准化方法 transforms.Normalize

2.1.transforms 的运行机制

torchvision：计算机视觉工具包
- torchvision.transforms : 常用的图像预处理方法 --> 本节内容
- torchvision.datasets : 常用数据集的dataset实现，MNIST，CIFAR-10，ImageNet等
- torchvision.model : 常用的模型预训练，AlexNet，VGG， ResNet，GoogLeNet等

2.1.1.transforms： torchvision.transforms : 常用的图像预处理方法

数据中心化
数据标准化
缩放
裁剪
旋转
翻转
填充
噪声添加
灰度变换
线性变换
仿射变换
亮度、饱和度及对比度变换

我们知道，深度学习是由数据驱动的，而数据的数量和分布对于模型的优劣具有决定性作用，所以我们需要对数据进行一定的预处理以及数据增强，用于提升模型的泛化能力。

上面的 64 张图片都来源于 1 张原始图片，它们是由原始图片经过一系列的缩放、裁剪、平移、变换等操作的组合生成的。如前所述，我们进行图片增强的原因是为了提升模型的泛化能力：如果我们在数据增强的过程中生成了一些与测试样本很相似的图片，那么模型的泛化能力自然将会得到提升。

2.1.2.例子：人民币二分类中的 transforms

当我们需要多个transforms操作时，需要作为一个list放在transforms.Compose中。需要注意的是transforms.ToTensor()是把图片转换为张量，同时进行归一化操作，把每个通道 0~255 的值归一化为 0~1。在验证集的数据增强中，不再需要transforms.RandomCrop()操作。然后把这两个transform操作作为参数传给Dataset，在Dataset的__getitem__()方法中做图像增强。

import os
import random
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
import torch.optim as optim
from matplotlib import pyplot as plt
from model.lenet import LeNet
from tools.my_dataset import RMBDataset


def set_seed(seed=1):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)


set_seed()  # 设置随机种子
rmb_label = {"1": 0, "100": 1}

# 参数设置
MAX_EPOCH = 10
BATCH_SIZE = 16
LR = 0.01
log_interval = 10
val_interval = 1

# ========================= step 1/5 数据 ===============================
split_dir = os.path.join("..", "..", "data", "rmb_split")
train_dir = os.path.join(split_dir, "train")
valid_dir = os.path.join(split_dir, "valid")

norm_mean = [0.485, 0.456, 0.406]
norm_std = [0.229, 0.224, 0.225]

# Compose 会将一系列的 transforms 操作进行组合包装，按顺序执行
train_transform = transforms.Compose([
    # 将图像缩放到 32*32 大小
    transforms.Resize((32, 32)),
    # 对图像进行随机裁剪（数据增强）
    transforms.RandomCrop(32, padding=4),
    # 将图片转成张量形式，并进行归一化操作，把像素值区间从 [0, 255] 归一化到 [0, 1]
    transforms.ToTensor(),
    # 数据标准化，均值为 0，标准差为 1：output = (input - mean) / std
    transforms.Normalize(norm_mean, norm_std),
])

# 注意：测试数据不需要进行数据增强
valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

# 构建 MyDataset 实例
train_data = RMBDataset(data_dir=train_dir, transform=train_transform)
valid_data = RMBDataset(data_dir=valid_dir, transform=valid_transform)

# 构建 DataLoader
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)

2.1.3.PyTorch 中的数据预处理流程图

回顾：

当我们需要多个transforms操作时，需要作为一个list放在transforms.Compose中。需要注意的是transforms.ToTensor()是把图片转换为张量，同时进行归一化操作，把每个通道 0~255 的值归一化为 0~1。在验证集的数据增强中，不再需要transforms.RandomCrop()操作。然后把这两个transform操作作为参数传给Dataset，在Dataset的__getitem__()方法中做图像增强。

def __getitem__(self, index):
    # 通过 index 读取样本
    path_img, label = self.data_info[index]
    # 注意这里需要 convert('RGB')
    img = Image.open(path_img).convert('RGB')     # 0~255
    if self.transform is not None:
        img = self.transform(img)   # 在这里做transform，转为tensor等等
    # 返回是样本和标签
    return img, label

其中self.transform(img)会调用Compose的__call__()函数：

def __call__(self, img):
    for t in self.transforms:
        img = t(img)
    return img

可以看到，这里是遍历transforms中的函数，按顺序应用到 img 中。

2.2.数据标准化：transforms.Normalize:加速运算

transforms.Normalize(
    mean,
    std,
    inplace=False
)

功能:逐channel的对图像进行标准化 output = (input - mean) / std

mean:各通道的均值
std:各通道的标准差
inplace:是否原地操作

train_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

该方法调用的是F.normalize(tensor, self.mean, self.std, self.inplace)

而`F.normalize()方法如下：

def normalize(tensor, mean, std, inplace=False):
    if not _is_tensor_image(tensor):
        raise TypeError('tensor is not a torch image.')

    if not inplace:
        tensor = tensor.clone()

    dtype = tensor.dtype
    mean = torch.as_tensor(mean, dtype=dtype, device=tensor.device)
    std = torch.as_tensor(std, dtype=dtype, device=tensor.device)
    tensor.sub_(mean[:, None, None]).div_(std[:, None, None])
    return tensor

首先判断是否为 tensor，如果不是 tensor 则抛出异常。然后根据inplace是否为 true 进行 clone，接着把mean 和 std 都转换为tensor (原本是 list)，最后减去均值除以方差：tensor.sub_(mean[:, None, None]).div_(std[:, None, None])

对数据进行均值为 0，标准差为 1 的标准化，可以加快模型的收敛。

在逻辑回归的实验中，我们的数据生成代码如下：

sample_nums = 100
mean_value = 1.7
bias = 1
n_data = torch.ones(sample_nums, 2)
# 使用正态分布随机生成样本，均值为张量，方差为标量
x0 = torch.normal(mean_value * n_data, 1) + bias      # 类别0 数据 shape=(100, 2)
# 生成对应标签
y0 = torch.zeros(sample_nums)                         # 类别0 标签 shape=(100, 1)
# 使用正态分布随机生成样本，均值为张量，方差为标量
x1 = torch.normal(-mean_value * n_data, 1) + bias     # 类别1 数据 shape=(100, 2)
# 生成对应标签
y1 = torch.ones(sample_nums)                          # 类别1 标签 shape=(100, 1)
train_x = torch.cat((x0, x1), 0)
train_y = torch.cat((y0, y1), 0)

生成的数据均值是mean_value+bias=1.7+1=2.7，比较靠近 0 均值。模型在 380 次迭代时，准确率就超过了 99.5%。

如果我们把 bias 修改为 5。那么数据的均值变成了 6.7，偏离 0 均值较远，这时模型训练需要更多次才能收敛 (准确率达到 99.5%)。

为什么要对数据进行标准化？

数据标准化可以加快模型的收敛过程：因为模型初始化通常是零均值的，所以通过标准化，模型可以在初始位置附近找到最优分界平面。

本节介绍了数据的预处理模块 transforms 的运行机制，数据在读取之后通常都需要进行预处理，包括尺寸缩放、转换张量、数据中心化或标准化等等，这些操作都是通过 transforms 进行的，所以这里我们重点学习了 transforms 的运行机制，并介绍了数据标准化 (Normalize) 的使用原理。

3.transforms图像增强（一）裁剪、翻转及旋转

在之前，我们已经熟悉了 PyTorch 中 transforms 的运行机制，它提供了大量的图像增强方法，例如裁剪、旋转、翻转等等，以及可以自定义实现增强方法。本节课中，我们将进一步学习 transforms 中的图像增强方法。

3.1.数据增强

数据增强 (Data Augmentation) 又称为数据增广、数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。

例子：

3.2. transforms–Crop 裁剪

（1） transforms.CenterCrop ：功能：从图像中心裁剪图片。

transforms.CenterCrop(size)

主要参数：size：所需裁剪图片尺寸。
代码示例：我们有一个 224 * 224 的图片，我们将其从中心裁剪为 196 * 196 的图片。

train_transform = transforms.Compose([
    transforms.Resize((224, 224)),

    # CenterCrop，如果 size 大于原始尺寸，多余部分将用黑色 (即像素值为 0) 填充
    transforms.CenterCrop(196)
])

（2） transforms.RandomCrop 功能：从图片中随机裁剪出尺寸为 size 的图片。

transforms.RandomCrop(
    size,
    padding=None,
    pad_if_needed=False,
    fill=0,
    padding_mode='constant'
)

主要参数：

size：所需裁剪图片尺寸。
padding：设置填充大小。
- 当为 a 时，上下左右均填充 a 个像素。
- 当为 (a, b) 时，上下填充 b 个像素，左右填充 a 个像素。
- 当为 (a, b, c, d) 时，左、上、右、下分别填充 a、b、c、d 个像素。
pad_if_need：若图像小于设定 size，则填充，此时该项需要设置为 True。
padding_mode：填充模式，有 4 种模式：
- constant：像素值由 fill 设定。
- edge：像素值由图像边缘像素决定。
- reflect：镜像填充，最后一个像素不镜像，例如 [1, 2, 3, 4] --> [3, 2, 1, 2, 3, 4, 3, 2]。
- symmetric：镜像填充，最后一个像素镜像，例如 [1, 2, 3, 4] --> [2, 1, 1, 2, 3, 4, 4, 3]。
fill：padding_mode = ‘constant’ 时，设置填充的像素值。

（3） transforms.RandomResizedCrop: 功能：随机大小、长宽比裁剪图片。

RandomResizedCrop(
    size,
    scale=(0.08, 1.0),
    ratio=(3/4, 4/3),
    interpolation
)

主要参数：
size：所需裁剪图片尺寸。
scale：随机裁剪面积比例，默认 (0.08, 1)。
ratio：随机长宽比，默认 (3/4, 4/3)。
interpolation：插值方法。
- PIL.Image.NEAREST
- PIL.Image.BILINEAR
- PIL.Image.BICUBIC

（4） transforms.FiveCrop:功能：在图像的上下左右以及中心裁剪出尺寸为 size 的 5 张图片。

transforms.FiveCrop(size)

主要参数：size：所需裁剪图片尺寸。

代码示例：

train_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    # 注意：由于生成了 5 张图片，返回的是一个元组，我们需要将其转换为 PIL Image 或者 ndarray 的形式。
    transforms.FiveCrop(112),
    transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops]))
])

（5） transforms.TenCrop
功能：在图像的上下左右以及中心裁剪出尺寸为 size 的 5 张图片，并对这 5 张图片进行水平或者垂直镜像获得 10 张图片。

transforms.TenCrop(
    size,
    vertical_flip=False
)

主要参数：
- size：所需裁剪图片尺寸。
- vertical_flip：是否垂直翻转。

代码示例：

train_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    # 注意：由于生成了 10 张图片，返回的是一个元组，我们需要将其转换为 PIL Image 或者 ndarray 的形式。
    transforms.TenCrop(112, vertical_flip=False),
    transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),
])

3.3. transforms–翻转、旋转

3.3.1 transforms 翻转

（1） transforms.RandomHorizontalFlip

功能：依概率水平（左右）翻转图片。
```
transforms.RandomHorizontalFlip(p=0.5)
```
主要参数：p：翻转概率。

（2） transforms.RandomVerticalFlip

功能：依概率垂直（上下）翻转图片。

transforms.RandomVerticalFlip(p=0.5)

主要参数：p：翻转概率。

3.3.2 transforms 旋转

（1） transforms.RandomRotation

功能：随机旋转图片。

RandomRotation(
    degrees,
    resample=False,
    expand=False,
    center=None
)

主要参数：
- degrees：旋转角度。
  - 当为 a 时，在 (-a, a) 之间随机选择旋转角度。
  - 当为 (a, b) 时，在 (a, b) 之间随机选择旋转角度。
- resample：重采样方法。
- expand：是否扩大图片，以保持原图信息。
- center：旋转点设置，默认中心旋转。

例子：

3.4. 总结

本节课中，我们学习了数据预处理模块 transforms 中的数据增强方法：裁剪、翻转和旋转。在下次课程中，我们将会学习 transforms 中的其他数据增强方法。

4.transforms图像增强（二）图像变换、方法操作及自定义方法

transforms 图像变换、方法操作及自定义方法
上节中，我们学习了 transforms 中的裁剪、旋转和翻转，本节我们将继续学习 transforms 中的其他数据增强方法。

4.1. transforms 图像变换

（1）transforms.Pad

功能：对图片边缘进行填充。

transforms.Pad(
    padding,
    fill=0,
    padding_mode='constant'
)

主要参数：
padding：设置填充大小。
- 当为 a 时，上下左右均填充 a 个像素。
- 当为 (a, b) 时，上下填充 b 个像素，左右填充 a 个像素。
- 当为 (a, b, c, d) 时，左、上、右、下分别填充 a、b、c、d 个像素。
padding_mode：填充模式，有 4 种模式：
- constant
- edge
- reflect
- symmetric
fill：当 padding_mode=‘constant’ 时，设置填充的像素值，(R, G, B) 或 (Gray)。

（2）transforms.ColorJitter

功能：调整亮度、对比度、饱和度和色相。

transforms.ColorJitter(
    brightness=0,
    contrast=0,
    saturation=0,
    hue=0
)

主要参数：
brightness：亮度调整因子。
- 当为 a 时，从 [max(0, 1-a), 1+a] 中随机选择。
- 当为 (a, b) 时，从 [a, b] 中随机选择。
contrast ：对比度参数，同 brightness。
saturation：饱和度参数，同 brightness。
hue：色相参数。
- 当为 a 时，从 [-a, a] 中选择参数。注：0 <= a <= 0.5。
- 当为 (a, b) 时，从 [a, b] 中选择参数。注：-0.5 <= a <= b <= 0.5。

（3）transforms.Grayscale

功能：将图片转换为灰度图。

transforms.Grayscale(num_output_channels)

主要参数：num_ouput_channels：输出通道数，只能设为 1 或 3。

（3）transforms.RandomGrayscale

功能：依概率将图片转换为灰度图。

transforms.RandomGrayscale(
    num_output_channels,
    p=0.1
)

主要参数：
num_ouput_channels：输出通道数，只能设为 1 或 3。
p：概率值，图像被转换为灰度图的概率。

（4）transforms.RandomAffine
功能：对图像进行仿射变换，仿射变换是二维的线性变换，由五种基本原子变换构成：旋转、平移、缩放、错切和翻转。

transforms.RandomAffine(
    degrees,
    translate=None,
    scale=None,
    shear=None,
    resample=False,
    fillcolor=0
)

主要参数：
degrees：旋转角度设置。
translate：平移区间设置，如 (a, b), a 设置宽 (width)，b 设置高 (height)。图像在宽维度平移的区间为 -img_width * a < dx < img_width * a。
scale：缩放比例 (以面积为单位)。
fill_color：填充颜色设置。
shear：错切角度设置，有水平错切和垂直错切。
- 若为 a，则仅在 x 轴错切，错切角度在 (-a, a) 之间。
- 若为 (a, b)，则 a 设置 x 轴角度，b 设置 y 轴角度。
- 若为 (a, b, c, d)，则 a、b 设置 x 轴角度，c、d 设置 y 轴角度。
resample：重采样方式，有 NEAREST、BILINEAR、BICUBIC 三种。

（5）transforms.RandomErasing

功能：对图像进行随机遮挡。

transforms.RandomErasing(
    p=0.5,
    scale=(0.02, 0.33),
    ratio=(0.3, 3,3),
    value=0,
    inplace=False
)

主要参数：
p：概率值，执行该操作的概率。
scale：遮挡区域的面积。
ratio：遮挡区域长宽比。
value：设置遮挡区域的像素值，(R, G, B) 或者 (Gray)。
参考文献：Random Erasing Data Augmentation

（6）transforms.Lambda

功能：用户自定义 lambda 方法。

transforms.Lambda(lambd)

主要参数：lambd：lambda 匿名函数，lambda [arg1 [,arg2, … , argn]]: expression。
代码示例：

transforms.TenCrop(200, vertical_flip=True),
transforms.Lambda(lambda crops: torch.stack([transforms.Totensor()(crop) for crop in crops]))

4.2. transforms 选择操作

我们已经学习了 transforms 中对图像的各种增强方法，下面我们将介绍对 transforms 方法的三种选择操作，它们可以使 transforms 数据增强方法更加灵活、丰富、多样。

（1）transforms.RandomChoice

功能：从一系列 transforms 方法中随机挑选一个。

transforms.RandomChoice([transforms1, transforms2, transforms3])

（2）transforms.RandomApply

功能：依据概率执行一组 transforms 操作。

transforms.RandomApply([transforms1, transforms2, transforms3], p=0.5)

（3）transforms.RandomOrder

功能：对一组 transforms 操作打乱顺序。

transforms.RandomOrder([transforms1, transforms2, transforms3])

4.3. 自定义 transforms

尽管 PyTorch 提供了许多 transforms 方法，然而在实际应用中，可能还需要根据项目需求来自定义一些 transforms 方法。下面我们将学习如何自定义 transforms 方法及其注意事项。

为了自定义 transforms 方法，首先需要了解其运行机制，在之前介绍数据读取机制 DataLoader 和 Dataset 时，我们提到过 transforms 方法是在 Compose 类中的 __call__ 函数中被调用的。我们对一组 transforms 方法进行 for 循环，每次按顺序挑选出我们的 transforms 方法 t 并执行它。可以看到，每个 transforms 方法仅接收一个参数，并返回一个参数。另外注意，由于是通过 for 循环调用，当前 transforms 方法的输出就是下一个 transforms 方法的输入。

class Compose(object):
    def __call__(self, img):
        for t in self.transforms:
            img = t(img)
        return img

自定义 transforms 要素：

仅接收一个参数，返回一个参数。
注意上下游的输出与输入之间的数据类型必须要匹配。

我们在设计 transforms 方法的时候可能需要多个参数，比如设置概率值、信噪比等，这些可以通过类方法实现。

通过类实现多参数传入：

class YourTransforms(object):
    def __init__(self, ...):
        ...
    def __call__(self, img):
        ...
        return img

上面是一个自定义 transforms 方法的基本结构。首先是一个初始化 __init__ 方法，在初始化的时候我们可以传入想要的参数，比如概率值、信噪比等等。然后，这个类中还必须有一个 __call__ 函数，即这个类的实例可以被调用，__call__ 函数只接受一个 input 参数，然后执行自定义的一些功能，最后返回一个 output，并且输入与输出的数据类型必须匹配，比如都是 img、tensor、list、turple 或者 dict 等。

例子：椒盐噪声

椒盐噪声 (salt pepper noise) 又称为脉冲噪声，是一种随机出现的白点或者黑点，白点称为盐噪声，黑点称为椒噪声。

信噪比 (Signal-Noise Rate, SNR) 是衡量噪声的比例，在图像中为图像像素的占比。

下面是对一张小猫图像增加不同信噪比的椒盐噪声的效果图：

从左到右信噪比依次为 0.9、0.7、0.5、0.3。可以看到，随着信噪比的减小，即信号的减少，图片丢失的信息越来越多。当信噪比为 0.9 时，我们还可以清晰地看到这是一张小猫的图像；而当信噪比降低到 0.3 时，我们已经很难辨别图像的真实内容了。

下面，我们通过自定义 transforms 方法对图像添加椒盐噪声：

class AddPepperNoise(object):

    def __init__(self, snr, p):
        self.snr = snr  # 设置信噪比
        self.p = p  # 设置概率值

    def __call__(self, img):

        ...  # 添加椒盐噪声具体实现过程

        return img

Python 代码示例：

class AddPepperNoise(object):
    """增加椒盐噪声
    Args:
        snr （float）: 信噪比，Signal Noise Rate
        p (float): 概率值，依概率执行该操作
    """

    def __init__(self, snr, p=0.9):
        assert isinstance(snr, float) or (isinstance(p, float))
        self.snr = snr
        self.p = p

    def __call__(self, img):
        """
        Args:
            img (PIL Image): PIL Image
        Returns:
            PIL Image: PIL image.
        """
        if random.uniform(0, 1) < self.p:
            img_ = np.array(img).copy()
            h, w, c = img_.shape
            signal_pct = self.snr
            noise_pct = (1 - self.snr)
            mask = np.random.choice((0, 1, 2), size=(h, w, 1), p=[signal_pct, noise_pct/2., noise_pct/2.])
            mask = np.repeat(mask, c, axis=2)
            img_[mask == 1] = 255   # 盐噪声
            img_[mask == 2] = 0     # 椒噪声
            return Image.fromarray(img_.astype('uint8')).convert('RGB')
        else:
            return img

5.transforms 方法总结

裁剪：
- transforms.CenterCrop
- transforms.RandomCrop
- transforms.RandomResizedCrop
- transforms.FiveCrop
- transforms.TenCrop
翻转和旋转：
- transforms.RandomHorizontalFlip
- transforms.RandomVerticalFlip
- transforms.RandomRotation
图像变换：
- transforms.Pad
- transforms.ColorJitter
- transforms.Grayscale
- transforms.RandomGrayscale
- transforms.RandomAffine
- transforms.LinearTransformation
- transforms.RandomErasing
- transforms.Lambda
- transforms.Resize
- transforms.Totensor
- transforms.Normalize
transforms 操作：
- transforms.RandomChoice
- transforms.RandomApply
- transforms.RandomOrder

6.数据增强实战应用

原则：让训练集与测试集更接近。

空间位置：平移
色彩：灰度图，色彩抖动
形状：仿射变换
上下文场景：遮挡，填充
……

例子：

我们看到，在训练集中，猫基本都处于图片的中央位置，而在测试集中的猫处于偏左/右，或者在角落的情况。对于这种情况，我们可以在数据增强时改变训练集中的空间位置，例如平移，来逼近测试集的图片。

例子：

我们看到，在训练集中，猫基本都是白色的，而在测试集中的猫是黑色的。对于这种情况，我们可以在数据增强时对训练集中的图片进行色彩抖动或者变换处理，来逼近测试集的图片。有时，训练集和测试集中猫的姿态差异很大，这种情况下，我们可以通过对训练集图片进行仿射变换处理来改变猫的形状。另外，还可以对比看下测试集中有无遮挡情况，可以对训练集进行遮挡、填充等相应处理。

人民币分类

在之前的人民币分类例子中，我们的数据集是面额为 1 元与 100 元的第四套人民币各 100 张，那么基于该数据集训练出的模型是否可以对第五套人民币的 100 元进行正确分类呢？

直观上，第五套人民币的 100 元与第四套人民币的 1 元在颜色上比较相近，而在面额上与第四套人民币的 1 00 元一样。实验证明，如果不进行额外的数据增强，模型会将第五套人民币的 100 元识别为 1 元，这很可能是由于二者在颜色上的相似性导致的。当我们对图像进行灰度处理后，模型将可以对第五套人民币的 100 元进行正确分类。

总结

在本节课中，我们学习了数据预处理 transforms 的图像变换、操作方法，以及自定义 transforms。到目前为止，PyTorch 中的数据模块我们已经学习完毕，在下节课中，我们将会学习 PyTorch 中的模型模块。

你可能感兴趣的:(PyTorch,pytorch,深度学习,机器学习,数据加载,数据预处理)

英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
集成学习中的多样性密码：量化学习器的多样性元楼集成学习学习机器学习人工智能
合集-scikit-learn(69)1.【scikit-learn基础】--概述2023-12-022.【scikit-learn基础】--『数据加载』之玩具数据集2023-12-043.【scikit-learn基础】--『数据加载』之真实数据集2023-12-064.【scikit-learn基础】--『数据加载』之样本生成器2023-12-085.【scikit-learn基础】--『数据
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
macOS运行python程序遇libiomp5.dylib库冲突错误解决方案 screenCui macos python 开发语言
用途说明在macOS系统运行某些涉及OpenMP或多线程的Python程序（如PyTorch、NumPy等科学计算库）时，可能会出现libiomp5.dylib库冲突的错误。设置os.environ['KMP_DUPLICATE_LIB_OK']='True'允许系统加载重复的动态链接库，临时解决冲突问题。典型错误场景错误信息通常包含以下内容：OMP:Error#15:Initializingli
【零基础学AI】第33讲：强化学习基础 - 游戏AI智能体 1989 0基础学AI 人工智能游戏 transformer 分类深度学习神经网络
本节课你将学到理解强化学习的基本概念和框架掌握Q-learning算法原理使用Python实现贪吃蛇游戏AI训练能够自主玩游戏的智能体开始之前环境要求Python3.8+PyTorch2.0+Gymnasium(原OpenAIGym)NumPyMatplotlib推荐使用JupyterNotebook进行实验前置知识Python基础编程（第1-8讲）基本数学概念（函数、导数）神经网络基础（第23讲
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
图像哈希：DCT篇怪味＆先森科研篇：图像哈希哈希算法 opencv 计算机视觉
RobustimagehashingwithdominantDCTcoefficients文章信息作者：唐振军期刊：Optic（Q2/3区）题目：RobustimagehashingwithdominantDCTcoefficients目的、实验步骤及结论目的：使用传统的DCT对图像进行压缩，由于压缩后的信息主要集中在左上角，因此使用左上角的数据进行比较生成图像的哈希值。实验步骤数据预处理：双线性
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
基于Abp Vnext、FastMCP构建一个企业级的模型即服务（MaaS）平台方案 NetX行者 Abp vnext Maas Abp vnext FastMCP 企业级平台解决方案开源 python
企业级MaaS平台技术可行性分析报告一、总体技术架构HTTP/WebSocketgRPC/RESTgRPC/RESTgRPCVue3前端ABPvNextAPI网关.NET9业务微服务ABPvNextMCPClientFastMCP模型仓库PyTorch/TensorFlowHuggingFaceHeyGem/ChatGLM自定义模型统一鉴权中心二、核心框架与中间件组件技术选型官方链接作用前端框架V
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
Spring Boot 项目启动时按需初始化加载数据我叫晨曦啊 spring boot spring boot java 后端
1、新建类，类上添加注解@Component，该类用于在项目启动时处理数据加载任务；2、该类实现ApplicationRunner接口，并重写run方法；3、在重写的run方法里处理数据加载任务；注意：有定时加载数据需求的话，添加定时任务即可；一次性加载大数据量时可能内存溢出；同一个项目中，可以定义多个ApplicationRunner的实现类；存在多个ApplicationRunner的实现类时
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
【LLM】Llama-Index 架构 FOUR_A LLM llama 架构
数据源（DataSources）PDF/文档数据库API网页音频/视频知识库自定义源数据连接器（DataConnectors）用于从各种数据源提取和加载数据，以便进行索引和查询。1.SimpleDirectoryReader含义：简单目录读取器。功能：主要用于读取本地文件系统中的目录内容。它可以列出目录中的文件和子目录，通常用于文件管理或数据预处理阶段。例如，在一个数据处理项目中，你可能需要列出某
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
【学习教程】遥感、GIS和GPS技术在水文、气象、灾害、生态、环境及卫生等领域中的应用
【内容简介】：第一讲3S技术及软件简介1.13S技术及应用案例文献解析1.23S技术软件（ArcGIS、ENVI）简介1.3如何快速掌握ArcGIS1.4ArcGIS界面及数据加载1.5文档保存方式第二讲ArcGIS数据管理2.1ArcGIS数据类型与数据结构2.2shapefile数据、个人地理数据库MDB和文件地理数据库GDB2.3地理空间数据建库的理论、方法和步骤2.4ArcGIS数据管理第
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end