torchvision
和pytorch
的关系:
torchvision
是PyTorch
的一个与图像处理和计算机视觉任务相关的软件包,提供了很多常用的数据集、模型架构和图像变换等功能。它内置了一些流行的计算机视觉数据集(如ImageNet、CIFAR-10
等),并提供了一些预训练的模型(如ResNet、AlexNet
等)。
尽管torchvision
通常与PyTorch
一起使用,但它独立于PyTorch
。这意味着可以单独安装和使用torchvision
,即使没有安装PyTorch也可以使用其中的功能。
总结起来,torchvision在某种程度上是PyTorch的一部分,因为它与PyTorch紧密集成,并通过torchvision.datasets和torchvision.models等模块提供了对PyTorch的直接访问。然而,它又被认为是独立于PyTorch的,因为它可以单独安装和使用,具有更大的灵活性和可移植性。
torchvision由以下四部分组成:
torchvision.datasets:
一些加载数据的函数(DatasetFolder、ImageFolder、VisionDataset)常用的数据集接口(MNIST、COCO数据集等);
torchvision.models
:包含常用的训练好的模型(含预训练模型),例如AlexNet、VGG、ResNet等;
torchvision.transforms:
常用的图片变换,例如裁剪、缩放、旋转等;
torchvision.utils
: 其他的一些有用的方法。
主要用于组合多个图片变换的操作。他允许将多个转换操作按顺序应用于输入图像,以便进行数据增强、预处理或其他图像转换操作。
示例:
import torchvision.transforms as transforms
# 定义一个Compose对象,包含两个转换操作
transform = transforms.Compose([
transforms.Resize((256, 256)), # 调整图像大小为256x256像素
transforms.ToTensor() # 将图像转换为张量
])
# 假设img是一个PIL Image对象
img_transformed = transform(img)
DataLoader 类是 PyTorch 提供的一个用于数据加载和批量处理的工具类。它是基于 Dataset 类构建的
,并为训练和测试模型提供了高效的数据加载和处理功能。
主要功能包括:
数据预取:DataLoader 可以预先加载下一个批次的数据,以减少训练时的等待时间。通过设置 prefetch_factor 参数,可以指定要预取的批次数量。预取数据可以提前准备好,以便在模型进行训练时能够快速提供数据。
使用 DataLoader 类可以极大地简化数据加载和处理的过程,并提高训练和测试模型的效率。它提供了许多灵活的参数和功能,可以根据需求进行配置和调整,以实现最佳的训练效果。
Data = DataLoader(dataset=train_data, batch_size=50, shuffle=True, num_workers=0)
使用方法:
1.需要创建一个数据集对象,可以使用 PyTorch 中的 Dataset 类或自定义数据集类 使用__getitem__
确定自己要的数据
2.创建并实例化DataLoader
torch.nn是pytorch中自带的一个函数库,提供了构建神经网络模型所需的各种类和函数。
使用之前需要先引入
mport torch.nn as nn
import torch.nn.functional as F
nn.Module 是 PyTorch 中神经网络模型的基类,用于定义自定义的神经网络模型。
所有的神经网络模型都应该继承自 nn.Module 类,并实现其中的 forward() 方法。在 forward() 方法中定义了数据在模型中的前向传播流程,即输入数据如何通过各个层进行计算和变换,最终得到输出结果。
nn.Module 类提供了一些常用的功能和方法,包括:
parameters():返回模型中所有可学习参数的迭代器。
to(device):将模型移动到指定的设备(如 GPU 或 CPU)上进行计算。
train() 和 eval():用于切换模型的训练模式和评估模式。在训练模式下,模型会启用 Dropout 和批归一化层等训练相关操作;在评估模式下,这些操作会被禁用。
state_dict() 和 load_state_dict():用于保存和加载模型的状态字典(包含模型的参数和缓冲区)。
zero_grad():将模型的梯度缓冲区清零。
通过继承 nn.Module 类,可以灵活地定义各种自定义的神经网络模型,并结合 PyTorch 提供的丰富的层和函数来构建复杂的模型架构。
是PyTorch中用于构建网络模型的容器。它允许我们按照顺序组合多个网络层,并将它们作为一个整体进行前向传播。
ex:
self.conv2 = nn.Sequential(
nn.Conv2d(
in_channels=16,
out_channels=32,
kernel_size=3,
stride=2,
),
nn.BatchNorm2d(32),
nn.ReLU(),
nn.MaxPool2d(kernel_size=2),
)
一般用于多类别分类任务,该函数会自动将模型的最后一层输出应用 softmax 操作,并计算预测结果与目标标签之间的交叉熵损失。
criterion = nn.CrossEntropyLoss().to(device)
对数据进行随机重排,np.random.shuffle()
函数用于随机打乱数组或列表的顺序。它接受一个可迭代对象作为参数,并在原地修改该对象的顺序。
这个操作通常在训练模型之前进行,可以增加样本之间的独立性和随机性,有助于模型过拟合。