对张量的概述:
数学中有标量、向量和矩阵的概念,它们的维度分别是0、1、2。也就是说,标量中元素的位置固定,向量中元素的位置需要通过其索引确定,矩阵中的元素位置需要通过其行号和列号确定。张量可以视为矩阵的扩展,可以用于表示无穷维度的数据。
张量(Tensor)是Pytorch库中的基本数据类型,Pytorch中各种基本数字类型都有其对应的Tensor类型,但是在Pytorch中没有内嵌的字符串类型。
常用的Pytorch数值型数据类型:
由于Pytorch库中没有布尔类型,因此常常使用字节整型张量来表示布尔值。
上面的类型都是针对CPU而言的,对于在GPU上的数据类型,还需要添加一个cuda,也就是下面这些形式:
将一个普通张量类型转化为GPU张量类型的方法:普通张量变量名.cuda()
。该函数返回一个GPU张量的引用。
查看张量数据类型的方法:直接使用Python自带的type函数查看Tensor的具体类型是不行的,这样返回的类型值始终是“torch.Tensor"。因此需要使用到下面的两种方法。
张量名.type()
的方式可以查看张量的具体类型。isinstance(张量名,类型名)
,返回值是一个布尔值。譬如下面的这个例子:isinstance(torch.randn(2,3),torch.FloatTensor)
张量的形状确定:
张量占用内存的大小确定:张量名.numel()
。
张量的维度确定:张量名.dim()
。
将不同类型的数据转化为张量:可以通过已有的单个数值、Python列表、Numpy数组等方式来生成张量。也可以先不指定所生成的张量的元素值,而只生成指定元素个数的张量。
torch.tensor(标量值)
。标量也就是一个数字。torch.tensor(一维列表)
torch.FloatTensor(数据个数)
。所生成的张量中的全部元素都是零。torch.from_numpy(numpy数组)
。备注1:可以通过使用Python的list()函数将张量转化为Python列表。
备注2:tensor函数的接收参数只能是标量值、Python列表或Numpy数组;带有元素数据类型的大写Tensor函数(如FloatTensor)可以接收上面这三种数据类型作为参数,也可以接收一个表示生成张量的形状的列表(或标量)。由于直接使用tensor函数更加容易,因此更推荐只使用tensor函数。
设置所有生成的张量的默认元素类型:torch.set_default_tensor_type(类型名)
。Pytorch的默认张量类型是torch.FloatTensor。增强学习中使用DoubleTensor的使用会更多。
生成指定形状的随机张量:
torch.empty(维度1长度,维度2长度...)
。备注:不推荐使用empty函数来生成张量,因为如果忘记对张量中的元素进行初始化则可能产生相当麻烦的错误。
torch.rand(维度1长度,维度2长度...)
。torch.rand_like(张量名)
。torch.randint(最小值,最大值,形状列表)
。注意该区间不包括右端点(最大值)。torch.randn(维度1长度,维度2长度...)
。torch.normal(表示均值的一维张量,表示标准差的一维张量)
。备注:randn方法和normal方法在返回值上的最大区别在于,normal方法返回的仍然是一个一维张量,如果想要得到其他形状和维度的张量,则需要对张量进行维度变换。
torch.ones(形状元组)
。torch.zeros(形状元组)
。torch.full(形状列表,填充值)
。torch.eye(行数,列数)
。生成等差张量和等比张量(一维):
torch.arange(起始值,终止值,steps=步长)
。生成数字的区间不包括终止值。torch.linspace(起始值,终止值,steps=生成元素个数)
。同样,生成的数字的区间不包括终止值。torch.logspace(起始值,终止值,steps=元素个数)
。生成的每一个元素都是对当前值求log10对数的结果。生成随机打散的整数张量:
tensor.randperm(n)
:返回一个含有n个元素的一维张量,张量中的元素位置随机,但是都是从0到n-1之间的不重复的整数。
张量名[维度1,维度2...]
。张量名[维度1起始位置:维度1终止位置,维度2起始位置:维度2终止位置...]
。备注:
①如果需要对整个维度进行切片,则直接使用冒号“:
”表示整个维度即可。
②切片区间是左闭右开的,也就是不包含终止位置的元素。
③和Python中的列表相同,张量的索引和切片也可以用负数形式的反向索引和切片。
④进行切片时还可以指定步长,其语法形式为起始位置:终止位置:步长
。
张量名.index_select(维度,位置)
。注意位置需要用一个一维张量来进行表示。# 取0维度上的1、5、6号对象
TestTensor.index_select(0,torch.tensor([1,5,6]))
masked_select 是 Pytorch 库中的一个函数,可以用来从输入张量中按照给定的掩码(mask)选取元素。掩码是一个布尔类型的张量,其形状和输入张量相同,掩码中每个元素的值决定了是否选取输入张量中对应位置的元素。
masked_select(input, mask)
函数接受两个参数:
input:要从中选取元素的输入张量,可以是任意形状的张量。
mask:用来控制选取哪些元素的掩码,必须是一个形状和 input 相同的布尔类型张量。
函数返回一个一维张量,其中包含了所有符合条件的元素。
以下是一个示例:
import torch
# 创建一个 2x3 的张量
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
# 创建一个与 x 相同形状的掩码
mask = torch.tensor([[True, False, True], [False, True, False]])
# 使用掩码从 x 中选取符合条件的元素
result = torch.masked_select(x, mask)
print(result) # 输出 tensor([1, 3, 5])
注意事项:对张量进行维度变换并不改变张量本身的存储方式,只是对原本存储的内容换了一种方法进行解释。
张量名.reshape(新维度1,新维度2...)
。备注:使用reshape操作一定要确保变换前后的张量具有相同数量的元素。同时,使用reshape操作会使得原始张量的维度信息丢失,因此使用时一定要谨慎。
张量名.unsqueeze(插入索引)
。插入索引表示在当前哪一个维度的索引前插入新的维度。索引可以用正向索引和可以用负向索引,但是不建议负向索引,因为容易混淆。张量名.squeeze(删除位置索引)
。删除位置表示删除哪一个维度的索引。只有长度为1的维度才能进行挤压,否则原始张量不会发生变化。张量名.expand(维度1长度,维度2长度...)
。使用此方法要求扩展前后的张量的维度必须相同,同时原来被扩张的各个维度的大小都必须为1。expand方法执行速度快,但是并不会对扩展部分的数据进行初始化,因此需要程序员对扩展部分的数据进行手动初始化。张量名.repeat(维度1拷贝次数,维度2拷贝次数...)
。和expand方法不同的是,repeat方法在进行形状扩展的同时还会进行数据的复制过程,因此其相应地也比expand执行速率更低。二维张量名.t()
。张量名.transpose(维度1,维度2)
。output_tensor = input_tensor.permute(*dims)
其中,input_tensor是要进行维度重排的张量,dims是一个整数序列,表示新的维度顺序。*dims表示将序列解包成独立的参数。output_tensor是维度重排后得到的新张量。
例如,假设有一个大小为(3, 4, 5)的张量x,要将维度顺序变为(4, 5, 3),可以使用如下代码:
import torch
x = torch.randn(3, 4, 5)
y = x.permute(1, 2, 0)
在某些情况下,Pytorch 要求 tensor 的数据必须是连续的,否则会抛出运行时错误。这种情况通常涉及到 tensor 之间的操作,如矩阵乘法等。当 tensor 不是连续的时候,我们可以使用 contiguous() 函数来将其转换为连续的 tensor。
将张量进行连续存储:张量名.contiguous()
。
broadcasting机制的作用:在 Pytorch 中,broadcasting 是一种自动扩展张量形状的机制,使得不同形状的张量可以进行算术运算。其实现方式是在需要进行运算的张量上自动添加维度,使其形状能够匹配另一个张量的形状。
Broadcasting机制是如何进行的:如果两个张量在某个维度上的形状不同,而这个维度的长度为 1,那么 Pytorch 会自动地沿着这个维度进行复制,使得两个张量在这个维度上的长度相同,从而能够进行算术运算。这个过程会一直持续到两个张量在所有维度上的形状都相同为止。
例如,如果有一个形状为 (3, 1) 的张量 a 和一个形状为 (1, 4) 的张量 b,那么在对它们进行加法运算时,PyTorch 会自动地将它们扩展为形状分别为 (3, 4) 的张量,然后进行加法运算。
这种自动扩展张量形状的机制可以大大简化代码的书写,提高程序的可读性和可维护性。但是在使用时,需要注意张量形状的匹配关系,以免出现意外的错误。
torch.cat([张量1,张量2...],dim=拼接维度下标)
。使用该函数要求所拼接的张量除了需要进行拼接的维度的值不同外,维度相同且其他维度的数值都相同。torch.stack([张量1,张量2...],dim=新创建维度)
。要求进行拼接的两个张量的形状必须完全相同。torch.split([张量1长度,张量2长度...],dim=被拆分的维度)
。被拆分得到的多个张量以一个元组的形式作为返回值返回。torch.chunk(拆分个数,dim=被拆分的维度)
。四则运算函数:除了直接使用运算符外,也可以使用对应的函数进行运算。加减乘除的对应函数分别为torch.add()、torch.sub()、torch.mul()、torch.div(),传入的参数是进行运算的两个张量。
torch.matmul(张量1,张量2)
。这个函数也可以对更高维度的张量进行运算,具体结果形式此处不再解释。备注:在pytorch中,运算符@也是表示两个矩阵相乘。
张量名.pow(次数)
。张量名.sqrt()
。torch.exp(张量名)
。具体来说,就是以张量的元素为指数,求出自然对数e的幂。torch.log(张量名)
。如果需要以2为底数或以10为底数,可以分别使用torch.log2()和torch.log10()两个函数。张量名.ceil()
/张量名.floor()
。张量名.round()
。张量名.trunc()
/张量名.frac()
。张量名.clamp(最小值,最大值)
。使用该函数后,张量中本来比最小值还要小的元素将被修改为最小值,比最大值还要大的元素将被修改为最大值。torch.all(张量名)
。该函数返回一个零维张量,如果元素为1表示所有元素都是True,否则返回0。torch.eq(张量1,张量2)
。该函数返回一个布尔类型的张量。torch.ge(张量1,张量2)
。torch.gt(张量1,张量2)
。torch.le(张量1,张量2)
。torch.lt(张量1,张量2)
。张量名.norm(范数阶数,dim=需要求范数的维度)
。张量名.max(dim=需要求最大值的维度)
和张量名.min(dim=需要求最小值的维度)
。keepdim参数:对于max函数和min函数,有一个可选参数keepdim,该参数是一个布尔值。如果为了保留原始的维度信息,就可以将该keepdim参数设置为True。
张量名.mean()
。张量名.sum()
和张量名.prod()
。张量名.argmax(dim=求解维度)
和张量名.argmin(dim=求解维度)
。张量名.topk(元素个数,dim=求最值的维度,largest=最大/最小)
。largest为True表示求最大的几个元素;largest为False表示求最小的几个元素。该方法会返回两个张量,第一个张量表示最大或最小的元素,第二个张量表示这些元素各自的索引。张量名.kthvalue(K,dim=求最值的维度)
。该方法也会像topk方法一样返回两个张量。where函数的使用方法:
在 Pytorch 中,torch.where() 函数的作用是根据条件选择输入张量的元素,并返回一个新的张量。
函数的使用方法如下:
torch.where(condition, x, y)
其中,condition 是一个布尔类型的张量,x 和 y 分别是两个张量,它们的形状可以不相同,但是必须有相同的维度。函数返回一个新的张量,其形状与 condition 张量相同,其元素根据 condition 张量中的值选择自 x 或 y 中的相应元素。
具体地说,当 condition[i] 为 True 时,新张量的第 i 个元素将等于 x[i],否则为 y[i]。
下面是一个简单的示例,说明如何使用 torch.where() 函数:
import torch
x = torch.randn(3, 3)
y = torch.ones(3, 3)
result = torch.where(x > 0, x, y)
print(result)
在上面的例子中,我们首先创建了两个 3x3 的张量 x 和 y,其中 x 中的元素是随机的,y 中的元素都是 1。然后,我们使用 torch.where() 函数根据 x > 0 的条件选择 x 或 y 中的元素,将结果保存到 result 张量中,并打印输出。
gather函数的使用方法:
在 Pytorch 中,gather() 函数用于按索引从输入张量中收集元素,并将它们组成一个新的张量返回。
函数的使用方法如下:
torch.gather(input, dim, index, out=None)
其中,input 是输入张量,dim 是指定的维度,index 是索引张量,out 是输出张量(可选参数)。函数返回一个新的张量,其形状与 index 张量相同。
具体地说,对于 2D 张量 input,dim 可以是 0 或 1,分别表示在行或列上进行索引。而对于多维张量 input,dim 则可以是任意维度。
下面是一个简单的示例,说明如何使用 gather() 函数:
import torch
input = torch.tensor([[10, 20], [30, 40], [50, 60]])
index = torch.tensor([[0, 1], [1, 0], [0, 1]])
output = torch.gather(input, 1, index)
print(output)
在上面的例子中,我们首先创建了一个 3x2 的张量 input,其中包含了一些元素。然后,我们创建了一个与 input 相同大小的索引张量 index,用于按行收集元素。最后,我们使用 gather() 函数按行从 input 张量中收集元素,并将结果保存到 output 张量中,并打印输出。
输出结果为:
tensor([[10, 20],
[40, 30],
[50, 60]])
可以看到,输出张量中的每个元素都是从 input 张量中按照相应的索引收集而来的。例如,第一个元素 10 是来自 input[0, 0],第二个元素 20 是来自 input[0, 1],以此类推。
torch.sigmoid(张量名)
。该方法可以对输入张量中的每一个元素求出其对应的Sigmoid函数值。torch.tanh(张量名)
。这是一种在RNN中常使用的激活函数。该函数可以对输入张量中的每一个元素求出其对应的Tanh函数值。torch.relu(张量名)
。这是目前深度学习中最热门的激活函数,因为这个函数的形式难以出现梯度离散和梯度爆炸的情况。torch.nn.functional.softmax(输入张量,dim=运算维度)
。该激活函数适用于多分类问题,常常与交叉熵搭配使用。Softmax激活函数的优秀性质在于其可以用于表示分类的概率。这种激活函数会把本身很大的数值的相对大小进一步放大,对原先数值较小的数值的相对大小进一步压缩。torch.nn.LeakyRelu(输入张量,dim=运算维度)
。这种激活函数是对Relu激活函数的优化,使得当自变量取值为负数时函数值并非直接取零,而是取一个线性的非常小的负数。这个函数相较于Relu函数可以更好地避免梯度离散现象。备注:对Relu函数的优化另外还有Selu函数和SoftPlus函数,但是这些函数相较于LeakyRelu函数使用较少。
torch.nn.functional.mse_loss(表示预测值的张量,表示实际标签值的张量)
。函数的返回值也是一个张量。autograd.grad函数的使用方法:
在PyTorch中,autograd.grad函数用于计算张量的梯度,可以用于自定义损失函数、计算梯度等任务。
autograd.grad函数的基本用法如下:
import torch
x = torch.tensor([3.0], requires_grad=True)
y = x ** 2 + 2 * x + 1
grads = torch.autograd.grad(y, x)
print(grads)
在上面的代码中,我们首先定义了一个张量x,将requires_grad参数设置为True,这意味着我们将跟踪计算与x相关的梯度信息。然后我们定义了一个表达式y,该表达式是x的平方加上2乘以x再加1。
接下来,我们使用autograd.grad函数计算表达式y关于x的梯度。autograd.grad函数的第一个参数是计算梯度的张量,第二个参数是需要求导的张量。函数返回一个元组,包含了求导张量的梯度。
在本例中,我们将求导张量设置为x,因此grads变量将包含表达式y关于x的梯度,即6.0。
需要注意的是,当使用autograd.grad计算梯度时,需要将相关张量的requires_grad属性设置为True,以启用自动微分功能。
backward方法的具体使用:
在PyTorch中,backward方法用于计算张量的梯度并更新模型参数,是自动微分的核心方法。backward方法的基本用法如下:
import torch
# 定义模型和损失函数
model = torch.nn.Linear(1, 1)
loss_fn = torch.nn.MSELoss()
# 定义输入和真实值
x = torch.tensor([[1.0], [2.0], [3.0], [4.0]])
y_true = torch.tensor([[2.0], [4.0], [6.0], [8.0]])
# 前向传播
y_pred = model(x)
# 计算损失
loss = loss_fn(y_pred, y_true)
# 反向传播
loss.backward()
# 更新模型参数
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
optimizer.step()
在上面的代码中,我们首先定义了一个包含单个线性层的模型和一个均方误差损失函数。然后,我们定义了输入张量x和真实值张量y_true。接下来,我们使用模型对输入进行前向传播,计算预测值y_pred,并计算预测值与真实值之间的损失。然后,我们调用backward方法计算损失关于模型参数的梯度。最后,我们定义了一个优化器(这里使用随机梯度下降),并调用step方法更新模型参数。
需要注意的是,在调用backward方法之前,需要将损失张量对应的图节点(通常是模型输出)的requires_grad属性设置为True,以启用自动微分功能。此外,在调用backward方法之前,需要清除之前的梯度信息,可以使用optimizer.zero_grad()
方法或手动清除梯度。如果不清除之前的梯度信息,则可能会导致梯度计算错误。
总之,backward方法是Pytorch中实现自动微分的重要方法之一。它可以方便地计算张量的梯度,并通过反向传播更新模型参数,实现神经网络的训练。
下面是使用PyTorch进行GPU加速计算的一些基本步骤:
torch.cuda.is_available()
函数检查系统中是否有可用的GPU设备。如果返回True,则表示有可用的GPU设备。.to()
方法将模型和数据移动到GPU上。例如:import torch
# 检查是否有可用的GPU设备
if torch.cuda.is_available():
device = torch.device('cuda')
else:
device = torch.device('cpu')
# 定义一个模型
model = MyModel()
# 将模型移动到GPU上
model.to(device)
# 加载数据
data = DataLoader(...)
# 将数据移动到GPU上
data = data.to(device)
# 计算模型输出
output = model(input.cuda())
需要注意的是,在计算完成后,结果需要使用.cpu()方法将数据移动回CPU上进行处理。例如:
# 将结果移动回CPU上
output = output.cpu()
备注:使用GPU进行计算可以大大提高深度学习模型的训练和推理速度。但是,需要注意的是,在GPU上进行计算会消耗大量的显存,因此需要根据具体情况调整batch size等参数,以避免出现内存不足的问题。
在 PyTorch 中,with torch.no_grad()
是一种常见的使用 with 的方式,用于关闭梯度计算,以提高前向传播的速度。
在测试模型时,我们通常只需要计算模型的输出,而不需要计算梯度,因此可以使用 with torch.no_grad() 来关闭梯度计算。
torchvision是PyTorch的一个官方包,它提供了一些用于计算机视觉任务的工具和函数,包括数据集加载、图像预处理、模型定义、模型训练、模型评估等。
torchvision包含以下模块:
通过使用torchvision,我们可以更加便捷地进行计算机视觉任务的开发和实验,同时也可以快速地搭建和训练基于深度学习的视觉模型。
简单介绍:torchvision.datasets是PyTorch中的一个模块,它包含了一些常见的计算机视觉数据集,可以方便地用于模型训练和测试。这些数据集通常被用于图像分类、目标检测、图像分割等计算机视觉任务的研究和实验中。
torchvision.datasets中的数据集:
这些数据集的使用非常简单,可以通过torchvision.datasets模块中的Dataset类来加载。可以使用该模块中的一些辅助函数来对数据进行预处理,并将其转换为PyTorch中的张量形式,以供模型使用。
导入datasets中的指定数据集的语法:以导入CIFAR10数据集为例。
cifar10_train = CIFAR10(root='./data', train=True, download=True, transform=None)
查看数据集的大小:print(len(cifar10_train))
获取数据集中单个样本的内容和标签:image, label = cifar10_train[0]
指定训练集和测试集的样本个数:
from torchvision.datasets import CIFAR10
# 定义 CIFAR10 数据集,将训练集元素个数设置为 1000,测试集元素个数设置为 500
train_set = CIFAR10(root='./data', train=True, download=True, transform=None)
train_set.data = train_set.data[:1000]
train_set.targets = train_set.targets[:1000]
test_set = CIFAR10(root='./data', train=False, download=True, transform=None)
test_set.data = test_set.data[:500]
test_set.targets = test_set.targets[:500]
数据预处理器概述:Torchvision是一个在Pytorch中专门用于图像处理的包,其中包含了一系列的transforms类,用于对图像进行预处理或增强操作。数据预处理器就是一个transforms类对象。下面介绍一些常用的transform类及其功能。
具体使用时,需要先定义一个预处理器,在这个预处理器中根据实际需求设置预处理内容。
ToTensor():该数据预处理器将PIL图像或numpy数组转换为Pytorch中的张量数据类型,同时将图像的像素值从0-255转换为0-1之间的浮点数。
Normalize(): 该数据预处理器对张量进行标准化操作。可以通过传入mean和std参数来指定标准化的均值和标准差。这通常在训练和测试数据之间进行数据预处理时很有用。
备注:标准化可以让数据更加符合正态分布,有助于提高模型的训练效果。
Resize():该数据预处理器用于调整图像的尺寸大小。Resize()方法可以接受一个参数,指定调整后的目标大小,也可以接受一个参数元组,指定调整后的目标尺寸大小。
尺寸调整的必要性:在深度学习中,图像尺寸大小通常需要进行标准化处理,以便在模型训练时保持输入数据的一致性。例如,如果训练集中的图像大小不一致,需要使用Resize()方法将它们调整为相同的尺寸大小,以确保模型的输入张量具有相同的大小和形状。
使用例子:
# 定义Resize()函数,将图像的尺寸大小调整为指定大小
transform = transforms.Resize((224, 224))
图像裁剪的意义:在深度学习中,数据集通常需要在预处理过程中进行图像裁剪,以便在模型训练时保持输入数据的一致性。例如,在使用卷积神经网络(CNN)训练图像分类模型时,我们通常会将图像裁剪为相同的大小,以确保输入张量具有相同的大小和形状。
CenterCrop()
是torchvision.transforms模块中的一个函数,用于将图像从中心位置裁剪为指定大小。CenterCrop()方法可以接受一个参数,指定裁剪后的目标大小。备注:需要注意的是,如果要使用CenterCrop()方法对数据集进行裁剪,通常需要先确定裁剪后的目标大小。通常情况下,目标大小可以根据模型的输入张量大小来确定。在实际应用中,可以根据模型的输入张量大小来选择合适的裁剪方法和目标大小,以确保模型的输入张量具有相同的大小和形状。
transforms.RandomResizedCrop(size, scale=(0.08, 1.0), ratio=(0.75, 1.3333333333333333), interpolation=2)
其中:
size:输出图片的尺寸,可以是一个整数或者一个元组(height, width);
scale:随机裁剪的尺度,是一个元组(min, max),其中min和max分别为随机裁剪面积占原图面积的下限和上限,取值范围是0到1,默认值为(0.08,1.0);
ratio:随机裁剪的宽高比,是一个元组(min, max),其中min和max分别为随机裁剪的宽高比下限和上限,默认值为(0.75, 1.3333333333333333);
interpolation:插值方法,默认为PIL.Image.BILINEAR。
意义分析:对图像进行翻转或旋转是一种常见的数据增强手段,因为它可以使数据更加丰富,增加模型对不同方向输入数据的适应能力。
RandomHorizontalFlip
类是torchvision.transforms中的一个数据增强方法,用于对图像进行随机水平翻转。使用该函数的方法如下:其中,p参数是进行水平翻转的概率,它是一个在0到1之间的值,默认为0.5。transforms.RandomHorizontalFlip(p=0.5)
RandomVerticalFlip
的作用是随机垂直翻转,其使用方法和RandomHorizontalFlip类似。RandomRotation
函数是torchvision.transforms中的一个数据增强方法,用于对图像进行随机旋转。具体来说,该函数会以给定的旋转角度范围内随机选择一个角度对输入图像进行旋转。旋转角度可以是一个数值,表示从0度到该值之间的随机角度;也可以是一个长度为2的元组,表示从第一个值到第二个值之间的随机角度。使用该函数的方法如下:transforms.RandomRotation(degrees, resample=False, expand=False, center=None)
其中,degrees参数表示旋转角度的范围,可以是一个数值或者是一个元组。resample参数表示重采样方法,默认为False,即使用像素区域内的值进行插值;expand参数表示是否扩大图像,以便旋转后图像不被裁剪,默认为False;center参数表示旋转中心,默认为图像中心。
ColorJitter
函数是torchvision.transforms中的一个数据增强方法,用于对图像进行颜色扭曲操作,包括亮度、对比度、饱和度和色调的变化。
具体来说,该函数会以给定的参数随机调整输入图像的亮度、对比度、饱和度和色调,以产生具有差异化的训练样本。
使用该函数的方法如下:
transforms.ColorJitter(brightness=0, contrast=0, saturation=0, hue=0)
其中,brightness参数表示亮度调整的范围,可以是一个数值或者是一个长度为2的元组,表示从第一个值到第二个值之间的随机亮度变化;contrast参数表示对比度调整的范围,可以是一个数值或者是一个长度为2的元组,表示从第一个值到第二个值之间的随机对比度变化;saturation参数表示饱和度调整的范围,可以是一个数值或者是一个长度为2的元组,表示从第一个值到第二个值之间的随机饱和度变化;hue参数表示色相调整的范围,可以是一个数值或者是一个长度为2的元组,表示从第一个值到第二个值之间的随机色相变化。
示例代码:
import torchvision.transforms as transforms
transform = transforms.Compose([
transforms.ColorJitter(brightness=0.4, contrast=0.4, saturation=0.4, hue=0.1),
])
以上代码表示,对于输入的图像,会对其亮度、对比度、饱和度和色相进行随机的调整,亮度、对比度和饱和度的调整范围都是从0到0.4之间的随机变化,色相的调整范围是从-0.1到0.1之间的随机变化。
备注:需要注意的是,颜色抖动的范围不能太大,否则可能会导致图像失真或丢失重要信息。在选择范围时需要谨慎。
RandomAffine
函数是torchvision.transforms中的一个数据增强方法,用于对输入图像进行随机仿射变换,包括平移、旋转、缩放、剪切等操作,从而扩充数据集。
使用该函数的方法如下:
transforms.RandomAffine(degrees, translate=None, scale=None, shear=None, resample=False, fillcolor=0)
其中,degrees表示随机旋转的角度范围,可以是一个数字或者是一个长度为2的元组,表示从第一个值到第二个值之间的随机角度变化;translate表示随机平移的范围,可以是一个长度为2的元组,表示横向和纵向平移的范围;scale表示随机缩放的范围,可以是一个长度为2的元组,表示横向和纵向缩放的范围;shear表示随机剪切的范围,可以是一个长度为2的元组,表示横向和纵向剪切的角度范围;resample表示是否使用重采样,如果为True则使用重采样,否则使用插值;fillcolor表示空白区域的填充颜色,默认为黑色。
示例代码:
import torchvision.transforms as transforms
transform = transforms.Compose([
transforms.RandomAffine(degrees=30, translate=(0.2, 0.2), scale=(0.8, 1.2), shear=10),
])
以上代码表示,对于输入的图像,会随机进行平移、缩放、剪切和旋转等仿射变换,平移的范围为图像宽度和高度的20%,缩放的范围为0.8到1.2之间的随机变化,剪切的角度范围为-10到10度之间的随机变化,旋转的角度范围为-30到30度之间的随机变化。
备注:仿射变换的范围也需要谨慎选择,否则可能会导致图像失真或丢失重要信息。在选择范围时需要根据具体应用场景进行调整。
RandomGrayscale
是torchvision.transforms中的一个数据增强方法,用于对输入图像进行随机灰度化处理,从而扩充数据集。
使用该函数的方法如下:
transforms.RandomGrayscale(p=0.1)
其中,p表示图像进行随机灰度化处理的概率,取值范围为0到1之间的浮点数。默认为0.1,表示有10%的概率对输入图像进行灰度化处理。
备注:灰度化处理会丢失彩色图像的信息,因此在某些任务中不适用。在使用时需要根据具体应用场景进行选择。
transforms.ToPILImage
是torchvision.transforms中的一个转换函数,可以将张量或数组形式的图像转换为PIL格式的图像。
使用该函数的方法如下:
transforms.ToPILImage()(tensor_image)
其中,tensor_image表示要转换的张量或数组形式的图像,transforms.ToPILImage()将该图像转换为PIL格式的图像。
转换后的PIL图像与原始图像的大小、格式、通道数等属性可能会发生变化,具体变化取决于输入的张量或数组形式的图像的属性和转换函数的参数。因此,在使用transforms.ToPILImage函数时需要注意图像属性的变化。
备注:tensor_image的数据类型必须是torch.Tensor或numpy.ndarray类型。
transforms.RandomChoice
:它可以从给定的一组转换函数中随机选择一个进行数据增强。使用该函数的方法如下:
transforms.RandomChoice([transform1, transform2, ...])(image)
其中,[transform1, transform2, …]表示一组转换函数,transforms.RandomChoice将从这组函数中随机选择一个进行数据增强,image表示要进行增强的图像。
transforms.RandomApply
:它可以以一定的概率随机应用给定的一组转换函数,用于数据增强。使用该函数的方法如下:
transforms.RandomApply([transform1, transform2, ...], p=0.5)(image)
其中,[transform1, transform2, …]表示一组转换函数,p表示应用这组函数的概率,image表示要进行增强的图像。
transforms.RandomOrder
:它可以以一定的概率随机应用一组给定的转换函数,并将它们随机组合起来。该函数可以在数据增强过程中增加随机性,增强模型的泛化能力。使用该函数的方法如下:
transforms.RandomOrder([transform1, transform2, ...])(image)
其中,[transform1, transform2, …]表示一组转换函数,image表示要进行增强的图像。
transforms.Compose
:是一个将多个数据变换组合在一起的类,用于将多个数据变换操作串联起来,构成一个数据变换的管道。其使用方法如下:
torchvision.models模块介绍:torchvision.models 模块是 Pytorch 的一个子模块,它包含了一些预训练的深度学习模型以及一些用于构建和训练新模型的工具。
该模块中包含了很多经典的深度学习模型,如 AlexNet、VGG、ResNet、Inception、DenseNet 等,这些模型在 ImageNet 上预训练得到了优秀的结果。这些模型通常被用来进行迁移学习,将模型的权重加载到新模型中,用于特定的任务,以提高模型的性能。
总之,torchvision.models 模块是构建和训练深度学习模型的重要工具之一,为用户提供了一些预训练的模型和辅助函数,可以帮助用户更快速地构建和训练自己的深度学习模型。
torch.utils概述:torch.utils
是 Pytorch 中一个提供多种实用工具和数据结构的模块。它包含了一些有用的类和函数,能够帮助用户更方便地进行深度学习任务的开发。
torch.utils 中常用的一些类和函数:
DataLoader对象的创建:创建 DataLoader 对象需要指定数据集对象、批处理大小、是否随机打乱、使用的线程数等参数。例如:
from torch.utils.data import DataLoader
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=4)
使用数据加载器遍历数据集:创建好 DataLoader 对象后,可以通过 for 循环遍历数据集,每次迭代会返回一个批次的数据。例如:
for batch_idx, (data, target) in enumerate(train_loader):
# 进行模型训练或测试等操作
pass
DataLoader 中的每个批次数据是一个元组,其中第一个元素为输入数据,第二个元素为对应的标签。
模块介绍:nn.Module 是 PyTorch 中一个重要的基类,用于定义神经网络模型。nn.Module 包含了神经网络模型的基本功能,例如参数管理、前向传播和反向传播等。通过继承 nn.Module 类,可以快速地搭建出各种神经网络模型。
自定义神经网络模型的方法:
在定义一个自己的神经网络模型时,一般需要继承 nn.Module 类,并实现以下两个方法:
继承已有的神经网络模块:在继承 nn.Module 类时,还可以使用 self.add_module(name, module)
方法,将其他的 nn.Module 子类添加为当前模型的子模块,以便对其进行管理和访问。这个方法还可以将一些不需要更新的变量注册到模型中,例如平移向量等。下面是这个方法的使用示例:
class MyModule(nn.Module):
def __init__(self):
super(MyModule, self).__init__()
self.layer1 = nn.Linear(10, 5)
self.layer2 = nn.Linear(5, 1)
self.add_module("activation", nn.ReLU())
在上面的代码中,我们定义了一个名为 MyModule 的自定义模块,并向其中添加了两个线性层和一个 ReLU 激活函数层。其中,我们使用了 add_module 方法将 ReLU 激活函数层添加为当前模块的一个子模块,命名为 “activation”。
通过使用 add_module 方法,我们可以为当前模块添加任意数量的子模块,以构建更加复杂的深度神经网络结构。在实际应用中,我们经常会使用多个子模块组合成一个完整的模型,例如 ResNet、VGG 等经典的深度神经网络模型,其中每个子模块负责不同的特征提取和转换任务。
可以通过对象名.子模块名
的方式来访问一个模块的子模块。
使用nn.Module的注意事项:
nn.Parameter
类型。torch.autograd.Function
来定义网络层的前向传播过程,以便 PyTorch 自动计算反向传播时的梯度。nn.Sequential
类和 nn.ModuleList
类,将多个网络层组合起来,形成一个完整的神经网络模型。神经网络模型中的各种神经层包括全连接层、卷积层的设置、最大池化层、平均池化层、DropOut层等。
nn.Linear
是 PyTorch 中的一个类,用于创建全连接层。在创建全连接层时,我们需要指定输入和输出的大小,nn.Linearimport torch
import torch.nn as nn
# 定义一个输入大小为 10,输出大小为 5 的全连接层
linear_layer = nn.Linear(10, 5)
# 生成一个随机输入张量
input_tensor = torch.randn(3, 10)
# 前向传播计算
output_tensor = linear_layer(input_tensor)
print("input size: ", input_tensor.size()) # 输出:input size: torch.Size([3, 10])
print("output size: ", output_tensor.size()) # 输出:output size: torch.Size([3, 5])
在上述示例中,我们首先使用 nn.Linear 创建了一个输入大小为 10,输出大小为 5 的全连接层 linear_layer,然后生成一个大小为 3 × 10 3\times10 3×10 的随机输入张量 input_tensor,并通过前向传播计算得到输出张量 output_tensor,其大小为 3 × 5 3\times5 3×5。
备注:nn.Linear 中的输入和输出大小都是指数据张量的最后一维的大小,即对于一个大小为 ( n 1 , n 2 , . . . , n k ) (n_1, n_2, ..., n_k) (n1,n2,...,nk)的输入张量,输入大小为 n k n_k nk,对应的输出张量大小也是由输出大小 m m m 决定的。
此外,nn.Linear 也可以通过 bias参数指定是否启用偏置。默认情况下,nn.Linear 会自动创建偏置参数。
nn.Conv2d
是 PyTorch 中的一个类,用于创建 2D 卷积层。在使用 nn.Conv2d 时,我们需要指定输入和输出的通道数、卷积核的大小和数量、卷积的步幅、填充等参数。以下是使用 nn.Conv2d 函数的示例:import torch
import torch.nn as nn
# 定义一个输入通道数为 3,输出通道数为 16,卷积核大小为 3x3,步幅为 1,填充为 1 的 2D 卷积层
conv_layer = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
# 生成一个随机输入张量
input_tensor = torch.randn(1, 3, 32, 32)
# 前向传播计算
output_tensor = conv_layer(input_tensor)
print("input size: ", input_tensor.size()) # 输出:input size: torch.Size([1, 3, 32, 32])
print("output size: ", output_tensor.size()) # 输出:output size: torch.Size([1, 16, 32, 32])
需要注意的是,在 nn.Conv2d 中,输入和输出的通道数、卷积核的大小和数量等都需要指定为整数。此外,也可以通过 padding_mode 参数指定填充的方式,如 padding_mode=‘zeros’ 表示使用零填充。
默认情况下,nn.Conv2d 中的卷积核的权重参数会自动初始化为随机值,可以通过设置 weight 参数手动指定权重。如果需要使用偏置参数,可以将 bias 参数设置为 True。
以下是使用 nn.MaxPool2d 函数的示例:
import torch
import torch.nn as nn
# 定义一个池化核大小为 2x2,步幅为 2 的 2D 最大池化层
pool_layer = nn.MaxPool2d(kernel_size=2, stride=2)
# 生成一个随机输入张量
input_tensor = torch.randn(1, 16, 32, 32)
# 前向传播计算
output_tensor = pool_layer(input_tensor)
print("input size: ", input_tensor.size()) # 输出:input size: torch.Size([1, 16, 32, 32])
print("output size: ", output_tensor.size()) # 输出:output size: torch.Size([1, 16, 16, 16])
需要注意的是,在 nn.MaxPool2d 中,池化核的大小和步幅等参数也需要指定为整数。默认情况下,nn.MaxPool2d 中的池化核的大小和步幅等参数的值相同。
import torch.nn as nn
# 创建AvgPool2d实例,参数为池化核大小和步长
avg_pool = nn.AvgPool2d(kernel_size=2, stride=2)
# 假设输入特征图的形状为[batch_size, channels, height, width]
x = torch.randn(16, 32, 64, 64) # 输入特征图的随机数据
# 对输入特征图进行平均池化
y = avg_pool(x)
# 输出特征图的形状,将会是原始形状的一半,即[batch_size, channels, height/2, width/2]
print(y.shape)
在上面的例子中,我们首先创建了一个AvgPool2d实例,其中kernel_size参数表示池化核的大小,stride参数表示池化操作的步长。然后,我们定义了一个输入特征图x,随机生成了一些数据。最后,我们使用avg_pool对x进行了平均池化,得到了输出特征图y,并输出了其形状。
需要注意的是,AvgPool2d的输入特征图必须是四维张量,即包含batch_size、通道数、高度和宽度四个维度。此外,输出特征图的高度和宽度将会是输入特征图的一半,因为在上面的例子中我们将池化核大小和步长都设置为了2。如果需要更改这些参数,只需要修改AvgPool2d的参数即可。
AdaptiveMaxPool2d
是PyTorch中自适应二维最大池化层的实现,它可以对输入特征图进行自适应的最大池化操作,输出固定形状的特征图。相比于传统的最大池化层,AdaptiveMaxPool2d不需要指定池化核大小和步长,而是根据输出特征图的大小自适应地调整池化核的大小和步长。下面是一个简单的例子:
import torch
import torch.nn as nn
# 创建AdaptiveMaxPool2d实例,参数为输出特征图的大小
adaptive_max_pool = nn.AdaptiveMaxPool2d(output_size=(3, 3))
# 假设输入特征图的形状为[batch_size, channels, height, width]
x = torch.randn(16, 32, 64, 64) # 输入特征图的随机数据
# 对输入特征图进行自适应最大池化
y = adaptive_max_pool(x)
# 输出特征图的形状,将会是[batch_size, channels, 3, 3]
print(y.shape)
在使用 nn.Dropout 时,我们需要指定 dropout 概率,即将输入张量中的元素以指定的概率设为 0。同时,我们还需要注意,在模型的训练和测试阶段,nn.Dropout 的行为是不同的。在训练阶段,nn.Dropout 会随机丢弃输入张量中的一些元素,从而起到正则化的效果;而在测试阶段,nn.Dropout 不会对输入张量进行任何处理,仅仅将其传递给下一层。
以下是使用 nn.Dropout 的示例:
import torch
import torch.nn as nn
# 定义一个 dropout 概率为 0.5 的 Dropout 层
dropout_layer = nn.Dropout(p=0.5)
# 生成一个随机输入张量
input_tensor = torch.randn(1, 16)
# 前向传播计算
output_tensor = dropout_layer(input_tensor)
print("input: ", input_tensor) # 输出:input: tensor([[ 1.2222, 0.2195, 0.6908, -0.2049, -1.3126, -0.8331, -0.0946, -0.2113,
0.5126, 1.2111, -0.3068, -0.5277, -0.8499, -0.9301, -0.4993, 1.6586]])
print("output: ", output_tensor) # 输出:output: tensor([[ 0.0000, 0.4390, 0.0000, -0.0000, -2.6251, -1.6663, -0.0000, -0.4226,
0.0000, 2.4222, -0.0000, -0.0000, -1.6998, -0.0000, -0.0000, 0.0000]])
需要注意的是,在实际使用中,为了避免 dropout 对模型的性能造成过大的影响,我们通常会将 dropout 概率设置为比较小的值,例如 0.1 或者 0.2。
同时,如果我们在模型训练过程中使用了 Dropout,我们在进行模型评估时也需要将其设置为 eval()。
交叉熵:
nn.CrossEntropyLoss
是一个用于多分类问题的损失函数,在PyTorch中经常被用于训练分类模型。其主要功能是将模型预测值与真实标签进行比较,计算出预测结果与真实结果之间的差距,然后反向传播优化模型参数。nn.CrossEntropyLoss
实例,在实例化时可以设置一些参数,例如权重、忽略某些标签等;接着在模型训练过程中,将模型预测结果和真实标签传入nn.CrossEntropyLoss
实例中计算损失,然后调用反向传播算法进行模型参数优化。下面是一个简单的示例代码:import torch
import torch.nn as nn
# 定义模型预测值和真实标签
inputs = torch.randn(10, 5) # 10个样本,5个类别
targets = torch.randint(5, (10,)) # 10个样本的真实标签,取值为0~4
# 定义损失函数
criterion = nn.CrossEntropyLoss()
# 计算损失
loss = criterion(inputs, targets)
# 反向传播更新模型参数
loss.backward()
其中,inputs是模型预测值,targets是真实标签。在计算损失时,我们将inputs和targets传给nn.CrossEntropyLoss实例,它会自动计算损失。最后,我们调用loss.backward()进行反向传播更新模型参数。
基本概述:torch.optim
是PyTorch中用于实现各种优化算法的模块,包含了常用的优化算法(如SGD,Adam等)的实现。其主要作用是实现神经网络的参数优化,即通过调整网络中的参数使得网络的输出能够更好地拟合目标值。
核心类Optimizer中的方法:
zero_grad()
: 将所有参数的梯度设为0。step()
: 根据梯度更新参数值。add_param_group(param_group)
: 将一个新的参数组加入到优化器中。优化器的使用步骤:
例如,使用SGD算法进行参数优化,可以按照以下步骤进行:
import torch.optim as optim
# 创建需要优化的参数
params = model.parameters()
# 定义优化器
optimizer = optim.SGD(params, lr=0.01, momentum=0.9)
# 在每次反向传播后调用zero_grad()清空梯度
optimizer.zero_grad()
# 计算损失并反向传播
loss.backward()
# 调用step()方法进行参数更新
optimizer.step()
基本介绍:optim.SGD
是PyTorch中的一个优化器,它实现了随机梯度下降算法。SGD是深度学习中常用的一种优化方法,其主要思想是通过反向传播算法计算梯度并不断地更新模型参数,使得损失函数最小化。下面是optim.SGD的使用方法:
import torch.optim as optim
optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum)
其中,model.parameters()表示需要优化的参数集合,lr是学习率,momentum是动量因子,这两个参数可以根据具体问题进行调整。在训练过程中,我们可以在每个batch的训练中使用optimizer来更新模型参数。