1.导包。
#线性回归的简洁实现就是使用pytorch内置的一些模块来实现
import numpy as np
import torch
from torch.utils import data #从torch.utils中导入关于data处理的模块
from d2l import torch as d2l
2.调用d2l中的synthetic_data
生成训练集和测试集。
true_w = torch.tensor([2, -3.4])#构造w
true_b = 4.2#构造b
features, labels = d2l.synthetic_data(true_w, true_b, 1000)#synthetic_data生成数据集函数
1、调用框架中现有的API来读取数据
2、将 features
和 labels
作为API的参数传递,并在实例化数据迭代器对象时指定 batch_size
# is_train=True:表示希望数据迭代器对象在每个迭代周期内打乱数据
# data_arrays:表示可以传入多个矩阵,即是将features和labels作为参数,data_arrays相当于一个API
def load_array(data_arrays, batch_size, is_train=True): #@save
"""构造一个PyTorch数据迭代器。"""
#TensorDateset:把输入的两类数据进行一一对应;
#DataLoader:重新排序
dataset = data.TensorDataset(*data_arrays)#*可以对list解开入参,因为features和labels作为API参数传递
return data.DataLoader(dataset, batch_size, shuffle=is_train)#每次随机挑选batch_size个样本,shuffle意思是要不要打乱顺序
# 读取10个样本
batch_size = 10
data_iter = load_array((features, labels), batch_size)
# 不能直接从data_iter中获得数据
next(iter(data_iter))#将data_iter用iter()函数转为迭代器,再使用next()函数从迭代器中获取数据
#输出结果
[tensor([[-0.5143, -1.0371],
[ 0.0254, -0.1204],
[ 0.1787, 0.2586],
[-0.6284, 0.7571],
[-0.3744, 0.5989],
[ 0.1679, -1.5357],
[-0.6135, -1.2744],
[ 0.3798, -0.8941],
[-1.6691, -0.6110],
[ 0.0555, -0.3930]]),
tensor([[6.7026],
[4.6815],
[3.6661],
[0.3918],
[1.4045],
[9.7481],
[7.2834],
[7.9958],
[2.9436],
[5.6409]])]
1、使用框架的预定义好的层,即我们只需关注使用哪些层来构造模型,而不必关注层的实现细节
2、实现步骤:
首先定义一个模型变量net
,它是一个 Sequential
类的实例
Sequential
类为串联在一起的多个层定义了一个容器。当给定输入数据, Sequential
实例将数据传入到第一层,然后将第一层的输出作为第二层的输入,依此类推
3、Pytorch中,全连接层在Linear类中定义。Linear中,第一个变量为输入特征形状,第二个变量为输出特征形状
# `nn` 是神经网络的缩写
from torch import nn
# Linear中,第一个指定输入特征数,第二个指定输出数
net = nn.Sequential(nn.Linear(2, 1))#输入维度是2,输出维度是1;
#nn.Linear(2,1)可以理解为线性回归就是简单的单层神经网络,将其放在一个Sequential中
1、在使用net前,需要初始化模型参数,如在此需要初始化权重与偏置。其实在生成神经网络的时候,已经为权重设置了默认的值。
2、在这里,我们修改默认值,手动地指定每个权重参数应该从均值为0、标准差为0.01的正态分布中随机采样,偏置参数将初始化为零
# net[0]:表示使用网络中的第一个图层
# 权重参数从均值为0,标准差为0.01的正态分布中随机采样
print(net[0].weight.data)
net[0].weight.data.normal_(0, 0.01)#normal_(0, 0.01)的意思是使用正态分布替换data的值,均值为0、标准差为0.01
print(net[0].weight.data)
#偏置参数初始化为0
print(net[0].bias.data)
net[0].bias.data.fill_(0)#bias偏差
print(net[0].bias.data)
#输出函数
tensor([[ 0.0080, -0.0021]])
tensor([[-0.0073, 0.0137]])
tensor([0.])
tensor([0.])
1、计算均方误差使用的是MSELoss类,也称为平方L2范数
2、默认情况下,他返回所有样本损失的平均值
# 平方L2范数,返回所有样本损失的平均值
loss = nn.MSELoss()
# net.parameters()常用于做模块参数
# SGD随机梯度下降求解
trainer = torch.optim.SGD(net.parameters(), lr=0.03) #net.parameters()包括了w和b
1、在每个迭代周期里,我们将完整遍历一次数据集
2、在每个迭代周期里,会不停地从中获取一个小批量的输入和相应的标签,对于每一个小批量,操作如下:
net(X)
生成预测并计算损失 l
(正向传播)。num_epochs = 3#迭代三个周期
for epoch in range(num_epochs):
for X, y in data_iter:
l = loss(net(X), y)#loss是损失函数
trainer.zero_grad()#trainer优化器,先把梯度清零
l.backward()#等价于l.sum().backward()——求和之后算梯度
trainer.step()#调用优化算法进行模型更新
l = loss(net(features), labels)
print(f'epoch {epoch + 1}, loss {l:f}')
#输出结果
epoch 1, loss 0.000271
epoch 2, loss 0.000095
epoch 3, loss 0.000095
3、比较生成数据集的真实参数和通过有限数据训练获得的模型参数
w = net[0].weight.data
print('w的估计误差:', true_w - w.reshape(true_w.shape))
b = net[0].bias.data
print('b的估计误差:', true_b - b)
# 输出结果
w的估计误差: tensor([-5.9581e-04, 8.9407e-05])
b的估计误差: tensor([-9.8228e-05])