前言:
在DL中,通常dataset与net 较大 会导致计算量很大,因此计算性能非常重要,
因为接下来我们将讨论影响计算性能的主要因素:
①命令式编程
②符号编程
③异步计算
④自动并行与多GPU计算
通过以上方法,我们可以在不影响accuracy的前提下,大大减少 training time
可以理解为解释性执行代码,即按步进行编译 并计算
可以理解为 编译性编程。 即code 通常只在完全定义了 过程之后才会执行计算。
步骤如下:
这种编程允许进行大量的优化:
1.在大多数情况下跳过解释器,从而消除因为多个更快的GPU与单个CPU上的单个Python线程搭配使用时产生的性能瓶颈
2.**可以通过计算图优化整体代码。**因为编译器 在将其转换为机器指令之前可以看到完整的代码,**例如:**只要某个变量不再需要,编译器就可以释放内存,或者将code转化为一个完全等价的片段。
Pytorch基于命令式编程 并且可以使用动态计算图。但为了利用 符号式编程的可移植性和效率,产生了torchscript。 即允许用户使用纯命令式编程进行开发调试,同时能够 将大多数程序转换为符号式程序,以便在需要产品级计算性能和部署时使用。
当我们具有 多GPU服务器时,python的单线程 解释器瓶颈 很难 让所有GPU保持忙碌,于是我们通过将 Sequential
替换为HybridSequential
来解决代码中这个瓶颈。首先,我们定义一个简单的多层感知机。
import torch
from torch import nn
from d2l import torch as d2l
# 生产网络的工厂模式
def get_net():
net = nn.Sequential(nn.Linear(512, 256),
nn.ReLU(),
nn.Linear(256, 128),
nn.ReLU(),
nn.Linear(128, 2))
return net
x = torch.randn(size=(1, 512))
net = get_net()
net(x)
result:
tensor([[ 0.0244, -0.0361]], grad_fn=)
通过使用torch.jit.script
函数来转换模型,我们就有能力编译和优化多层感知机中的计算,而模型的计算结果保持不变。
net = torch.jit.script(net)
net(x)
tensor([[ 0.0244, -0.0361]], grad_fn=)
我们编写与之前相同的代码,再使用torch.jit.script
简单地转换模型,当完成这些任务后,网络就将得到优化(我们将在下面对性能进行基准测试)。
为了证明通过编译获得了性能改进,我们比较了混合编程前后执行net(x)
所需的时间。让我们先定义一个度量时间的类,它在本章中在衡量(和改进)模型性能时将非常有用。
#@save
class Benchmark:
"""用于测量运行时间"""
def __init__(self, description='Done'):
self.description = description
def __enter__(self):
self.timer = d2l.Timer()
return self
def __exit__(self, *args):
print(f'{self.description}: {self.timer.stop():.4f} sec')
现在我们可以调用网络两次,一次使用torchscript,一次不使用torchscript。
net = get_net()
with Benchmark('无torchscript'):
for i in range(1000): net(x)
net = torch.jit.script(net)
with Benchmark('有torchscript'):
for i in range(1000): net(x)
result:
无torchscript: 1.8929 sec
有torchscript: 1.8184 sec
如以上结果所示,在nn.Sequential
的实例被函数torch.jit.script
脚本化后,通过使用符号式编程提高了计算性能。
**编译模型的好处之一是我们可以将模型及其参数序列化(保存)到磁盘。这允许这些训练好的模型部署到其他设备上,并且还能方便地使用其他前端编程语言。**同时,通常编译模型的代码执行速度也比命令式编程更快。让我们看看save
的实际功能。
net.save('my_mlp')
!ls -lh my_mlp*
result:
-rw-rw-r-- 1 d2l-worker d2l-worker 651K Jul 31 02:39 my_mlp
前言:
异步类似于:同时处理,多线程 (异步计算就是前端创建任务,后端(如GPU) 线程收集和执行排队的任务,两者不影响)
同步类似于:按上下文顺序处理,单线程
PyTorch使用Python自己的调度器来实现不同的性能权衡。对于PyTorch来说GPU操作在默认情况下是异步的。当你调用一个使用GPU的函数时,操作会排队到特定的设备上,但不一定要等到以后才执行。这允许我们并行执行更多的计算,包括在CPU或其他GPU上的操作。
因此,了解异步编程是如何工作的,通过主动地减少计算需求和相互依赖,有助于我们开发更高效的程序。这使我们能够减少内存开销并提高处理器利用率。
import os
import subprocess
import numpy
import torch
from torch import nn
from d2l import torch as d2l
请注意,此处PyTorch的tensor 是在GPU上定义的
# GPU计算热身
device = d2l.try_gpu()
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
with d2l.Benchmark('numpy'):
for _ in range(10):
a = numpy.random.normal(size=(1000, 1000))
b = numpy.dot(a, a)
with d2l.Benchmark('torch'):
for _ in range(10):
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
result:
numpy: 1.2837 sec
torch: 0.0010 sec
这里巨大的时间差除了GPU与CPU的区别 还有其他原因。 默认情况下,GPU操作在PyTorch中是异步的, 强制PyTorch在返回之前完成所有计算,这种强制说明了之前发生的情况:计算是由后端执行,而前端将控制权返回给了Python。
with d2l.Benchmark():
for _ in range(10):
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
torch.cuda.synchronize(device)# torch.cuda.synchronize(device)强制同步cuda操作,使得gpu上的操作都完成了才形成 benchmark中的 exit函数
result:
Done: 0.0106 sec
总的来说,Pytorch 由进行交互的前端(如Python)和系统同来执行计算的后端。
前端语言发出操作传递到后端执行,后端管理好自己的线程 ,这些线程不断收集和执行排队的任务。请注意,要使其工作,后端必须能够跟踪计算图中各个步骤之间的依赖关系。因此,不可能并行化相互依赖的操作。
这样设计的好处是, Python前端线程不需要执行实际的计算。因此,不管Python的性能如何,对程序的整体性能几乎没有影响。
前言:深度学习框架 如PyTorch 会在后端自动构建计算图。利用计算图,系统可以了解计算中的所有依赖关系,并且可以选择性地并行执行多个不互相依赖的任务来提高速度。
并行即为同时多个操作
通常情况下单个操作符将使用所有CPU或单个GPU上的所有计算资源。因此,并行化对于单设备计算机来说并不是很有用,而并行化对于多个设备就很重要。
更广泛地考虑,我们对自动并行计算的讨论主要集中在使用CPU和GPU的并行计算上,以及计算和通信的并行化内容
本节,我们至少需要两个 GPU来运行本节实验
import torch
from d2l import torch as d2l
通常来说,没有依赖关系的两个操作如果被指定在不同设备上运行,通常是并行计算的
让我们从定义一个具有参考性的用于测试的工作负载开始:下面的run
devices = d2l.try_all_gpus()
def run(x):
return [x.mm(x) for _ in range(50)]
x_gpu1 = torch.rand(size=(4000, 4000), device=devices[0])
x_gpu2 = torch.rand(size=(4000, 4000), device=devices[1])
现在我们使用函数来数据。我们通过在测量之前预热设备(对设备执行一次传递)来确保缓存的作用不影响最终的结果。**torch.cuda.synchronize()
函数将会等待一个CUDA设备上的所有流中的所有核心的计算完成****。函数接受一个device
参数,代表是哪个设备需要同步。如果device参数是None
(默认值),它将使用current_device()
找出的当前设备。
run(x_gpu1)
run(x_gpu2) # 预热设备
torch.cuda.synchronize(devices[0])
torch.cuda.synchronize(devices[1])
with d2l.Benchmark('GPU1 time'):
run(x_gpu1)
torch.cuda.synchronize(devices[0])
with d2l.Benchmark('GPU2 time'):
run(x_gpu2)
torch.cuda.synchronize(devices[1])
result:
GPU1 time: 0.5036 sec
GPU2 time: 0.5141 sec
如果我们删除两个任务之间的synchronize
语句,系统就可以在两个设备上自动实现并行计算。
with d2l.Benchmark('GPU1 & GPU2'):
run(x_gpu1)
run(x_gpu2)
torch.cuda.synchronize()
result:
GPU1 & GPU2: 0.5043 sec
在上述情况下,总执行时间小于两个部分执行时间的总和,因为深度学习框架自动调度两个GPU设备上的计算,而不需要用户编写复杂的代码。
在许多情况下,我们需要在不同的设备之间移动数据,比如在CPU和GPU之间,或者在不同的GPU之间。例如,当我们打算执行分布式优化时,就需要移动数据来聚合多个加速卡上的梯度。让我们通过在GPU上计算,然后将结果复制回CPU来模拟这个过程。
def copy_to_cpu(x, non_blocking=False):
return [y.to('cpu', non_blocking=non_blocking) for y in x]
with d2l.Benchmark('在GPU1上运行'):
y = run(x_gpu1)
torch.cuda.synchronize()
with d2l.Benchmark('复制到CPU'):
y_cpu = copy_to_cpu(y)
torch.cuda.synchronize()
result:
在GPU1上运行: 0.5064 sec
复制到CPU: 2.4303 sec
这种方式效率不高。注意到当列表中的其余部分还在计算时,我们就可以开始将y
的部分复制到CPU。例如,当我们计算一个小批量的(反传)梯度时。某些参数的梯度将比其他参数的梯度更早可用。因此,在GPU仍在运行时就开始使用PCI-Express总线带宽来移动数据对我们是有利的。**在PyTorch中,to()
和copy_()
等函数都允许显式的non_blocking
参数,这允许在不需要同步时调用方可以绕过同步。**设置non_blocking=True
让我们模拟这个场景。
with d2l.Benchmark('在GPU1上运行并复制到CPU'):
y = run(x_gpu1)
y_cpu = copy_to_cpu(y, True)#此处为异步指定
#上述两句实现并行
torch.cuda.synchronize()
result:
在GPU1上运行并复制到CPU: 1.9874 sec
两个操作所需的总时间少于它们各部分操作所需时间的总和。请注意,与并行计算的区别是通信操作使用的资源:CPU和GPU之间的总线。事实上,我们可以在两个设备上同时进行计算和通信。如上所述,计算和通信之间存在的依赖关系是必须先计算y[i]
,然后才能将其复制到CPU。幸运的是,系统可以在计算y[i]
的同时复制y[i-1]
,以减少总的运行时间。
最后,我们给出了一个简单的两层多层感知机在CPU和两个GPU上训练时的计算图及其依赖关系的例子,如 图12.3.1所示。手动调度由此产生的并行程序将是相当痛苦的。这就是基于图的计算后端进行优化的优势所在。
本节内容可以作为了解某些算法为什么比其他算法更高效以及如何实现良好吞吐量 的起点,
一个处理器(也被称为CPU),它除了能够运行操作系统和许多其他功能之外,还能够执行我们给它的程序,通常由一个或更多个核心组成
内存(随机访问存储,RAM)用于存储和检索计算结果,如权重向量和激活参数,以及训练数据
一个或多个以太网连接,速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连
高速扩展总线(PCIe)用于系统连接一个或多个GPU。服务器最多有8个加速卡,通常以更高级的拓扑方式连接,而桌面系统则有1个或2个加速卡,具体取决于用户的预算和电源负载的大小
持久性存储设备,如磁盘驱动器、固态驱动器,在许多情况下使用高速扩展总线连接。它为系统需要的训练数据和中间检查点需要的存储提供了足够的传输速度
如 图12.4.2所示,高速扩展总线由直接连接到CPU的多个通道组成,将CPU与大多数组件(网络、GPU和存储)连接在一起。
关于剩余的硬件知识,因为笔者大一还不了解,这里不做阐述
前言:
在DL中,通常dataset与net 较大 会导致计算量很大,因此计算性能非常重要,
因为接下来我们将讨论影响计算性能的主要因素:
①命令式编程
②符号编程
③异步计算
④自动并行与多GPU计算
通过以上方法,我们可以在不影响accuracy的前提下,大大减少 training time
可以理解为解释性执行代码,即按步进行编译 并计算
可以理解为 编译性编程。 即code 通常只在完全定义了 过程之后才会执行计算。
步骤如下:
这种编程允许进行大量的优化:
1.在大多数情况下跳过解释器,从而消除因为多个更快的GPU与单个CPU上的单个Python线程搭配使用时产生的性能瓶颈
2.**可以通过计算图优化整体代码。**因为编译器 在将其转换为机器指令之前可以看到完整的代码,**例如:**只要某个变量不再需要,编译器就可以释放内存,或者将code转化为一个完全等价的片段。
Pytorch基于命令式编程 并且可以使用动态计算图。但为了利用 符号式编程的可移植性和效率,产生了torchscript。 即允许用户使用纯命令式编程进行开发调试,同时能够 将大多数程序转换为符号式程序,以便在需要产品级计算性能和部署时使用。
当我们具有 多GPU服务器时,python的单线程 解释器瓶颈 很难 让所有GPU保持忙碌,于是我们通过将 Sequential
替换为HybridSequential
来解决代码中这个瓶颈。首先,我们定义一个简单的多层感知机。
import torch
from torch import nn
from d2l import torch as d2l
# 生产网络的工厂模式
def get_net():
net = nn.Sequential(nn.Linear(512, 256),
nn.ReLU(),
nn.Linear(256, 128),
nn.ReLU(),
nn.Linear(128, 2))
return net
x = torch.randn(size=(1, 512))
net = get_net()
net(x)
result:
tensor([[ 0.0244, -0.0361]], grad_fn=)
通过使用torch.jit.script
函数来转换模型,我们就有能力编译和优化多层感知机中的计算,而模型的计算结果保持不变。
net = torch.jit.script(net)
net(x)
tensor([[ 0.0244, -0.0361]], grad_fn=)
我们编写与之前相同的代码,再使用torch.jit.script
简单地转换模型,当完成这些任务后,网络就将得到优化(我们将在下面对性能进行基准测试)。
为了证明通过编译获得了性能改进,我们比较了混合编程前后执行net(x)
所需的时间。让我们先定义一个度量时间的类,它在本章中在衡量(和改进)模型性能时将非常有用。
#@save
class Benchmark:
"""用于测量运行时间"""
def __init__(self, description='Done'):
self.description = description
def __enter__(self):
self.timer = d2l.Timer()
return self
def __exit__(self, *args):
print(f'{self.description}: {self.timer.stop():.4f} sec')
现在我们可以调用网络两次,一次使用torchscript,一次不使用torchscript。
net = get_net()
with Benchmark('无torchscript'):
for i in range(1000): net(x)
net = torch.jit.script(net)
with Benchmark('有torchscript'):
for i in range(1000): net(x)
result:
无torchscript: 1.8929 sec
有torchscript: 1.8184 sec
如以上结果所示,在nn.Sequential
的实例被函数torch.jit.script
脚本化后,通过使用符号式编程提高了计算性能。
**编译模型的好处之一是我们可以将模型及其参数序列化(保存)到磁盘。这允许这些训练好的模型部署到其他设备上,并且还能方便地使用其他前端编程语言。**同时,通常编译模型的代码执行速度也比命令式编程更快。让我们看看save
的实际功能。
net.save('my_mlp')
!ls -lh my_mlp*
result:
-rw-rw-r-- 1 d2l-worker d2l-worker 651K Jul 31 02:39 my_mlp
前言:
异步类似于:同时处理,多线程 (异步计算就是前端创建任务,后端(如GPU) 线程收集和执行排队的任务,两者不影响)
同步类似于:按上下文顺序处理,单线程
PyTorch使用Python自己的调度器来实现不同的性能权衡。对于PyTorch来说GPU操作在默认情况下是异步的。当你调用一个使用GPU的函数时,操作会排队到特定的设备上,但不一定要等到以后才执行。这允许我们并行执行更多的计算,包括在CPU或其他GPU上的操作。
因此,了解异步编程是如何工作的,通过主动地减少计算需求和相互依赖,有助于我们开发更高效的程序。这使我们能够减少内存开销并提高处理器利用率。
import os
import subprocess
import numpy
import torch
from torch import nn
from d2l import torch as d2l
请注意,此处PyTorch的tensor 是在GPU上定义的
# GPU计算热身
device = d2l.try_gpu()
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
with d2l.Benchmark('numpy'):
for _ in range(10):
a = numpy.random.normal(size=(1000, 1000))
b = numpy.dot(a, a)
with d2l.Benchmark('torch'):
for _ in range(10):
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
result:
numpy: 1.2837 sec
torch: 0.0010 sec
这里巨大的时间差除了GPU与CPU的区别 还有其他原因。 默认情况下,GPU操作在PyTorch中是异步的, 强制PyTorch在返回之前完成所有计算,这种强制说明了之前发生的情况:计算是由后端执行,而前端将控制权返回给了Python。
with d2l.Benchmark():
for _ in range(10):
a = torch.randn(size=(1000, 1000), device=device)
b = torch.mm(a, a)
torch.cuda.synchronize(device)# torch.cuda.synchronize(device)强制同步cuda操作,使得gpu上的操作都完成了才形成 benchmark中的 exit函数
result:
Done: 0.0106 sec
总的来说,Pytorch 由进行交互的前端(如Python)和系统同来执行计算的后端。
前端语言发出操作传递到后端执行,后端管理好自己的线程 ,这些线程不断收集和执行排队的任务。请注意,要使其工作,后端必须能够跟踪计算图中各个步骤之间的依赖关系。因此,不可能并行化相互依赖的操作。
这样设计的好处是, Python前端线程不需要执行实际的计算。因此,不管Python的性能如何,对程序的整体性能几乎没有影响。
前言:深度学习框架 如PyTorch 会在后端自动构建计算图。利用计算图,系统可以了解计算中的所有依赖关系,并且可以选择性地并行执行多个不互相依赖的任务来提高速度。
并行即为同时多个操作
通常情况下单个操作符将使用所有CPU或单个GPU上的所有计算资源。因此,并行化对于单设备计算机来说并不是很有用,而并行化对于多个设备就很重要。
更广泛地考虑,我们对自动并行计算的讨论主要集中在使用CPU和GPU的并行计算上,以及计算和通信的并行化内容
本节,我们至少需要两个 GPU来运行本节实验
import torch
from d2l import torch as d2l
通常来说,没有依赖关系的两个操作如果被指定在不同设备上运行,通常是并行计算的
让我们从定义一个具有参考性的用于测试的工作负载开始:下面的run
devices = d2l.try_all_gpus()
def run(x):
return [x.mm(x) for _ in range(50)]
x_gpu1 = torch.rand(size=(4000, 4000), device=devices[0])
x_gpu2 = torch.rand(size=(4000, 4000), device=devices[1])
现在我们使用函数来数据。我们通过在测量之前预热设备(对设备执行一次传递)来确保缓存的作用不影响最终的结果。**torch.cuda.synchronize()
函数将会等待一个CUDA设备上的所有流中的所有核心的计算完成****。函数接受一个device
参数,代表是哪个设备需要同步。如果device参数是None
(默认值),它将使用current_device()
找出的当前设备。
run(x_gpu1)
run(x_gpu2) # 预热设备
torch.cuda.synchronize(devices[0])
torch.cuda.synchronize(devices[1])
with d2l.Benchmark('GPU1 time'):
run(x_gpu1)
torch.cuda.synchronize(devices[0])
with d2l.Benchmark('GPU2 time'):
run(x_gpu2)
torch.cuda.synchronize(devices[1])
result:
GPU1 time: 0.5036 sec
GPU2 time: 0.5141 sec
如果我们删除两个任务之间的synchronize
语句,系统就可以在两个设备上自动实现并行计算。
with d2l.Benchmark('GPU1 & GPU2'):
run(x_gpu1)
run(x_gpu2)
torch.cuda.synchronize()
result:
GPU1 & GPU2: 0.5043 sec
在上述情况下,总执行时间小于两个部分执行时间的总和,因为深度学习框架自动调度两个GPU设备上的计算,而不需要用户编写复杂的代码。
在许多情况下,我们需要在不同的设备之间移动数据,比如在CPU和GPU之间,或者在不同的GPU之间。例如,当我们打算执行分布式优化时,就需要移动数据来聚合多个加速卡上的梯度。让我们通过在GPU上计算,然后将结果复制回CPU来模拟这个过程。
def copy_to_cpu(x, non_blocking=False):
return [y.to('cpu', non_blocking=non_blocking) for y in x]
with d2l.Benchmark('在GPU1上运行'):
y = run(x_gpu1)
torch.cuda.synchronize()
with d2l.Benchmark('复制到CPU'):
y_cpu = copy_to_cpu(y)
torch.cuda.synchronize()
result:
在GPU1上运行: 0.5064 sec
复制到CPU: 2.4303 sec
这种方式效率不高。注意到当列表中的其余部分还在计算时,我们就可以开始将y
的部分复制到CPU。例如,当我们计算一个小批量的(反传)梯度时。某些参数的梯度将比其他参数的梯度更早可用。因此,在GPU仍在运行时就开始使用PCI-Express总线带宽来移动数据对我们是有利的。**在PyTorch中,to()
和copy_()
等函数都允许显式的non_blocking
参数,这允许在不需要同步时调用方可以绕过同步。**设置non_blocking=True
让我们模拟这个场景。
with d2l.Benchmark('在GPU1上运行并复制到CPU'):
y = run(x_gpu1)
y_cpu = copy_to_cpu(y, True)#此处为异步指定
#上述两句实现并行
torch.cuda.synchronize()
result:
在GPU1上运行并复制到CPU: 1.9874 sec
两个操作所需的总时间少于它们各部分操作所需时间的总和。请注意,与并行计算的区别是通信操作使用的资源:CPU和GPU之间的总线。事实上,我们可以在两个设备上同时进行计算和通信。如上所述,计算和通信之间存在的依赖关系是必须先计算y[i]
,然后才能将其复制到CPU。幸运的是,系统可以在计算y[i]
的同时复制y[i-1]
,以减少总的运行时间。
最后,我们给出了一个简单的两层多层感知机在CPU和两个GPU上训练时的计算图及其依赖关系的例子,如 图12.3.1所示。手动调度由此产生的并行程序将是相当痛苦的。这就是基于图的计算后端进行优化的优势所在。
本节内容可以作为了解某些算法为什么比其他算法更高效以及如何实现良好吞吐量 的起点,
一个处理器(也被称为CPU),它除了能够运行操作系统和许多其他功能之外,还能够执行我们给它的程序,通常由一个或更多个核心组成
内存(随机访问存储,RAM)用于存储和检索计算结果,如权重向量和激活参数,以及训练数据
一个或多个以太网连接,速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连
高速扩展总线(PCIe)用于系统连接一个或多个GPU。服务器最多有8个加速卡,通常以更高级的拓扑方式连接,而桌面系统则有1个或2个加速卡,具体取决于用户的预算和电源负载的大小
持久性存储设备,如磁盘驱动器、固态驱动器,在许多情况下使用高速扩展总线连接。它为系统需要的训练数据和中间检查点需要的存储提供了足够的传输速度
图12.4.2 计算机组件的连接
如 图12.4.2所示,高速扩展总线由直接连接到CPU的多个通道组成,将CPU与大多数组件(网络、GPU和存储)连接在一起。
关于剩余的硬件知识,因为笔者大一还不了解,这里不做阐述
对于需要分类的小批量训练数据,我们有以下选择:
① 在多个GPU之间拆分网络 (常用于一个GPU不能容纳一个网络的情况) 一般不建议此种方法
②拆分层内的工作 如一个层的64个通道 在四个GPU上均分16个通道(用于处理显存非常小的GPU)现在一般不使用此种方法
③数据并行。即将一个批量均分到多个 GPU上 推荐方法’
假设一台机器有k个 GPU。 给定需要训练的模型,虽然每个GPU上的参数值都是相同且同步的,但是每个GPU都将独立地维护一组完整的模型参数。 例如, 图12.5.3演示了在时基于数据并行方法训练模型。 图12.5.3
一般来说,k个GPU并行训练过程如下:
在任何一次训练迭代中,给定的随机的小批量样本都将被分成k个部分,并均匀地分配到GPU上。
每个GPU根据分配给它的小批量子集,计算模型参数的损失和梯度。将k个GPU中的局部梯度聚合,以获得当前小批量的随机梯度
将k个GPU中的局部梯度聚合,以获得当前小批量的随机梯度。
聚合梯度被重新分发到每个GPU中
每个GPU使用这个小批量随机梯度,来更新它所维护的完整的模型参数集。
在实践中请注意,当在k个GPU上训练时,需要扩大小批量的大小为k的倍数,这样每个GPU都有相同的工作量,就像只在单个GPU上训练一样,同时还应该提高学习率。 还请注意,批量规范化也需要调整,例如,为每个GPU保留单独的批量规范化参数
下面我们将使用一个简单网络来演示多GPU训练。
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l
我们使用稍作修改的 LeNet,从零开始定义它,从而详细说明参数交换和同步
#初始化模型参数
scale = 0.01 #缩小w为原来的0.01倍
W1 = torch.randn(size=(20, 1, 3, 3)) * scale
b1 = torch.zeros(20)
W2 = torch.randn(size=(50, 20, 5, 5)) * scale
b2 = torch.zeros(50)
W3 = torch.randn(size=(800, 128)) * scale
b3 = torch.zeros(128)
W4 = torch.randn(size=(128, 10)) * scale
b4 = torch.zeros(10)
params = [W1, b1, W2, b2, W3, b3, W4, b4] #模型参数list
#定义模型
def lenet(X,params):
h1_conv = F.conv2d(input=X, weight=params[0], bias=params[1])
h1_activation = F.relu(h1_conv)
h1 = F.avg_pool2d(input=h1_activation, kernel_size=(2, 2), stride=(2, 2))
h2_conv = F.conv2d(input=h1, weight=params[2], bias=params[3])
h2_activation = F.relu(h2_conv)
h2 = F.avg_pool2d(input=h2_activation, kernel_size=(2, 2), stride=(2, 2))
h2 = h2.reshape(h2.shape[0], -1)
h3_linear = torch.mm(h2, params[4]) + params[5]
h3 = F.relu(h3_linear)
y_hat = torch.mm(h3, params[6]) + params[7]
return y_hat
# 交叉熵损失函数
loss = nn.CrossEntropyLoss(reduction='none')
对于高效的多GPU训练,我们需要两个基本操作。
1.向多个设备 分发 参数并附发梯度(get_params)
2.跨多个设备对参数求和 allreduce函数
#第一个基本操作
def get_params(params,device):
new_params=[p.to(device) for p in params] #将模型所有参数 移入相应device
for p in new_params:
p.requires_grad_() #将每个模型参数 附加梯度属性
return new_params
将模型参数复制到一个GPU
new_params=get_params(params,d2l.try_gpu(0))
print('b1 权重:', new_params[1])
print('b1 梯度:', new_params[1].grad)
result:
print('b1 权重:', new_params[1])
print('b1 梯度:', new_params[1].grad)
假设现在有一个向量分布在多个GPU上, 下面的allreduce
函数将所有向量相加,并将结果广播给所有GPU。
def allreduce(data):
for i in range(1,len(data)): #len(data)得到data的第0维
#首先将除data[0]所在的GPU之外所有GPU上相应的向量都copy到data[0]的device
data[0][:]+=data[i].to(data[0].device)
for i in range(1,len(data)):
#将之前所加的结果分别在其余GPU上进行更新
data[i][:]=data[0].to(data[i].device)
通过在不同设备上创建具有不同值得向量并聚合他们
#创建数据分别在两个device的data
data=[torch.ones((1,2),device=d2l.try_gpu(i))*(i+1) for i in range(2)]
print('allreduce之前:\n', data[0], '\n', data[1])
allreduce(data)
print('allreduce之后:\n', data[0], '\n', data[1])
result:
allreduce之前:
tensor([[1., 1.]], device='cuda:0')
tensor([[2., 2.]], device='cuda:1')
allreduce之后:
tensor([[3., 3.]], device='cuda:0')
tensor([[3., 3.]], device='cuda:1')
我们需要就一个工具,能将一个小批量数据均匀分布在多个GPU上,幸运的是 DL框架具有相应的内置函数。
这里我们 在 4X5矩阵尝试使用它
data=torch.arange(20).reshape(4,5)
device=[torch.device('cuda:0'),torch.device('cuda:1')] #device list
split=nn.parallel.scatter(data,devices)#内置函数 只需传入原始批量X 与 设备list,就进行n等分放置
print('input :', data)
print('load into', devices)
print('output:', split)
result:
input : tensor([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
load into [device(type='cuda', index=0), device(type='cuda', index=1)]
output: (tensor([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]], device='cuda:0'), tensor([[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]], device='cuda:1'))
为了方便以后复用,我们定义了可以同时拆分数据和标签的split_batch
函数。
#@save
def split_batch(X,y,devices):
"""将X和y拆分到多个设备上"""
assert X.shape[0]==y.shape[0]
return (nn.parallel.scatter(X,devices),
nn.parallel.scatter(Y,devices))
现在我们可以在一个小批量上实现多GPU训练。 在多个GPU之间同步数据将使用刚才讨论的辅助函数allreduce
和split_and_load
。 我们不需要编写任何特定的代码来实现并行性。 因为计算图在小批量内的设备之间没有任何依赖关系,因此它是“自动地”并行执行。
def train_batch(X,y,device_params,device,lr):
#这里的 device_params为param关于device的list 如device_params[0]则为device:0上的所有模型参数
#len(device_params)==len(device)
X_shards,y_shards=split_batch(X,y,devices)#得到不同设备上的小批量子集X与y
#在每个GPU上分别计算LOSS
ls= [loss(lenet(X_shard,device_W),y_shaprd).sum for X_shard,y_shard,device_W in zip(X_shards,y_shards,device_params)]
#zip(X_shards,y_shards,device_params)首先将小批量子集X,y与对应的device_params设备上的模型所有参数打包为tuple的list
#然后 ls=loss().sum for in zip() 得到每个设备上小批量子集的总损失,此处为关于device的loss_list
for l in ls: # 反向传播在每个GPU上分别执行
l.backward() #得到每个GPU上小批量子集的总损失梯度
# 将每个GPU的所有梯度相加,并将其广播到所有GPU
with torch.no_grad():
for i in range(len(device_params[0])):#第零维为每个device所具有的所有模型参数总数
#如device_params[0]=[w[0],b[0],w[1],b[1]] len(device_params[0])=4
#目的是对于同一层参数,将所有GPU上的对应参数的梯度进行相加,便于后续更新
#因为不同设备上的对应模型参数是相同的
allreduce(
[device_params[c][i].grad for c in range(len(devices))]
)
# 在每个GPU上分别更新模型参数
#在每次训练中,更新的device_params会重新传入train_batch
for param in device_params:
d2l.sgd(param, lr, X.shape[0]) # 在这里,我们使用全尺寸的小批量
现在,我们可以定义训练函数。 与前几章中略有不同:训练函数需要分配GPU并将所有模型参数复制到所有设备。 显然,每个小批量都是使用train_batch
函数来处理多个GPU。 我们只在一个GPU上计算模型的精确度,而让其他GPU保持空闲,尽管这是相对低效的,但是使用方便且代码简洁。
def train(num_gpus,batch_size,lr):
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
devices=[d2l.try_gpu(i) for i in range(num_gpus)]
# 将模型参数复制到num_gpus个GPU
device_params = [get_params(params, d) for d in devices]#会反复传入 train_batch并不断更新的关于device的params list,shape为2维
num_epochs=10
animator = d2l.Animator('epoch', 'test acc', xlim=[1, num_epochs])
timer = d2l.Timer()
for epoch in range(num_epochs):
timer.start()
for X, y in train_iter:
#此时 X,y未放入不同device
# 为单个小批量执行多GPU训练
train_batch(X, y, device_params, devices, lr)
#单个小批量首先进行不同设备的loss求导
#然后进行不同设备对应的模型参数梯度相加
#然后将相加梯度的结果在不同设备上进行梯度覆盖
#最后在不同设备上的参数进行sgd的更新,跟上面的梯度覆盖不同
torch.cuda.synchronize()
timer.stop()
# 在GPU0上评估模型
animator.add(epoch + 1, (d2l.evaluate_accuracy_gpu(
lambda x: lenet(x, device_params[0]), test_iter, devices[0]),))
print(f'测试精度:{animator.Y[0][-1]:.2f},{timer.avg():.1f}秒/轮,'
f'在{str(devices)}')
让我们看看在单个GPU上运行效果得有多好。 首先使用的批量大小是256,学习率是0.2。
train(num_gpus=1, batch_size=256, lr=0.2)
保持批量大小和学习率不变,并增加为2个GPU,我们可以看到测试精度与之前的实验基本相同。 不同的GPU个数在算法寻优方面是相同的。 不幸的是,这里没有任何有意义的加速:模型实在太小了;而且数据集也太小了,在这个数据集中,我们实现的多GPU训练的简单方法受到了巨大的Python开销的影响。 在未来,我们将遇到更复杂的模型和更复杂的并行化方法。 尽管如此,让我们看看Fashion-MNIST数据集上会发生什么。
train(num_gpus=2, batch_size=256, lr=0.2)
测试精度:0.84,2.8秒/轮,在[device(type='cuda', index=0), device(type='cuda', index=1)]
下面我们将展示如何使用深度学习框架的高级API来实现 新模型的并行计算与优化同步工具
import torch
from torch import nn
from d2l import torch as d2l
我们选择ResNet-18,并进行了一部分修改: 在开始时使用了更小的卷积核、步长和填充,而且删除了最大汇聚层
#@save
def resnet18(num_classes, in_channels=1):
"""稍加修改的ResNet-18模型"""
def resnet_block(in_channels, out_channels, num_residuals,
first_block=False):
blk = []
for i in range(num_residuals):
if i == 0 and not first_block:
blk.append(d2l.Residual(in_channels, out_channels,
use_1x1conv=True, strides=2))
else:
blk.append(d2l.Residual(out_channels, out_channels))
return nn.Sequential(*blk)
# 该模型使用了更小的卷积核、步长和填充,而且删除了最大汇聚层
net = nn.Sequential(
nn.Conv2d(in_channels, 64, kernel_size=3, stride=1, padding=1),
nn.BatchNorm2d(64),
nn.ReLU())
net.add_module("resnet_block1", resnet_block(
64, 64, 2, first_block=True))
net.add_module("resnet_block2", resnet_block(64, 128, 2))
net.add_module("resnet_block3", resnet_block(128, 256, 2))
net.add_module("resnet_block4", resnet_block(256, 512, 2))
net.add_module("global_avg_pool", nn.AdaptiveAvgPool2d((1,1)))
net.add_module("fc", nn.Sequential(nn.Flatten(),
nn.Linear(512, num_classes)))
return net
net = resnet18(10)
# 获取GPU列表
devices = d2l.try_all_gpus()
# 我们将在训练代码实现中初始化网络
如前所述,用于training的代码需要执行下面几个基本功能才能实现高效并行:
最后,并行地计算精确度和发布网络的最终性能。除了需要拆分和聚合数据外,训练代码与前几章的实现非常相似。
def train(net,num_gpus,batch_size,lr):
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
devices = [d2l.try_gpu(i) for i in range(num_gpus)]
#定义初始化模型方法
def init_weights(m):
if type(m) in [nn.Linear, nn.Conv2d]:
nn.init.normal_(m.weight, std=0.01)
#用新的模型方法重新初始化模型参数
net.apply(init_weights)
#nn.DataParallel()函数自动进行在不同device的module复制,求导,梯度求和,不同device上的参数更新
net = nn.DataParallel(net, device_ids=devices)
trainer = torch.optim.SGD(net.parameters(), lr)
loss = nn.CrossEntropyLoss()
timer, num_epochs = d2l.Timer(), 10
animator = d2l.Animator('epoch', 'test acc', xlim=[1, num_epochs])
for epoch in range(num_epochs):
net.train()
timer.start()
for X, y in train_iter:
trainer.zero_grad()
X, y = X.to(devices[0]), y.to(devices[0])
l = loss(net(X), y)
l.backward()
trainer.step()
timer.stop()
animator.add(epoch + 1, (d2l.evaluate_accuracy_gpu(net, test_iter),))
print(f'测试精度:{animator.Y[0][-1]:.2f},{timer.avg():.1f}秒/轮,'
f'在{str(devices)}')
让我们看看这在实践中是如何运作的。我们先在单个GPU上训练网络进行预热。
train(net, num_gpus=1, batch_size=256, lr=0.1)
result:
测试精度:0.92,13.7秒/轮,在[device(type='cuda', index=0)]
接下来我们使用2个GPU进行训练。与 12.5节中评估的LeNet相比,ResNet-18的模型要复杂得多。这就是显示并行化优势的地方,计算所需时间明显大于同步参数需要的时间。因为并行化开销的相关性较小,因此这种操作提高了模型的可伸缩性。
train(net, num_gpus=2, batch_size=512, lr=0.2)
result:
测试精度:0.89,8.4秒/轮,在[device(type='cuda', index=0), device(type='cuda', index=1)]
总结:下图为数据同步的原理:
红线为过程数据
蓝线为每个GPU上的梯度
绿线为聚合梯度,返回各个GPU便于在该GPU进行模型参数更新