并行分布式计算 并行算法与并行计算模型

文章目录

  • 并行分布式计算 并行算法与并行计算模型
    • 基础知识
      • 定义与描述
      • 复杂性度量
      • 同步和通讯
    • 并行计算模型
      • PRAM 模型
      • 异步 PRAM 模型 (APRAM)
      • BSP 模型
      • LogP 模型
      • 层次存储模型
      • 分层并行计算模型

并行分布式计算 并行算法与并行计算模型

基础知识

定义与描述

并行计算模型类型:抽象计算模型和使用计算模型

并行算法类型

  • 数值计算(代数关系运算)、非数值计算(比较关系运算)
  • 同步算法(算法诸进程的执行必须相互等待)、异步算法(算法诸进程的执行不必相互等待)
  • 确定算法、随机算法

Tip

  • 同步算法使得并行执行步骤可预测,需要额外的协议进行保障,同时使得计算效率下降;
  • 异步算法执行效率高,但容易发生数据上的冲突

描述语言

  • Par-do 语句:代表算法的若干步要并行执行

    for i = i to n par-do:
    	...
    end for
    
  • for all 语句:几个处理器同时执行相同的操作:

    for all Pi where 0 <= i <= k do:
    	...
    end for
    

复杂性度量

常用的复杂性度量指标:

  • 运行时间 t(n) :(n 为问题实例的输入规模)包含计算时间和通讯时间,分别用计算时间步和选路时间步作为单位;
  • 处理器数 p(n)
  • 并行算法成本 c(n) :c(n)=t(n)p(n) ;
  • 成本最优性 :若 c(n) 等于在最坏请形下串行算法所需要的时间,则并行算法是成本最优的;
  • 总运算量:并行算法求解问题时所完成的总的操作步骤

Tip:并行算法的总成本肯定比串行算法要高(需要通信、数据传递等),但我们的目标往往是 t(n) 的降低;

Brent 定理 :令 W ( n ) W(n) W(n) 是某并行算法 A 在运行时间 T ( n ) T(n) T(n) 内所执行的运算量,则 A 使用 p 台处理器可在 t ( n ) = O ( W ( n ) / p + T ( n ) ) t(n)=O(W(n)/p+T(n)) t(n)=O(W(n)/p+T(n)) 时间内执行完毕

Tip:当 p = c ( n ) W ( n ) p=\frac{c(n)}{W(n)} p=W(n)c(n) 时, W ( n ) W(n) W(n) c ( n ) c(n) c(n) 渐进一致,其他情况下并不一定都能充分有效地利用处理器去工作,因此设计并行算法时应尽可能将每个时间步的工作量均匀地分摊给 p 台处理器,使各处理器处于活跃状态。

同步和通讯

同步:时间上强制使得各执行进程在某一点必须相互等待;在异步执行过程中,为了确保正确执行顺序,需要设置适当同步点;

通信:空间上对各并发执行的进程执行数据交换,使用通信原语来表达:

global read(X, Y)
global write(U, V)
Send(X, i)
Receive(Y, j)

并行计算模型

并行分布式计算 并行算法与并行计算模型_第1张图片

PRAM 模型

PRAM:并行随机存储机器,即共享存储器的 SIMD 模型

  • 假定存在一个容量无限大的共享存储器
  • 有限或无限个功能相同的处理器
  • 任何时刻各处理器均可以通过共享存储单元相互交换数据

并行分布式计算 并行算法与并行计算模型_第2张图片

分类:根据读和写是否是并发或互斥进行分类,并发读并发写(PRAM-CRCW)是最强的计算模型,而互斥读互斥写(PRAM-EREW)可以 log ⁡ p \log{p} logp 模拟并发度互斥写(PRAM-CREW)进而并发读并发写:
T E R E W ≥ T C R E W ≥ T C R C W T E R E W = O ( T C R E W ⋅ log ⁡ p ) = O ( T C R C W ⋅ log ⁡ p ) T_{EREW}\geq T_{CREW} \geq T_{CRCW} \\ T_{EREW} = O(T_{CREW}\cdot \log{p}) = O(T_{CRCW}\cdot \log{p}) TEREWTCREWTCRCWTEREW=O(TCREWlogp)=O(TCRCWlogp)
优点:适合并行算法表示以及复杂度分析,易于使用;隐藏了并行机的通讯、同步等细节;

缺点:不适合 MIMD 并行机,忽略了共享存储的竞争、通讯延迟等因素;

:并行加法

并行分布式计算 并行算法与并行计算模型_第3张图片

  • fi 就是同步的操作
  • 这里的算法十分浪费,k 个线程只有一半在工作

异步 PRAM 模型 (APRAM)

APRAM:又称为 分相(Phrase)PRAM 或 MIMD-SM

  • 由 p 个处理器组成,每个处理器都有其局部存储器、局部时钟、局部程序;
  • 无全局时钟,各处理器异步执行;
  • 处理器通过共享存储器进行通讯;(还是保留了 SM)
  • 处理器间依赖关系,需要在并行程序中显式地加入同步路障(我觉得叫同步屏障比较合理hh,Synchronization Barrier);
  • 一条指令可以在非确定(无界)但有限的时间内完成;

计算过程

并行分布式计算 并行算法与并行计算模型_第4张图片

指令类型:全局读、全局写、局部操作、同步

计算时间

并行分布式计算 并行算法与并行计算模型_第5张图片

  • 需要将任务平均分配, t p h t_{ph} tph 才会降下来

优缺点

  • APRAM 相比于 PRAM 更接近实际的并行机,可以模拟 MIMD 模型,基本建模了单机多核多线程的环境;
  • 保留了易编程和分析算法的复杂度,但与现实差距较远;
  • 在 APRAM 上可以
  • 使用的并行算法非常有限,也不适合 MIMD-DM 模型(因为 APRAM 还是保留了 SM)

BSP 模型

BSP:块同步模型

  • APRAM 也称为轻量同步模型,主要是因为SM了所以轻量,所以 BSP 需要通讯;
  • 异步 MIMD-DM 模型:支持分布式存储、消息传递系统、块内异步并行、块间显式同步;

计算过程:计算由全局同步、周期为 L 的若干超级步组成。周期间做全局检查,如果没有全部做完。则下一个 L 周期分配给未曾完成的超级步。

并行分布式计算 并行算法与并行计算模型_第6张图片

模型参数

  • p:处理器数(带有存储器)
  • L:同步障时间
  • g:带宽因子(1/bandwidth),即每个 packet 传输需要多少时间

优缺点

  • 相比于 SM,将处理器和选路器分开,强调了计算和通讯的分离;
  • 选路器仅实行点到点的消息传递,掩盖了具体网络协议,简化通信协议;
  • 采用路障方式,用硬件实现可控粗粒度的全局同步;但是需要显式同步机制,限制至多 h 条消息的传递等;
  • 提供了一个编程环境(比如下面求前缀和的框架),利于程序复杂度分析

:Prefix Scan

并行分布式计算 并行算法与并行计算模型_第7张图片

LogP 模型

LogP:分布存储的、点到点通信的多处理机模型

  • PRAM、APRAM、BSP 都没有充分考虑到数量多且强大的处理器/存储器节点,也没有考虑到带宽受限的、延迟可观的互联网络(BSP 虽然引入了网络通讯,但是只有一个参数带宽因子 g)

模型参数:(不涉及网络的具体结构)

  • 延迟 L:网络中消息从源到宿所产生的延迟;
  • 额外开销 o:处理器发送或接受一条消息所需的额外开销;
  • 最小时间间隔 g:处理器连续进行消息发送或接受的最小时间间隔
  • 模块数 P:处理器/存储器 模块数

特点

  • L 和 g 反映了通讯网络的容量,和 o 一起刻画了网络通信特征;
  • 屏蔽了网络拓扑、选录算法和通信协议等具体细节(是合理的,在上千个处理器在网络轻载时,对网络和结构也不敏感)
  • 每个节点只有一个处理器,发送/接受消息要付出开销 o,对于长消息提供专门硬件支持,对消息长度无特别处理;
  • 最普遍的全局操作是路障;

BSP vs. LogP

  • BSP 是块同步,而 LogP 是进程对同步;
  • BSP 可以常数因子模拟 LogP,LogP 可以对数因子模拟 BSP;
  • BSP= LogP + Barriers - Overhead;
  • BSP 提供了更方便的程设环境,更简便,复合结构化编程;LogP 更好地利用了机器资源,更符合实际情况;

总结

并行分布式计算 并行算法与并行计算模型_第8张图片

层次存储模型

并行计算模型均假定存储系统具有一级主存,且访问时间均为单位时间(本机一定有自己的存储),但是存储系统是分层的,访存均视为单位时间是不精确地。

串行计算系统的层次存储模型

  • HMM (Hierarchical Memory Model)和 HMM-BT (with Block Transfer):面向地址,访问数据的地址决定了访存开销;-BT 增加了块传输,数据的地址处于什么块也会影响开销;该模型对顺序访问有效;
  • UMA(Uniform Memory Hierachy,均匀存储层次):每层的开销是固定的
  • RAM(h) 模型:单层随机访问存储,可以推广到 h-层存储,各层访问开销是非均匀一致的。

并行计算系统的层次存储模型

  • Memory-LogP:将 LogP 中网络延迟参数 L 扩展到通信开销函数,函数参数为应用数据集合大小和数据分布;
  • DRAM(h) :分布式 RAM(h) 模型,以 RAM(h) 为本地存储,消息传递视为另一层存储层次访问(远端的数据当作新的一层),DRAM(h)=RAM(h)+LogP;
  • HPM:层次并行和存储,描述同构并行系统中的层次并行性和层次存储特性

分层并行计算模型

并行分布式计算 并行算法与并行计算模型_第9张图片

并行分布式计算 并行算法与并行计算模型_第10张图片

你可能感兴趣的:(#,并行分布式计算,算法,分布式)