并行计算之MPI简介以及基本通信案例(阻塞,非阻塞)

MPI是什么

Message Passing Interface 是一种消息传递编程模型,是这种模型的代表和事实上的标准,用于编写并行程序。主要思想是将一个程序分解为多个进程,这些进程相互通信并协作完成任务。MPI可以在多台计算机或者多个计算节点上执行,还可以利用不同的通信机制进行进程间的通信。

由2022年图灵将获得者----Jack j.dongarra发起。

是一种新的库描述,不是一种语言,共有上百个函数调用接口,提供C和Fortran语言;

MPI是一种标准,规范的代表,而不是具体实现,当前所有的并行计算机制造商都提供对MPI的支持:

  1. Intel MPI
  2. Open MPI
  3. mpich

MPI应用场景

主要应用于高性能计算和分布式计算领域,如

  • 科学计算,如天体物理学,量子化学,材料科学,加速复杂的计算和模拟;
  • 海量数据处理,并行加速处理大规模数据集的过程,如图像处理,信号处理,机器学习和深度学习;
  • 工程模拟,如用于工程领域的模拟和优化,例如计算流体力学,有限元分析,结构学力学等,用来加速数值计算和仿真。

Linux环境准备

我的是ubuntu20.04,以下是OpenMPI环境安装过程:

sudo apt-get install openmpi-bin libopenmpi-dev

编写Hello World程序

#include "mpi.h"
#include 

int main(int argc, char *argv[])
{
    int err = MPI_Init(&argc,&argv);
    std::cout << "MPI Hello World" << std::endl;
    err = MPI_Finalize();
    return 0;
}

编译程序,需要使用MPI自带的编译器,而不是GCC/G++,使用起来和GCC/G++差不多,底层调用的还是这些编译器。

mpic++ main.cpp -o a.out

运行程序,需要依赖可执行程序mpirun

mpirun -np 2 a.out

其中 -np 指定启动进程(一般为后台进程)的个数,该数字和你机器配置相关,建议小于CPU数量或物理核心数。

这里将打印出2个 "MPI Hello World"

MPI常用接口

  1. 消息传递接口, 如MPI_Send 和 MPI_Receive 等,用于实现进程之间的点对点通;
  2. 阻塞与非阻塞接口,上述MPI_Send 和 MPI_Receive是阻塞接口,MPI提供了MPI_Isend 和 MPI_Irecv 等接口,提供非阻塞的通信方式;
  3. 广播和全局操作接口:MPI_Bcast 和 MPI_Scatter 接口用于广播和分发数据,而 MPI_Reduce 和 MPI_Allreduce 接口则用于执行聚合操作;
  4. 数据类型接口,提供了一些用于定义各种数据类型的接口,如 MPI_Datatype 和 MPI_Type_contiguous,用于支持更复杂的数据通信和操作;
  5. 包括上述代码示例中,用于进程管理和性能调试的接口,如 MPI_Init 环境初始化 和 MPI_Finalize 环境结束等。
  6. MPI_Comm_rank,获取当前进程在指定通信域中的进程标识符;
int rank;
MPI_Comm_rank(MPI_COMM_WORLD,&rank);
  1. MPI_Comm_size:获取指定通信域(包括 MPI_COMM_WORLD 和自定义的通信域)中进程的总数;
int size;
MPI_Comm_size(MPI_COMM_WORLD, &size);
  1. MPI_Comm_split:根据指定的颜色信息,将指定通信域中的进程分隔成多个子通信域,并返回分隔后的新通信域;
  2. MPI_Comm_dup:复制指定通信域,返回一个新的通信域;
  3. MPI_Comm_free:释放指定通信域的内存资源,并将通信域设为 MPI_COMM_NULL
  4. MPI_Comm_create:通过指定的进程标识符和通信域,创建一个新的通信域
  5. MPI_Comm_spawn:在指定的通信域中新建一个或多个进程,并返回每个新进程的通信域
  6. MPI_Intercomm_create:在两个指定的通信域之间创建一个新的“互联通信域”,用于实现不同通信域之间的通信。

通信域:

MPI 中一组可能需要进行通信的进程的逻辑结构。通信域中的每个进程都有一个唯一的标识符(通信域内部的秩/等级(rank)),并可以通过指定目标进程的标识符来对目标进程进行通信。不同通信域的进程不能直接进程通信,但是,可以通过MPI_Intercomm_create将两个不通的域合并为一个互联的通信域,同时返回在每个通信域中所代表的所有进程的通信域标识符和秩

MPI定义了几个默认的通信域:

  • MPI_COMM_WORLD 多进程所有进程,缺省的通信域名,可以通过MPI_Comm_rank获取进程在这个通信域中的rank值;
  • MPI_COMM_SELF 单进程的通信域,应用于如只与自身通信的特殊作用域;

举个例子

#include "mpi.h"
#include 
#include 


int main(int argc, char *argv[])
{
    int err = MPI_Init(&argc,&argv);
    int rank,size;
    //获取当前进程在通信域中的rank值
    MPI_Comm_rank(MPI_COMM_WORLD,&rank);
    //获取当前通信域的进程总数
    MPI_Comm_size(MPI_COMM_WORLD, &size);
    std::cout << "Hello World from process " << rank << " of " << size << std::endl;
    //环境清理,必须加,否则MPI程序不结束
    err = MPI_Finalize();
    return 0;
}

编译执行:mpirun -np 2 a.out

Hello World from process 1 of 2
Hello World from process 0 of 2

MPI的并行模式

主从模式

拥有一个主进程,主进程作为任务的分配方,从进程执行任务,主进程负责管理数据的分发和接受;
并行计算之MPI简介以及基本通信案例(阻塞,非阻塞)_第1张图片

SPMD

Single Program Multiple Data 该模式下,多个进程运行同一个程序,但每个进程处理不同的数据。这种模式是最常见和最基础的并行模式,MPI_COMM_WORLD 通信域通常被用来实现这种模式

MPMD

Multiple Program Multiple Data 该模式下,多个进程在不同的程序中运行,每个进程独立地执行不同的任务。这种模式适用于需要针对特定问题进行优化的情况,MPI_Comm_spawn 通信接口可以用来生成子进程

数据并行

数据被分割为多个子数据块,每个进程处理其中的一部分数据块,进程之间通过数据传输进行协作。数据并行是实现大规模并行化的经典模式,MPI_Send 和 MPI_Recv 等接口可用于实现数据传输

任务并行

各进程运行相同的程序,但处理不同的任务。进程协作完成整个任务,在任务的不同阶段,每个进程执行不同的功能。任务并行又可以细分为 pipeline 并行、模块并行、工作站并行等模式

流水线并行

任务被划分为多个阶段,在每个阶段中,数据沿着流水线被处理,不同的进程专门处理不同的阶段。这种模式适用于有序处理数据的场景,可以提高并行程序的效率。

模块并行

该模式将一个程序分成若干个子任务,每个子任务由不同的进程执行。不同的子任务之间具有依赖关系,需要通过数据传输和同步操作来完成计算。

非同步并行

进程之间没有明确的同步,机制,各自执行独立的子任务,进程之间通过消息传递进行通信。适用于简单问题和小规模的并行计算。

MPI通信

点对点通信

用于一个进程和一个接收进程之间的数据交互,有分为阻塞和非阻塞通信模式。

并行计算之MPI简介以及基本通信案例(阻塞,非阻塞)_第2张图片

阻塞接口

int MPI_Send(void *buf, int count, MPI_Datatype datatype, int dest, int tag/*消息标签*/, MPI_Comm comm)
int MPI_Recv(void *buf, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status)

非阻塞接口

int MPI_Isend(void *buf, int count, MPI_Datatype datatype, int dest, int tag, 
MPI_Comm comm, MPI_Request *request)

int MPI_Irecv(void *buf, int count, MPI_Datatype datatype, int source, int tag, 
MPI_Comm comm, MPI_Request *request)

并行计算之MPI简介以及基本通信案例(阻塞,非阻塞)_第3张图片

判断通信是否完成:

MPI_Wait 函数的作用是等待一个非阻塞式 MPI 通信操作(如 MPI_Isend 和 MPI_Irecv)完成,直到其请求对象进入完成状态为止。如果请求对象尚未完成,则 MPI_Wait 函数会阻塞当前进程的执行,直到请求对象的状态为完成状态才返回。MPI_Wait 函数的用法如下:

int MPI_Wait(MPI_Request *request, MPI_Status *status)

MPI_Test 函数的作用与 MPI_Wait 函数类似,都是等待一个请求对象进入完成状态,但 MPI_Test 函数是非阻塞的,即当请求对象尚未完成时,MPI_Test 函数会立即返回一个标志值,而不会阻塞当前进程的执行。MPI_Test 函数的用法如下:

int MPI_Test(MPI_Request *request, int *flag, MPI_Status *status)

消息类型

  1. 基本数据类型(Primitive data types):包括 MPI_CHAR、MPI_SHORT、MPI_INT、MPI_LONG、MPI_UNSIGNED_CHAR、MPI_UNSIGNED_SHORT、MPI_UNSIGNED、MPI_UNSIGNED_LONG、MPI_FLOAT、MPI_DOUBLE等,可以用于传输常见的数据类型和数值类型;
  2. 复杂数据类型(Derived data types):包括 MPI_DATATYPE、MPI_ARRAY、MPI_STRUCT 等,可以用于传输由多个变量组成的结构化数据类型
  3. 特殊数据类型:包括 MPI_PACKED 等,可用于封装任意类型的数据
  4. 自定义数据类型:MPI 还提供了自定义数据类型的支持,用户可以根据实际需要定义自己的数据类型,并将其注册到 MPI 环境中,以供后续使用

阻塞通信代码示例

//0号进程给1号进程发送数据
#include "mpi.h"
#include 
#include 


int main(int argc, char *argv[])
{
    int err = MPI_Init(&argc,&argv);
    int rank,size;
    MPI_Comm_rank(MPI_COMM_WORLD,&rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);

    if(0 == rank)
    {
        int sendNum = 99;
        int tag = 0;
        MPI_Send(&sendNum, 1 ,MPI_INT ,1 , tag , MPI_COMM_WORLD);
    }
    else
    {
        int recvNum = 0;
        int tag = 0;
        MPI_Status status;
        std::cout << "before recv , recv num = " << recvNum << std::endl;
        MPI_Recv(&recvNum, 1 ,MPI_INT , 0, tag, MPI_COMM_WORLD, &status);
        std::cout << "before recv , recv num = " << recvNum << std::endl;
    }
    
    err = MPI_Finalize();
    return 0;
}

非阻塞通信代码示例

int main(int argc, char *argv[])
{
    int err = MPI_Init(&argc,&argv);
    int rank,size;
    MPI_Comm_rank(MPI_COMM_WORLD,&rank);
    MPI_Comm_size(MPI_COMM_WORLD, &size);
    int data = 100;
    MPI_Request request;
    MPI_Status status;



    if(rank > 0)
    {   
        MPI_Irecv(&data,1,MPI_INT,rank-1,0,MPI_COMM_WORLD,&request);
        std::cout << "rank = " << rank << " recived data is :  " << data << std::endl;
        MPI_Wait(&request, &status);
        std::cout << "rank = " << rank << " recived data is :  " << data << std::endl;
    }

    
    if(rank < size - 1)
    {
        data = rank;
        MPI_Isend(&data,1,MPI_INT, (rank + 1)%size, 0 ,MPI_COMM_WORLD, &request);
        MPI_Wait(&request, &status);
    }
    
    err = MPI_Finalize();
    return 0;
}

你可能感兴趣的:(并行计算,c++,并行计算,MPI,多进程)