CPU+GPU异构集群搭建的总结说明

        前面我们介绍了单机单GPU下的驱动安装,cuda Toolkit 和 SDK的安装,以及cuda基本编程

我们还介绍了SSH安全通信,NFS共享存储,MPICH安装以及MPI基本编程,这样二者的结合

基本实现了一个简单的CPU+GPU异构集群的搭建,下面我们在梳理一下,做一些总结性的说明。

        

         CPU+GPU集群是一个异构系统,包括CPU节点和GPU节点,在CPU集群基础上GPU的加

入使得计算资源呈现异构化这些异构计算资源和基于它们的不同层次的并行计算能力,给并行程

序设计带来困难,主流的混合集群编程模型是MPI+CUDA,MPI负责进程间数据传输,CUDA 负

责GPU计算程序设计,MPI和CUDA都是基于C语言,所以它们可以兼容的写到一个c文件里。


         CPU + GPU 异构集群搭建过程包括:串源模块的更换,GPU的连接,设备之间互连,操作系

统安装,GPU驱动安装,CUDA Toolkit和 SDK安装,CUDA编程测试,SSH安全通信,nfs共享存

储,MPICH安装,MPI编程测试,MPI+CUDA混合编程测试。下面再对各过程做一些基本的说明。


        1. 由于GPU功率很大,主机一般不能支持安装GPU后的总电量,所以更换供电模块。

        2. 设备之间的连接可以采用千兆以太网再连交换机的方式,也就是前面我们搭建CPU集群时设

            备之间的连接方式,由于GPU的运算数据吞吐量巨大,如果要求很高可以使用Infiniband采用

            PCIe插槽与Infiniband适配器连接,然后通过特殊数据传输线与Ifiniband交换机连接。

       3.  操作系统安装,gpu驱动安装,cuda toolkit 和 SDK安装,细节在以前介绍过在此不做说明。

       4.  cuda编程测试。

       5.  SSH安全通信,hfs共享文件系统配置,MPICH 安装, mpd配置。

       6.  mpi编程测试。

       7.  mpi+cuda混合编程设计。

  


         

    


你可能感兴趣的:(机器学习,c/c++,人工智能,cuda)