如何建立一个GPU加速的研究计算集群(二)

4 . 主节点安装

建议使用开源的操作系统 Rocks Linux distribution来安装主节点,Rocks 是一个高可定制化,易于安装的适合集群计算的操作系统,它默认安装集群计算组建例如MPI, 安装文档地址如下:Rocks user guide,这里我仅仅罗列下基本的安装步骤:

  1. 根据第三章的步骤进行基于CD的安装。
  2. 安装NVIDIA和CUDA的环境包以及工具
  3. 安装内部网络网卡驱动,具体参考你的网卡厂商
  4. Nagios® Core™是个开源网络监控应用,当网络出错或者变好的时候,它会根据你的设置而发出告警。 你可以用这里的说明书连接来安装它。
  5. NRPE Nagios 插件可以让你在远程机器上执行Nagios插件,这样你就可以远程监控资源了,具体安装说明点这里

5. 计算节点的安装

通过一下步骤来安装计算节点的软件:

  1. 在主节点上,打开一个命令行,输入如下命令:insert-ethers
  2. 选择 “Compute Nodes” 要添加的节点
  3. 将rocks CD作为第一个启动盘,打开计算节点机器的电源,或者你可以执行网络安装也行。
  4. 计算节点将会连接主节点,开始安装软件
  5. 安装 NRPE 包,具体说明点这里。

6. 监控和管理

当你把主节点和所有其他的计算节点都安装好,基本上大功告成,只欠东风了。对,使用之前得先在集群上安装监控和管理软件。此小节我将介绍GPU得管理和监控工具软件包。

6.1 GPU系统管理

NVIDIA的GPU驱动包含了也给这个东东:NVIDIA-SMI, 他是一个nvidia的系统管理软件,提供各种GPU系统信息,如下:

  1. 监控矩阵: GPU 温度, 主机温度;
  2. 系统信息:固件版本,配置信息。
  3. 系统状态:风扇状态,GPU故障,电源错误,ECC错误等。

NVIDIA-SMI 支持为任何计算节点进行配置。主要能力如下:

  1. 默认计算模式:多个主机线程可同时使用GPU设备。
  2. 排他进程模式:所有进程中只有一个CUDA上下文。
  3. 排他线程模式:同时只能有一个线程访问设备。
  4. 禁止模式:不允许创建任何CUDA context.
    .

NVIDIA-SMI 也支持对ECC开关设置,不需要ECC的应用可以关闭此开关,以获得更高的内存带宽 。

—未完待续—–

你可能感兴趣的:(机器学习)