Linux高性能集群搭建(3)---MPICH2安装测试

注意:保证各节点系统用户名和mpich2安装路径文件名相同

一. MPICH安装

1. 下载MPICH

     网址:http://www.mpich.org/static/downloads/

     下载 mpich2-1.0.2p1,因为高级版本已经不支持mpd(mpi管理器),可以下载到任意目录

2、解压缩
      tar -zxvf mpich2-1.0.2p1.tar.gz

3、进入mpich2解压目录
      cd mpich2-1.0.1

4、设置安装目录
      ./configure

5、编译
      make

6、安装
      make install

7.   测试mpich是否安装好

      which mpicc

      which mpirun

      which mpiexec

我们这里是默认安装, 可以自定义安装目录,然后在.bashrc中把mpich安装文件的bin添加到环境变量PATH下,然后source .bashrc 执行生效

二. mpd配置

1.   在用户主目录下(/home/liu)新建文件.mpd.conf

      mkdir .mdp.conf

      在文件添加 secretword=×××××,×××××为任意字符串,各节点保持一致

     chmod 600 /home/liu/.mpd.conf

2.   在用户主目录下新建文件 mpd.hosts

       内容:

       Master

       node1

       node1

       ......

3.   测试mpd是否配置好

       mpd &    (启动mpi)

       mpdtrace   (打印启动mpi机器名)

       mpdallexit (退出mpi)

三.   各节点均如此安装


四.   测试集群系统

      1.通过mpd.hosts运行集群系统(在任意节点主目录下)
          mpdboot -n number -f mpd.hosts        number为要起动的机器个数
          mpdtrace
          mpdallexit

      2.测试运行MPICH的例子程序
          mpdboot -n 4 -f mpd.hosts   启动4台机器
          mpirun -n number /usr/MPICH-install/examples/cpi     number为使用的进程数
          mpdallexit

      3.如果测试不能通过,请进行第四步问题检查


五、问题解决

1、通过mpdcheck获得一写帮助信息
      mpdcheck -pc

2、查错
       mpdcheck -l

3、通过mpd.hosts文件查错
       mpdcheck -f mpd.hosts 如果无错误
       mpdcheck -f mpd.hosts -ssh

4、如果上述无错误,可略过此步
      对任意两台机器进行查错
      m1: mpdcheck -s 输出主机名host和端口port
      m2: mpdcheck -c host port

      注意:以上4步都是在没有运行mpd的情况下进行的

5、mpd查错
      m1: #mpd -e & 返回使用的端口
      m2: #mpd -h m1 -p echoed_port_m1 &


注意:有的时候防火墙造成测试不能通过

       sudo ufw  disable  关闭防火墙 

       sudo ufw  enable   打开防火墙


以上测试通过,集群系统就建成了。


你可能感兴趣的:(人工智能,机器学习)