PBS集群搭建专题(二) | torque 的安装与配置

headnode上的配置
  1. 在 headnode 上安装 torque
    • ./configure --prefix=/usr/local/torque-2.5.12 --enable-docs --enable-syslog --enable-unixsockets
      make
      make check
      make install
      make packages
    • make packages 指令会产生独立的5个包,具体作用的话等用到时完全明白了再来补充
    • 另外这儿 configure 的时候如果加入了 --enable-debug ,那么在后面启动 pbs_mom 的时候它死活也是不肯到 background 的,无论你怎么搞,你敢 Ctrl+c,pbs_mom进程立马 dead,死活占着那个 ternimal。我在这儿卡了好久。。。。。。
  2. 添加环境变量:
    • vi /etc/profile,添加如下内容:
      • #Add by myself
        export TORQUE=/usr/local/torque-2.5.12
        export LD_LIBRARY_PATH=$TORQUE/lib
        export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
  3. 配置 pbs_server 和 pbs_sched ,并添加为系统服务:
    • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_server,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_server (改成正确的 pbs_server 可执行文件路径即可)
    • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_sched,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_sched (改成正确的 pbs_sched 可执行文件路径即可)
    • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_mom,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_mom (改成正确的 pbs_mom 可执行文件路径即可)(这个是为计算节点做的准备工作)
    • cd /usr/local/src/torque-2.5.12/contrib/init.d/
      cp pbs_server pbs_sched /etc/init.d/
    • chkconfig --add pbs_server
      chkconfig --add pbs_sched
    • 请注意服务 pbs_server 不要启动起来,否则 ./torque.setup root 无法完成
  4. torque server db 初始化:
    • cd /usr/local/src/torque-2.5.12
      ./torque.setup root
    • 我初始化的时候遇到了下错误,但是又重新来了一次就没有报错了:
      • PBS集群搭建专题(二) | torque 的安装与配置_第1张图片
    • 重新启动各项服务:
      • qterm //终止pbs_server
        service pbs_server start
        service pbs_sched start
  5. 修订 pbs_server 的 node 文件:
    • 设定 pbs_server 自动检测计算节点的 cpu 核心数目
      • qmgr -c "set server auto_node_np = True"
    • vi nodes (这儿nodes 文件被冲掉的只好自己新建了,原权限为:644),添加如下内容:
      • sdu.01
        sdu.02

计算节点上的配置
  1. 安装结算节点上所需要的包(就是上面 make packages 指令生成的)
    • scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh [email protected]:/tmp/
      scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh [email protected]:/tmp/
      ./torque-package-clients-linux-x86_64.sh --install
      ./torque-package-mom-linux-x86_64.sh --install
  2. 添加环境变量:
    • vi /etc/profile,添加如下内容:
      • #Add by myself
        export TORQUE=/usr/local/torque-2.5.12
        export LD_LIBRARY_PATH=$TORQUE/lib
        export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
  3. 添加 pbs_mom 为系统服务:
    • scp pbs_mom 到所有计算节点
      chkconfig --add pbs_mom
  4. 配置守护进程的信任关系
    • vi /var/spool/torque/server_name
      修改为 headnode 的主机名称
  5. 添加计算节点的配置文件:
    • vi /var/spool/torque/mom_priv/config
    • 添加如下内容:
      • $logevent 255
        $loglevel 7
        $pbsserver sdu.master
  6. 启动 pbs_mom
    • service pbs_mom start

整个集群配置的验证
  1. 用指令 pbsnodes -a 查看整个集群计算节点的状态:
    • PBS集群搭建专题(二) | torque 的安装与配置_第2张图片
  2. 至此配置方面应该不会有什么大的问题了,可能的问题我会在后期的测试中在 “PBS集群搭建” 这个专题中陆续给出,望有兴趣、需要的朋友多多关注,多多交流

你可能感兴趣的:(并行计算)