最近做计算中心的网络管理员,学习了高性能计算作业提交系统
现在单位又进来了27台pc电脑,正好验证一下学习效果。
废话少说,下面开始讲解如何安装一个作业提交作业系统
以有名的开源软件torque为例,主要分以下步骤。
(部分地址失效:要脚本的请留言)
配置网络:
机器第一启动全部采用网络启动
我采用单位的高性能计算服务器主机做为dhcp服务器
由dhcp服务器做启动控制服务器
dhcp服务器的配置如下
dhcp.conf
由 pxelinux控制进入Linux系统
修改为固定IP:
进入yast2
根据dhcp固定IP,修改网卡为固定IP,增加默认路由和DNS
修改机器名:
进入yast2
修改机器名为 pcserver,pc01,pc02.......pc26 //如果有更多机器,请参照此
所有机器修改完毕后修改/etc/hosts //内容如下,...表示省略。
..............................................................................
192.168.2.40 pcserver
192.168.2.40 pcserver.rcac.xhu.edu.cn
192.168.2.41 pc01 pc01.rcac.xhu.edu.cn
...
...
192.168.2.65 pc25 pc25.rcac.xhu.edu.cn
...
...............................................................................
安装ssh:
chkconfig -add sshd
service sshd start
配置无密码访问:
1:
将下面的文件放入 /etc/profile.d/ ,
ssh-auto-keygen.sh
ssh-auto-keygen.csh
用ssh 登入系统,此处假定用户为root
自动生成/home/root/authorized_keys2文件
2:
重复上面的步骤,在每个机器上生成root用户的authorized_keys2文件
3:收集所有机器的authorized_keys2文件内容
......................................................................................................................................................
pcserver:~/.ssh # cat authorized_keys2 > /tmp/newfile
pcserver:~/.ssh # ssh pc01
pc01:~ # cd .ssh && cp pcserver:/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc01:~/.ssh # ssh pc02
...
...
pc25:~ #cd .ssh && cp pc24 :/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc26:~ #cd .ssh && cp pc25:/tmp/newfile /tmp && cat authorized_keys2 >> /tmp/newfile
pc26:~ #cd /tmp && mv newfile authorized_keys2
4:收集knownhosts
在pcserver上执行
ssh pc01
exit
ssh pc02
exit
...
...
ssh pc25
exit
...
exit
ssh pcserver
收集knownhosts
5. 拷贝收集到的knownhosts和authorized_keys2文件到所有root用户.ssh目录
注意:以上步骤中登录机器需要输入yes和密码,authorized_keys2文件和knownhosts文件在用户目录的.ssh目录中。
下载torque:
下载地址 http://www.clusterresources.com/downloads/torque/torque-2.4.3.tar.gz
安装 torque管理结点:
在pcserver上安装torque
编译
..........................................................................
cd /tmp
tar xzvf torque-2.4.3.tar.gz
cd torque-2.4.3
mkdir build
cd build
../configure --prefix=/opt/torque
make
make install
...........................................................................
设置环境变量
..........................................................................
vi /etc/profile.local
#for torque
PATH=$PATH:/opt/torque/bin:/opt/torque/sbin
export PATH
MANPATH=$MANPATH:/opt/torque/man
export MANPATH
...........................................................................
配置服务器
.............................................................................
./torque.setup root //root用户做管理
cd /var/spool/torque/server_priv
vi nodes
........................
pcserver
pc01
pc02
... //nodes内容
pc25
pc26
........................
cd /var/spool/torque/mom_priv
vi config
.................................
$pbsserver pcserver
$logevent 255 //config内容
.................................
启动服务:
............................................................................
pbs_mom -c /var/spool/torque/mom_priv/config
qterm -t quick
pbs_server
pbs_sched
.............................................................................
安装torque计算结点:
在服务器编译目录生成计算结点包(注意:如果客户机与服务器机硬件不同,请重新在客户机编译)
make pakages
将上一步 make pakages
生成的torque-package-mom-linux-i686.sh 和 torque-package-clients-linux-i686.sh
拷贝到计算结点上 运行
./torque-package-mom-linux-i686.sh --install
./torque-package-clients-linux-i686.sh --install
libtool --finish /opt/torque/lib
设置环境变量
..........................................................................
vi /etc/profile.local
#for torque
PATH=$PATH:/opt/torque/bin:/opt/torque/sbin
export PATH
MANPATH=$MANPATH:/opt/torque/man
export MANPATH
...........................................................................
检查服务器名字
cd /var/spool/torque/
less servername
修改配置
cd /var/spool/torque/mom_priv
vi config
...................................
$pbsserver pcserver
$logevent 255
...................................
运行pbs_mom
/usr/local/sbin/pbs_mom -c /var/spool/torque/mom_priv/config
安装所有其他计算结点
新建一个文件:install_clients,内容如下:
........................................................................................
#!/bin/sh
mount node8:/softwareBAK/temp /mnt //node8为共享了nfs的dhcp服务器,temp中是刚才的make package文件。
cd /mnt
./torque-package-clients-linux-i686.sh --install
./torque-package-mom-linux-i686.sh --install
scp pcserver:/etc/profile.local /etc
libtool --finish /opt/torque/lib
cd /var/spool/torque/mom_priv
scp pcserver:/var/spool/torque/mom_priv/config .
/opt/torque/sbin/pbs_mom -c config
..........................................................................................
chmod +x install_clients
拷贝到其他结点
.................................................
scp install_clients pc01:/tmp
scp install_clients pc02:/tmp
...
scp install_clients pc26:/tmp
...............................................
在所有结点上运行安装。
..................................
ssh pc01
cd /tmp
./install_clients
exit
ssh pc02
cd /tmp
./install_clients
...
...
...
ssh pc26
cd /tmp
./install_clients
.......................................
测试安装成功与否:
登录pcserver
pcserver:~ # echo “sleep 30” |qsub
pcserver:~ # echo “sleep 30” |qsub
pcserver:~ # echo “sleep 30” |qsub
pcserver:~ # qstat
最后的配置
pcserver:~ # qmgr -c "set server submit_hosts=pcserver"
pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_mom /etc/init.d/pbs_server
pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_mom /etc/init.d/pbs_mom
pcserver:/home/torque-2.4.3 #cp contrib/init.d/suse.pbs_sched /etc/init.d/pbs_sched
pcserver:/home/torque-2.4.3 #chkconfig -add pbs_server
pcserver:/home/torque-2.4.3 #chkconfig -add pbs_mom
pcserver:/home/torque-2.4.3 #chkconfig -add pbs_sched
pcserver:/home/torque-2.4.3 #chkconfig -e
修改pbs_server pbs_mom pbs_sched 为 on
本文参考:
torque安装:http://www.91linux.com/html/article/guanli/20090617/17161.html
torque主页:http://www.clusterresources.com/