GridEngine可以把任务自动放到负载小的服务器上运行. 


最新的软件包可以这里下载


建议服务端使用CentOS, 如果ubuntu没有GUI界面. 


下载相关rpm包后, 可以直接

yum localinstall gridengine-*

可能需要的依赖包

yum install jemalloc munge hwloc
# CentOS 5 的话, hwloc 版本要1.4以上, epel的只有 1.1

安装完成后, 相关文件在 /opt/sge 下面, 运行里面的 

start_gui_installer

先添加管理端.


建议把服务端的 /opt/sge 使用NFS

[root@oge sge]# cat /etc/exports 
/opt/sge 192.168.101.0/255.255.255.0(rw,no_root_squash,sync,no_subtree_check,nohide)


客户端直接挂载server的/opt/sge

写了个脚本

#!/bin/bash

sge=/opt/sge

mount -t nfs -o 'rw,intr,tcp' oge:$sge $sge
sleep 4
# sgeexecd.p6444 运行脚本名可能不一样
[ `ls $sge | wc -l ` -ge 0 ] && /etc/init.d/sgeexecd.p6444 start

安装之前还得做SSH证书认证

ssh-copy-id ~/.ssh/id_rsa.pub oge

挂载后, 还是运行, 只是选择只安装执行机. 可能会有DNS反查的问题, 这个时候可以跳过

start_gui_installer

完成后, 复制设置环境变量的脚本到profile.d

cp /opt/sge/default/common/settings.csh  /etc/profile.d/sge.csh
cp /opt/sge/default/common/settings.sh  /etc/profile.d/sge.sh


此时可以运行

qhost


到此完成基本安装.


另外运行任务前要初始化设置的话,可以在

# 执行任务之前初始化一下
Queue Control --> Cluster Queues --> Modify --> Execution Method
Prolog : 执行前执行(脚本要绝对路径,不能用$HOME之类的变量,但脚本内容可以使用变量)
Epilog : 执行后执行