前一段手工配置cluster的mpich和ssh,搞了n多次才算成功,看来手工配置还是比较麻烦的,把我的过程写下来吧,以供大家和我以后的参考。
单个计算节点:4路双核HPDL585(4台,还有点少啊,理想中16台),8GMEM ,enterprise linux ,mpich(不用lvm-mpi)
目前还没有增加管理节点,因为还没找到合适的软件,有个gagnlia,linux cluster mananger下载了还没安装,这两天比较忙,等闲了就装上试试。
一、安装MPICH2
1、解压缩
#tar -zxvf mpich2-1.0.3.tar.gz
2、创建安装目录
#mkdir /cluster/server/mpich
3、进入mpich解压目录
#cd mpich2-1.0.3.tar.gz
4、设置安装目录
#./configure --prefix=/cluster/server/mpich
5、编译
#make
6、安装
#make install
7、退出到softcorr目录
#cd ..
8、通过编辑.bashrc文件修改环境变量
#vi .bashrc
修改后的.bashrc文件如下:
# .bashrc
# User specific aliases and functions
PATH="$PATH:/cluster/server/mpich/bin" 新增加的
#Source global definitions
if [ -f /etc/bashrc ]; then
. /etc/bashrc
fi
#source .bashrc 来使更改有效
----------------------
二、创建SSH信任连接(在softcorr目录下)
确认server.cluster,node1.cluster两台上的/home
和/home/softcorr 的读写权限都是755.
确认/etc/ssh/sshd_config文件中:
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
......
PasswordAuthentication yes
1、更改/etc/hosts文件
#vi /etc/hosts 打开hosts文件,更改如下:
127.0.0.1 localhost.localdomain localhost
192.168.0.62 server.cluster milan1
192.168.0.2 node1.cluster milan
2、在node1.cluster生成SSH秘钥对:
#ssh-keygen -t rsa 一路回车即可
产生.ssh文件,
#ls -a 查看是否有.ssh文件夹
3.chmod 755 .ssh
4、进入.ssh目录
#cd .ssh
5、生成authorized_keys文件
#cp id_rsa.pub authorized_keys
6、设置node1.cluster(node1.cluster的softcorr目录下)
#ssh-keygen -t rsa 生成.ssh文件夹
7.chmod 755 .ssh
8.cd .ssh
9. #scp server.cluster:/home/softcorr/.ssh/* .
拷贝server.cluster上的.ssh文件夹覆盖本地的
10、建立本身的信任连接
#ssh node1.cluster 按提示输入yes(三个字母要打全),然后:#ssh server.cluster
此时的两个ssh应该不需要密码了
11、确认两台机器的信任连接已建立
在server.cluster执行:
#ssh server.cluster
#ssh node1.cluster
也不需要密码了
手工安装ssh必须很小心,否则很容易失败,推荐使用linux cluster manager GUI界面安装,现在我的cluster还是手工配置ssh,比较麻烦,等装了linux cluster manager GUI之后再来写总结。