并行计算—集群系统(2)

8月16号回到了实验室,8月17号又开始了我的工作,不过当时的想法就是从真正的环境来做,用了自己的手提和一个台式电脑来配置,于是开始了我的集群系统的配置

 

 

第一劫:

    之前想的是在两台电脑上安装redhat 9.0但是一开始在台式上就没有通过,安装过程中说发现不了驱动,最后又让一位同学过来帮忙,通过两人讨论分析,查资料,得出结论:redhat 9.0支持的是IDE硬盘,我们的电脑硬盘式SATA的,而且很多硬件都是新的,至少也是08年4-5月份出的,而red hat9.0在08年之前都已经不出了。

     解决:后来下了Fedora11,还好在两台电脑上都可以安装,因为fedora11是09年6月份出的我想在硬件驱动上一定是最新的,还好,这些都可以安装上去。这样系统安装的问题可能解决了。

 

第二劫:

    在这里差不多花了我一个月的时间来做,在开始设置让两台电脑能够ping通信上合花了不少时间,原因在于对网络那块不熟,在设置上不是很顺利,不过还好两台可以ping通信了,但是自己在下面也得好好的补补网络方面的内容。

   到了比较重要的一部设置两台电脑的SSH钥匙认证,就是通过ssh设置,在每一台机上都可以无限制的登录到其他节点上的电脑,这个可以保证在后面的MPI通信过称的畅通性,所以ssh的顺利,对下面的mpi编程很重要。

   但是不管我怎么按照所给的ssh配置方法,两台电脑就是不能直接登录,后来求助于曙光信息技术有限公司的一位工程师,把自己遇到的问题向他说明,其中有一句给了我提示——“我们用的都是linux企业版的,桌面版的没有用过”我就想是不是操作系统的问题,但是我还是在fedora11上按照他给的方式进行配置任然没有成功,最后只好两台都重新装了linux enterprise 5.0企业版操作系统,在昨天下午8月28号,ping通后在按照他给的ssh配置结果接通了。当时开心了好一阵。

 

第三劫:

   今天在装MPICH2并行软件的时候,出了一个问题:

[root@node1 mpich2]# make install
if [ ! -d /usr/local/mpich2 ] ; then mkdir -p /usr/local/mpich2 ; fi
if [ ! -d /usr/local/mpich2 ] ; then mkdir -p /usr/local/mpich2 ; fi
if [ ! -d /usr/local/mpich2/doc/ ] ; then mkdir -p /usr/local/mpich2/doc/ ; fi
if [ ! -d /usr/local/mpich2/man ] ; then mkdir -p /usr/local/mpich2/man ; fi
if [ ! -d /usr/local/mpich2/include ] ; then mkdir -p /usr/local/mpich2/include ; fi
if [ ! -d /usr/local/mpich2 ] ; then mkdir -p /usr/local/mpich2 ; fi
if [ ! -d /usr/local/mpich2/ lib ] ; then mkdir -p /usr/local/mpich2/ lib ; fi
make install-local
make[1]: Entering directory `/usr/local/mpich2'
if [ "no" = "yes" ] ; then /
            /usr/bin/install -c -m 644 src/mpi/debuggerlibtvmpich2.so /
                        /usr/local/mpich2/ lib / libtvmpich2.so ; fi
if [ -n "" ] ; then /
            for pm in  /dev/null ; do /
                if [ -d src/pm/$pm ] ; then /
                     (cd src/pm/$pm && make install-alt ) ; fi ; /
            done ; /
        fi
make[1]: Leaving directory `/usr/local/mpich2'
/usr/bin/install -c -m 644 src/include/mpi.h /usr/local/mpich2/include/mpi.h
/usr/bin/install -c -m 644 lib / libmpich.a /usr/local/mpich2 / lib / libmpich.a
/usr/bin/install: `lib/ libmpich.a' and `/usr/local/mpich2/ lib/ libmpich.a' are the same file
make: *** [install] Error 1

 

 

当时我想可能是安装的软件包mpich2-1.tar.gz出了问题才有make: *** [install] Error 1

 

而且在后面对MPICH的调试的时候又出现了问题:

[root@node1 etc]# mpd &
[1] 8506
[root@node1 etc]# An mpd is already running with console at /tmp/mpd2.console_root on node1.
Start mpd with the -n option for a second mpd on same host.

[1]+  Exit 255                mpd
[root@node1 etc]# mpdtrace
/usr/local/mpich2/bin/mpdroot: did not find secretword in mpd conf filempdtrace (__init__ 1190): forked process failed; status=255
[root@node1 etc]# mpdallexit
/usr/local/mpich2/bin/mpdroot: did not find secretword in mpd conf filempdallexit (__init__ 1190): forked process failed; status=255

通过在网上查找资料在一个网站上:http://debianclusters.cs.uni.edu/index.php/MPICH:_Troubleshooting_the_MPD

找到了这个问题产生的原因:chmod 600 /etc/mpd.conf

但是我在建立和写入mpd.conf文件的时候就已经执行了上面的修改权限的代码。又怎么会这样?

所以我目前的想法是可能是MPICH2的安装软件包的问题,现在也在网上下载该软件,到时候重装在看看。

 

 

 

 

以上两篇blog是我从7月份开始到现在做的工作的一个简单的总结,希望对自己以后的工作和思考有所帮助,虽然每天都在向前慢慢的进步一点点,但是我始终坚信只要我们在正确的方向下前行,坚持就一定能够达到我们的成果

 

你可能感兴趣的:(工作,linux,redhat,集群,ssh,硬件驱动)