slurm的安裝

SLURM ( Simple Linux Utility for Resource Management )是個高擴展性( highly scalable )資源管理器,它提供三項關鍵功能。首先,它分配可執行( exclusive )或不能執行( non-exclusive )的 computer node ,可依據使用者的使用時段或執行的程式去排定;其次,它在配置使用的 computer node 時,提供了一個框架式的方式去啟動( starting )、執行( executing )和監測( monitoring )所執行的程式;最後,當請求使用的資源有衝突時,它會管理排隊等候工作。 SLURM 並不是一個 batch system ( queuing system ),而它僅提供了 API ( Applications Programming Interface )和 Maui 和 Moab 等 Scheduler 或 Cluster Suite 作整合。由於 SLURM 並不是一個 queuing system ,所以使用上還是先有 queuing system ,在 server 的地方要使用 slurmctld ,在 client 的地方要使用 slurmd
 
Installation 
k38:/usr/src # tar  jxf slurm-1.2.16.tar.bz2
k38:/usr/src # cd slurm-1.2.16
k38:/usr/src/slurm-1.2.16 # ./configure --prefix=/usr/local/slurm --sysconfdir=/etc
k38:/usr/src/slurm-1.2.16 # make
k38:/usr/src/slurm-1.2.16 # make install
k38:/usr/src/slurm-1.2.16 # cp etc/slurm.conf.example /etc/slurm.conf
 
Configuration for torque 
1.建立認證的 public key 和 private key
k38:/etc # mkdir slurm
k38:/etc # cd slurm/
k38:/etc/slurm # openssl genrsa -out slurm.key 1024
# 建立 private key
Generating RSA private key, 1024 bit long modulus
.............................++++++
.............++++++
e is 65537 (0x10001)
k38:/etc/slurm # openssl rsa -in slurm.key -pubout -out slurm.cert
# 建立 public key
writing RSA key
k38:/etc/slurm # chown slurm.slurm *
# 將使用目錄下所有檔案設為 slurm 的檔案
k38:/etc/slurm # chmod 400 *
 
2. /etc/slurm.conf
# Example slurm.conf file. Please run configurator.html
# (in doc/html) to build a configuration file customized
# for your environment.
# slurm.conf file generated by configurator.html.
# See the slurm.conf man page for more information.
ControlMachine=k38 # 設定 Primary Server 主機,填入該主機 hostname
#ControlAddr= # 若找不到 Primary Server 主機,可在此填入該主機 IP
#BackupController= # 設定 Backup Server 主機
#BackupAddr= # 設定 Backup Server 主機的 IP
SlurmUser=slurm # 執行 SLURM 的使用者帳號
SlurmctldPort=6817 # 設定 slurmcltd 使用的 port
SlurmdPort=6818 # 設定 slurmd 使用的 port
AuthType=auth/none # 設定認証的方式
JobCredentialPrivateKey=/etc/slurm/slurm.key # 設定 Private Key 的檔案
JobCredentialPublicCertificate=/etc/slurm/slurm.cert # 設定 Public Key 的檔案
StateSaveLocation=/tmp
SlurmdSpoolDir=/tmp/slurmd
SwitchType=switch/none
MpiDefault=none
SlurmctldPidFile=/var/spool/slurm/slurmctld.pid # 設定 slurmctld 的 pid 紀錄檔案
SlurmdPidFile=/var/spool/slurm/slurmd.pid # 設定 slurmd 的 pid 紀錄檔案
ProctrackType=proctrack/pgid
PluginDir=/usr/local/slurm/lib/slurm # 設定 Pulgin 目錄的位置
CacheGroups=0
#FirstJobId=
ReturnToService=0
#MaxJobCount=
#PlugStackConfig=
#PropagatePrioProcess=
#PropagateResourceLimits=
#PropagateResourceLimitsExcept=
#Prolog=
#Epilog=
#SrunProlog=
#SrunEpilog=
#TaskProlog=
#TaskEpilog=
#TaskPlugin=
#TmpFs=
#UsePAM=
# TIMERS
SlurmctldTimeout=300
SlurmdTimeout=300
InactiveLimit=0
MinJobAge=300
KillWait=30
Waittime=0
# SCHEDULING
SchedulerType=sched/builtin # 設定 Scheduler submit job 的方式
#SchedulerAuth=
#SchedulerPort=
#SchedulerRootFilter=
SelectType=select/linear
FastSchedule=1
# LOGGING
SlurmctldDebug=3
SlurmctldLogFile=/var/spool/slurm/slurmctld.log
SlurmdDebug=3
SlurmdLogFile=/var/spool/slurm/slurmd.log
JobCompType=jobcomp/none
#JobCompLoc=
JobAcctType=jobacct/none
#JobAcctLogfile=
#JobAcctFrequency=
# COMPUTE NODES
NodeName=k3[1-2] Procs=1 State=IDLE
PartitionName=TEST Nodes= k3[1-2] Default=YES MaxTime=INFINITE State=UP
 
k38上的pbs_serv及pbs_sched是必須啟動的,而 k31、k32上的pbs_mom當然是要啟動的。然後在 k38 啟動slurmcltd,在k31及k32啟動slurmd,這時候才不會有錯誤的訊息。


__________________________________________________________________________________________________
when configure will find some errors  ---> how to deal with them?
.aimsl-2@aimsl-2-desktop:~/Downloads/slurm-2.2.7$ ./configure --prefix=/usr/local --sysconfdir=/etc/slurm-llnl > config.log
configure: WARNING: Unable to locate NUMA memory affinity functions
configure: WARNING: Unable to locate PAM libraries
configure: WARNING: unable to locate hwloc installation
configure: WARNING: Can not build smap without curses or ncurses library
configure: WARNING: *** mysql_config not found. Evidently no MySQL development libs installed on system.
configure: WARNING: *** pg_config not found. Evidently no PostgreSQL development libs installed on system.
configure: WARNING: Could not find working OpenSSL library
configure: WARNING: unable to locate blcr installation

你可能感兴趣的:(并行计算)