小果运维

SLURM超算集群资源管理服务的安装和配置-基于slurm22.05.9和centos9stream，配置slurmdbd作为账户信息存储服务

slurm介绍就不再赘述了，这里看官网链接，其他的自己搜索吧。

Slurm Workload Manager - Quick Start User Guide

这里主要将slurm集群配置的一般步骤，重点是slurmd的conf文件的配置；官网的内容比较全但不太好选择哪些是必须的，所以这里主要配置大家常用的东西，方便大家尽快上手。

另外，这里写了slurm的版本，大家要注意一下尽量使用相同的版本，跨版本的服务容易引起莫名其妙的错误。

1、环境准备

主机准备情况：

SLURM超算集群主机准备
主机名及地址	配置服务	角色
host1 192.168.1.101	slurmctl slurmdbd	控制节点，服务数据库配置节点	同时也为登陆节点
host1 192.168.1.102	slurmctl slurmdbd slurmd	控制节点，服务数据库配置节点计算节点	同时也为登陆备份节点，同时也作为计算节点
host1 192.168.1.103	slurmd	计算节点
host1 192.168.1.104	slurmd	计算节点

建议所有节点的基础环境配置操作

1、使用nfs或者ceph的方式在集群所有节点全局共享用户/home目录，数据计算的工作/work目录，程序安装配置目录/nfs/sopt

ceph配置和使用：分布式存储ceph第17.2.6-quincy版本-全手动搭建完整方案（centos 9 stream）_小果运维的博客-CSDN博客

分布式存储ceph采用CephFS方式共享文件和挂载_ceph-fuse挂载-CSDN博客

分布式存储ceph rbd 常用操作_ceph rbd 命令_小果运维的博客-CSDN博客

分布式存储ceph osd 常用操作_ceph查看osd对应硬盘_小果运维的博客-CSDN博客

1、NFS共享配置：

2、配置各节点免密登陆

3、配置统一登陆认证nis服务或ldap服务

服务器集群配置LDAP统一认证高可用集群（配置tsl安全链接）-centos9stream-openldap2.6.2-CSDN博客

OpenLDAP配置web管理界面PhpLDAPAdmin服务-centos9stream-CSDN博客

4、节点间时间同步服务，建议chrony，时间同步很重要，不然节点之间有较大时间差时会报通信错误。建议使用控制节点作为时间服务器，其他节点同步控制节点时间。

2、SLURM服务安装

安装准备工作：

###先查看可安装的slurm包,
yum list | grep slurm

slurm.x86_64                                                                             22.05.9-1.el9                                  @epel                     
slurm-devel.x86_64                                                                       22.05.9-1.el9                                  @epel                     
slurm-libs.x86_64                                                                        22.05.9-1.el9                                  @epel                     
slurm-slurmctld.x86_64                                                                   22.05.9-1.el9                                  @epel                     
slurm-slurmd.x86_64                                                                      22.05.9-1.el9                                  @epel                     
slurm-slurmdbd.x86_64                                                                    22.05.9-1.el9                                  @epel                     
globus-gram-job-manager-slurm.noarch                                                     3.0-10.el9                                     epel                      
pcp-pmda-slurm.x86_64                                                                    6.0.5-4.el9                                    appstream                 
slurm-contribs.x86_64                                                                    22.05.9-1.el9                                  epel                      
slurm-doc.x86_64                                                                         22.05.9-1.el9                                  epel                      
slurm-gui.x86_64                                                                         22.05.9-1.el9                                  epel                      
slurm-nss_slurm.x86_64                                                                   22.05.9-1.el9                                  epel                      
slurm-openlava.x86_64                                                                    22.05.9-1.el9                                  epel                      
slurm-pam_slurm.x86_64                                                                   22.05.9-1.el9                                  epel                      
slurm-perlapi.x86_64                                                                     22.05.9-1.el9                                  epel                      
slurm-rrdtool.x86_64                                                                     22.05.9-1.el9                                  epel                      
slurm-slurmrestd.x86_64                                                                  22.05.9-1.el9                                  epel                      
slurm-torque.x86_64                                                                      22.05.9-1.el9                                  epel                      

#############slurm的安装包比较全的话都在epel源，所以新系统最好安装epel源，否则可能存在依赖缺失问题。
yum install epel-release

安装slurm服务包

###建议所有节点都安装这里指定的几个服务吧，不用分控制节点还是数据库存储节点。
yum install slurm slurm-devel slurm-libs slurm-slurmctld slurmd slurmdbd -y

###为配置节点之间的安全认证，建议配置munge服务，所有节点安装
yum install munge munge-libs munge-devel -y

安装mariadb或mysql数据库

如果想配置slurm服务的数据存储，建议安装mariadb，配置mariadb主主集群配置后续再补上，这里写单mariadb服务节点安装配置，大意如此，基本能用

###需要配置mariadb的repo源
yum -y install mariadb mariadb-server mariadb-devel
systemctl start mariadb && systemctl enable mariadb

###创建数据库
create database slurm_acct_db;
grant all privileges on slurm_acct_db.* to 'slurm'@'%' identified by '122213233';
flush privileges;

配置服务账户id

建议各节点slurm和munge两个系统账号的id在各节点之间配置相同

这个建议各个节点单独配置吧，多节点采用for语句也听方便。这里写单个节点的操作方式。

###查看各节点slurm和munge用户的uid和gid
###这里统一将所有没电的munge用户uid和gid均设置为1899，将slurm用户的uid和gid均设置为1898
###修改是注意先停止相应服务，更改完uid和gid后，在将对应服务和数据目录权限修改为新的账户

systemctl stop munge
usermod -u 1899 munge
groupmod -g 1899 munge
usermod -g 1899 munge
id munge
chown -R munge:munge /var/log/munge
chown -R munge:munge /etc/munge
chown -R munge:munge /var/run/munge
chown -R munge:munge /var/lib/munge
updatedb
locate munge

usermod -u 1898 slurm
groupmod -g 1898 slurm
usermod -g 1898 slurm
id slurm
chown -R slurm:slurm /var/log/slurm
chown -R slurm:slurm /etc/slurm
chown -R slurm:slurm /var/run/slurm
chown -R slurm:slurm /var/spool/slurm

同样这里要注意munge.key在各节点之间要一致，设置完后重启munge服务，下面是生成munge.key的命令

#在第一个节点执行后，拷贝到其他节点的/etc/munge/目录下，并修改权限为munge用户
/usr/sbin/create-munge-key -r

更改账户uid和gid详细方法见：

linux系统创建用户、调整权限及用户和用户组id（centos 9 stream）_linux修改用户组id与用户id-CSDN博客

防火墙配置

如果集群对外，集群各节点对外没有统一的安全网关时建议配置好firewalld和selinux，firewalld要开放6818,6817等几个默认端口。

特别提示一下，系统slurm服务默认端口6718,6819等端口，如配置ceph集群也使用默认端口则可能导致6800这个端口段引发slurm和ceph服务的冲突，这里一定要注意避开，最好的建议就是ceph集群单独配置，否则注意修改slurm的端口或者修改ceph的服务端口，如果没有配置ceph或者使用6800这个端口段的服务的可以忽略。

如果集群为内部集群或有统一的对外网关这里可以直接将firewalld和selinux服务关闭

3、配置slurm.key

建议配置统一的slurm.cert和slurm.key用户集群之间信息的安全交互。

建议在/etc/slurm目录下新建pki或key或者certs作为证书文件存储目录，并将配置好的slurm.cert和slurm.key文件放入证书文件夹，所有节点保持一致

4、配置slurmdbd.conf

不想使用slurmdbd服务来存储slurm系统服务的账户等信息的，可以忽略此项配置，但需要在slurm.conf配置文件中指定存储方式为文件存储或者sqlite3，并配置。

这个在slurmdbd服务节点配置就行，建议配置两个，且使用haproxy配置为高可用，然后使用高可用虚拟ip进行配置。（后续再补，大家先执行探索）

###进入mariadb数据库创建slurm用户并设置密码并授权slurm_acct_db数据库的读写权限
create database slurm_acct_db   //这里的命令是个形式哈，大家自己参考正式的数据库创建命令，反正这里使用名字为slurm_acc_db
###授权slurm用户对slurm_acc_db的读写权限,注意这里设置的密码要记住并与slurmdbd.conf中一致
grant all privileges on slurm_acct_db.* to 'slurm'@'%' identified by '123234h34343423' with grant option;
flush privileges;


####这里是slurmdbd服务配置的详细情况，这里使用的是haproxy代理的mariadb主主数据库集群
cat slurmdbd.conf
#
# See the slurmdbd.conf man page for more information.
#
# Archive info
#ArchiveJobs=yes
#ArchiveDir="/tmp"
#ArchiveSteps=yes
#ArchiveScript=
#JobPurge=12
#StepPurge=1
#
# Authentication info
AuthType=auth/munge
AuthInfo=/var/run/munge/munge.socket.2
#
# slurmdbd info
DebugLevel=4
DefaultQOS=normal,standby      //统一写为standby，后面slurmdbd会自己根据情况是否设置为backup状态还是primary状态。
DbdAddr=192.168.1.101          //本机ip
DbdHost=host1    //本机机器名     
DbdPort=26819    //默认为6819，如配置有ceph等服务建议修改
DbdBackupHost=host2    //这里是指定备份slurmdbd服务的主机名，根据实际情况修改。
LogFile=/var/log/slurm/slurmdbd.log
#MessageTimeout=300
PidFile=/var/run/slurm/slurmdbd.pid
#PluginDir=
PrivateData=accounts,users,usage,jobs
PurgeEventAfter=12month     //这些就自己修改吧，影响不大。
PurgeJobAfter=12month 
PurgeResvAfter=12month 
PurgeStepAfter=12month 
PurgeSuspendAfter=12month 
PurgeTXNAfter=12month 
PurgeUsageAfter=12month 
SlurmUser=slurm    //有的直接使用root，权限可能有点大，建议建立slurm用户并授权slurm对slurm服务目录的访问权限
#TrackWCKey=yes
#
# Database info

####下面是使用haproxy代理的mariadb主主集群，主要是为了高可用，如果只有一个mariadb的单机服务的话直接填写单机ip和对应的服务端口在下方就行。
StorageType=accounting_storage/mysql
StorageHost=192.168.1.151   //haproxy代理的mariadb主主服务集群vip服务ip
StoragePort=10206    //haproxy代理mariadb开放端口
StoragePass=123234h34343423    //与mariadb数据库授权时设置密码一致
StorageUser=slurm    //数据库中的slurm用户
StorageLoc=slurm_acct_db     //创建的数据库名称


################################################################
###在host2上配置slurmdbd时与上方配置文件基本一致，只是Dbdhost和DbdBackupHost要注意设置，而且备份数据库启动时默认需要先将Dbdhost修改为本主机名host2，启动后再将Dbdhost修改为实际主slurmdbd服务的主机名，从启动信息中可以看到slurmdbd是否处于backup状态。

配置完成后，启动slurmdbd服务

###启动并将slurmdbd加入自动启动服务
systemctl enable slurmdbd --now

多个slurmdbd的好处就是当一个slurmdbd服务出问题的时候另外一个会从back状态进入primary状态，如下面的信息，

重启后如发现已经有slurmdbd服务正常运行，则会自动进入backup状态

5、配置slurm.conf（核心）

如果配置slurmdbd服务的话就必须先配置步骤4，如果不使用slurmdbd服务的话可以将conf中的参数取消。这里只修改主要配置信息，其他配置信息大家可以根据需求修改，默认配置应该可以满足大部分的需求。

###这里是slurm的主要配置，所有slurm节点都要保持一致，否则会报警告信息
cat slurm.conf
# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ClusterName=biodiv_dhpc        //集群名称，自己按喜好取
SlurmctldHost=host1(192.168.1.101)     //主控制节点
SlurmctldHost=host2(192.168.1.102)    //备份控制节点，多控制节点主要为高可用。
#SlurmctldHost=
#
AuthType=auth/munge    //选用munge认证服务
JobCredentialPrivateKey=/etc/slurm/certs/slurm.key    //配置slurm证书服务key
JobCredentialPublicCertificate=/etc/slurm/certs/slurm.cert    //配置slurm证书服务cert
DisableRootJobs=YES    //禁止root用户运行作业，安全考虑建议
#EnforcePartLimits=NO
#Epilog=
#EpilogSlurmctld=
#FirstJobId=1
#MaxJobId=67043328
#GresTypes=
#GroupUpdateForce=0
#GroupUpdateTime=600
#JobFileAppend=0
#JobRequeue=1
#JobSubmitPlugins=lua
#KillOnBadExit=0
LaunchType=launch/slurm
#Licenses=foo*4,bar
#MailProg=/bin/mail
#MaxJobCount=10000
#MaxStepCount=40000
#MaxTasksPerNode=512
MpiDefault=pmix
#MpiParams=ports=#-#
#PluginDir=
#PlugStackConfig=
#PrivateData=jobs
ProctrackType=proctrack/cgroup
#Prolog=
#PrologFlags=
#PrologSlurmctld=
#PropagatePrioProcess=0
#PropagateResourceLimits=
#PropagateResourceLimitsExcept=
#RebootProgram=
ReturnToService=1
SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=26817    
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=26818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=slurm    //建议使用slurm用户
#SlurmdUser=root
#SrunEpilog=
#SrunProlog=
StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none
#TaskEpilog=
TaskPlugin=task/affinity
#TaskProlog=
#TopologyPlugin=topology/tree
#TmpFS=/tmp
#TrackWCKey=no
#TreeWidth=
#UnkillableStepProgram=
#UsePAM=0
#
#
# TIMERS
#BatchStartTimeout=10
CompleteWait=1
#EpilogMsgTime=2000
#GetEnvTimeout=2
#HealthCheckInterval=0
#HealthCheckProgram=
InactiveLimit=0
KillWait=30
#MessageTimeout=10
#ResvOverRun=0
MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=120
SlurmdTimeout=300
#UnkillableStepTimeout=60
#VSizeFactor=0
Waittime=0
#
#
# SCHEDULING
#DefMemPerCPU=0
#MaxMemPerCPU=0
#SchedulerTimeSlice=30
SchedulerType=sched/backfill
SelectType=select/linear
#
#
# JOB PRIORITY
#PriorityFlags=
#PriorityType=priority/basic
#PriorityDecayHalfLife=
#PriorityCalcPeriod=
#PriorityFavorSmall=
#PriorityMaxAge=
#PriorityUsageResetPeriod=
#PriorityWeightAge=
#PriorityWeightFairshare=
#PriorityWeightJobSize=
#PriorityWeightPartition=
#PriorityWeightQOS=
#
#
# LOGGING AND ACCOUNTING
###这里配置账户保存信息的方式，如果不想配置mysql数据库的话可以选文件或者sqlite的方式
AccountingStorageEnforce=associations,qos,limits
AccountingStorageHost=host1    //这里指定slurmdbd的主服务主机
AccountingStoragePass=/var/run/munge/munge.socket.2
AccountingStoragePort=26819    //这里端口修改后所有6819的storageport端口地方都要修改成这个。
AccountingStorageType=accounting_storage/slurmdbd    //这里就是存储方式选择，其他方式去看官网吧。
AccountingStorageUser=slurm     //数据库用户
AccountingStoreFlags=job_comment
JobCompHost=192.168.1.151    //数据库ip
JobCompLoc=slurm_acct_db    //数据库名称
JobCompPass= 121244        //这个是密码，要与slurmdbd保持一致
JobCompPort=10306    //端口与slurmdbd.conf保持一致
JobCompType=jobcomp/none
JobCompUser=slurm
JobContainerType=job_container/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurm/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurm/slurmd.log
SlurmSchedLogFile=/var/log/slurm/slurmcschd.log
SlurmSchedLogLevel=3
#DebugFlags=
#
#
# POWER SAVE SUPPORT FOR IDLE NODES (optional)
#SuspendProgram=
#ResumeProgram=
#SuspendTimeout=
#ResumeTimeout=
#ResumeRate=
#SuspendExcNodes=
#SuspendExcParts=
#SuspendRate=
#SuspendTime=
#
#
# COMPUTE NODES
##计算节点配置信息，这里仅作参考，相同类型的主机可以如第三条配置信息这样合并配置写法。
##初始state都为UNKNOWN，当节点与控制节点通信后会更新状态为up或者down
##Weight表示节点使用优先级，值越小越优先使用

NodeName=host1 NodeAddr=192.168.1.101 CPUs=32 Boards=1 SocketsPerBoard=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=266240 Weight=2 State=UNKNOWN
NodeName=host2 NodeAddr=192.168.1.102 CPUs=32 Boards=1 SocketsPerBoard=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=28672 Weight=2 State=UNKNOWN
NodeName=host[3-4] NodeAddr=192.168.1.[103,104] CPUs=96 Boards=1 SocketsPerBoard=4 CoresPerSocket=12 ThreadsPerCore=2 RealMemory=245760 Weight=1 State=UNKNOWN

# PARTITIONS，
#给主机分区，这个后面运行的时候可以给用户配置可使用分区，用户提交时可指定使用分期。
#同一个节点可以属于多个分区，slurm运行权限和运行时间设定可根据分区指定
#MaxTime指定计算任务最长运行时间，默认为INFINITE

PartitionName=Common Nodes=host1,host2 Default=YES MaxTime=168:00:00 State=UP
PartitionName=high Nodes=host3,host4 MaxTime=INFINITE State=UP

节点实际资源信息查看可使用以下命令，为防止超算任务占用节点的全部资源，如控制节点也做计算节点，这样要注意将实际的cpus和memory可用资源调小一些，比如32个核的节点在配置文件中只写28个，保证4个核用户支撑数据库等服务。

###查看本机实际配置
slurmd -C
NodeName=host1 CPUs=32 Boards=1 SocketsPerBoard=2 CoresPerSocket=8 ThreadsPerCore=2 RealMemory=322148
UpTime=61-17:54:26
###这里表示有32个核或虚拟核（多线程）， 实际物理内存有320G，注意RealMemory为MB单位。
###如果当前节点还运行有数据库等其他服务，为保证其他服务正常运行，在前面slurm.conf文件中建议CPUs设置为28或更小，RealMemory设置为286,720‬（280GB）或更小。

6、配置cgroup.conf

vim /etc/slurm/cgroup.conf
CgroupAutomount=yes
ConstrainCores=no
ConstrainRAMSpace=no

除非有不同，否则默认就可以了

7、启动slurmctld控制节点服务

主节点和备份的slurmd服务节点顺序启动。

###启动slurmd服务并将其加入自动启动服务
systemctl enable slurmd --now

systemctl status slurmctld
● slurmctld.service - Slurm controller daemon
     Loaded: loaded (/usr/lib/systemd/system/slurmctld.service; enabled; preset: disabled)
     Active: active (running) since Thu 2023-09-28 16:38:36 CST; 1 month 29 days ago
   Main PID: 1375480 (slurmctld)
      Tasks: 18
     Memory: 13.5M
        CPU: 1h 42min 59.003s
     CGroup: /system.slice/slurmctld.service
             ├─1375480 /usr/sbin/slurmctld -D -s
             └─1375482 "slurmctld: slurmscriptd"

8、启动slurmd计算节点服务

####将/etc/slurm/slurm.conf文件复制到所有节点
scp或rsync都行

###启动slurmd服务，并加入自动启动
systemctl enable slurmd --now

###查看集群计算节点状态
sinfo

9、常用命令介绍

最开始要测试一下服务：

###三个服务一次运行，查看是否有报错信息。实际上就是相应服务的debug测试。
##slurdbd数据库存储节点测试
slurmdbd -vvvvDDDD
##slurmctld 控制节点测试
slurmctld -vvvvDDDD
##计算节点测试
slurmd -vvvvDDDD

sacctmgr：显示和设置账户关联的QOS等信息

###要使用slurm系统，我们禁用root提交作业后，就必须创建slurm的普通用户
###注意这个创建账号并不是linux系统的账户，创建后需要与linux系统账户关联

###增加slurm账号
sacctmgr add account useraccount1

###一般默认srun及sbatch提交系统任务时，会以系统登陆账户作为slurm用户账号，如果当前登陆用户不是slurm使用用户则需要关联系统账号，或在运行脚本中指定运行用户和用户组
###所以一般建议大家创建与slurm账号相同的系统账户，或创建与系统账户对应的slurm账户，方便记忆，
###当然这两个账户不一样也没关系，只要等关联上就行，关联命令如下：
sacctmgr add user useraccount1  defaultAccount=useraccount1


###账号管理的其他命令，来自官方
#先创建tux集群
sacctmgr create cluster tux
#添加账户science，设定faireshare即优先级，值越小优先级越高
sacctmgr create account name=science fairshare=50
#创建chemistry，设定父级分组为science
sacctmgr create account name=chemistry parent=science fairshare=30
#同样创建physics账户，父级分组也为science
sacctmgr create account name=physics parent=science fairshare=20
#在集群tux上创建用户adam，指定属于physics
sacctmgr create user name=adam cluster=tux account=physics fairshare=10
#删除账户
sacctmgr delete user name=adam cluster=tux account=physics
sacctmgr delete account name=physics cluster=tux
#修改账户最大工作数和最大运行时间
sacctmgr modify user where name=adam cluster=tux account=physics set maxjobs=2 maxwall=30:00
#向chemistry组田间用户brian
sacctmgr add user brian account=chemistry
sacctmgr list associations cluster=tux format=Account,Cluster,User,Fairshare tree withd
sacctmgr list transactions Action="Add Users" Start=11/03-10:30:00 format=Where,Time
sacctmgr dump cluster=tux file=tux_data_file
sacctmgr load tux_data_file

###修改用户属性，包括可使用集群，账户类型，最多提交工作数量，每个工作最长运行时间等，参考如下
sacctmgr modify user where name=adam cluster=tux account=physics set maxjobs=2 maxwall=30:00

#其他的就不说了，默认直接使用创建的account就可以开始运行job

sbatch：提交作业脚本。此脚本一般会包含一个或多个srun命令启动并行任务

###先填写slurm作业脚本
###典型的脚本头内容：

vim slurmbatch.sh

#!/bin/bash
#SBATCH -J jobname     //超算的工作名 
#SBATCH -N 1        //配置多少个节点，多个节点需要自己配置跨节点运行脚本，一般要在说有计算节点配置mpi
#SBATCH -n 40          //配置多少个核心
#SBATCH -p High        //使用主机分区
#SBATCH -t 3-00:00:00            //最长运行时间
#SBATCH --comment="any comment"

##这里要注意，一定要在所有计算节点共享/work目录，否则会报错
export PATH=/work/bin:$PATH

###这里能写任何sh或程序运行脚本，与shell里编写脚本一致
###要运行python等脚本同样只需要指定python程序和python运行命令即可执行。


#######################################参数参考，前面都加#SBATCH即可
-J,--job-name 指定作业名称
-N,--nodes 节点数量
-n,--ntasks 使用的CPU核数
--mem 指定每个节点上使用的物理内存
-t,--time 运行时间，超出时间限制的作业将被终止
-p,--partition 指定分区
--reservation 执行资源预留名称
-w,--nodelist 指定特定的节点
-x,--exclude 分配给作业的节点中不要包含指定节点
--ntasks-per-node 指定每个节点使用几个CPU核心
--begin 指定作业开始时间
-D，--chdir 指定脚本/命令的工作目录
--export-file= 通过文件filename设定环境变量。文件中的环境变量格式为
NAME=value，变量之间通过空格分隔。
-o，--output= 采用--output可以将其重定向到同一文件中
--gpus 运行程序所需GPU的数量

sbatch运行脚本

sbatch slurmbatch.sh

运行后会产生当前运行任务的jobid。

sinfo：显示分区或节点状态，可以通过参数选项进行过滤、和排序

默认运行结果如下：

使用参数-l 内容如下

参数含义

PARRITION：节点所在分区。
AVAIL：分区状态，up标识可用，down标识不可用。
TIMELIMIT： 程序运行最大时长，infinite表示不限制，限制格式为days-houres:minutes:seconds。
NODES：节点数。
NODELIST：节点名列表。
STATE：节点状态，可能的状态包括
1 allocated、alloc ：已分配
2 completing、comp：完成中
3 down：宕机
4 drained、drain：已失去活力
5 fail：失效
6 idle：空闲
7 mixed：混合，节点在运行作业，但有些空闲CPU核，可接受新作业
8 reserved、resv：资源预留
9 unknown、unk：未知原因
注意：如果状态带有后缀*，表示节点没有响应

当发现节点状态为down时，首先确认对应节点的配置文件、端口配置以及slurmd服务是否已经运行，如确认无误可以使用SCTRL UPDATE一下：

scontrol update NodeName=nodename State=RESUME

squeue：显示队列的作业及作业状态

#直接运行即可查看在时间有效期内的工作运行排队情况
squeue

##结果表头含义
JOBID：作业号
PARITION：分区名
NAME：作业名
USER：用户名
ST：状态，常见的状态包括
NODELIST(REASON):分配给的节点名列表（原因）

#结果表头ST字段含义
PD、Q：排队中 ，PENDING
R：运行中 ，RUNNING
CA：已取消，CANCELLED
CG：完成中，COMPLETIONG
F：已失败，FAILED
TO：超时，TIMEOUT
NF：节点失效，NODE FAILURE
CD：已完成，COMPLETED

###NODELIST参数含义
AssociationJobLimit：作业达到其最大允许的作业数限制
AssociationResourceLimit：作业达到其最大允许的资源限制
AssociationTimeLimit作业：作业达到时间限制
Resource：作业等待期所需资源可用
QOSJobLimit：作业的QOS达到其最大的作业数限制
QOSResourceLimit：作业的QOS达到其最大资源限制
QOSTimeLimit：作业的QOS达到其最大时间限制
PartitionNodeLimit：作业所需的节点超过所用分区当前限制
PartitionTimeLimit：作业所需的分区达到时间限制
Priority ：作业所需的分区存在高等级作业或预留
NodeDown：作业所需的节点宕机
JobHeldUser：作业被用户自己挂起
InvalidQOS：作业的QOS无效


##全部帮助命令：
squeue --help
Usage: squeue [OPTIONS]
  -A, --account=account(s)        comma separated list of accounts
				  to view, default is all accounts
  -a, --all                       display jobs in hidden partitions
      --array-unique              display one unique pending job array
                                  element per line
      --federation                Report federated information if a member
                                  of one
  -h, --noheader                  no headers on output
      --hide                      do not display jobs in hidden partitions
  -i, --iterate=seconds           specify an interation period
  -j, --job=job(s)                comma separated list of jobs IDs
                                  to view, default is all
      --json                      Produce JSON output
      --local                     Report information only about jobs on the
                                  local cluster. Overrides --federation.
  -l, --long                      long report
  -L, --licenses=(license names)  comma separated list of license names to view
  -M, --clusters=cluster_name     cluster to issue commands to.  Default is
                                  current cluster.  cluster with no name will
                                  reset to default. Implies --local.
  -n, --name=job_name(s)          comma separated list of job names to view
      --noconvert                 don't convert units from their original type
                                  (e.g. 2048M won't be converted to 2G).
  -o, --format=format             format specification
  -O, --Format=format             format specification
  -p, --partition=partition(s)    comma separated list of partitions
				  to view, default is all partitions
  -q, --qos=qos(s)                comma separated list of qos's
				  to view, default is all qos's
  -R, --reservation=name          reservation to view, default is all
  -r, --array                     display one job array element per line
      --sibling                   Report information about all sibling jobs
                                  on a federated cluster. Implies --federation.
  -s, --step=step(s)              comma separated list of job steps
				  to view, default is all
  -S, --sort=fields               comma separated list of fields to sort on
      --start                     print expected start times of pending jobs
  -t, --states=states             comma separated list of states to view,
				  default is pending and running,
				  '--states=all' reports all states
  -u, --user=user_name(s)         comma separated list of users to view
      --name=job_name(s)          comma separated list of job names to view
  -v, --verbose                   verbosity level
  -V, --version                   output version information and exit
  -w, --nodelist=hostlist         list of nodes to view, default is 
				  all nodes
      --yaml                      Produce YAML output

Help options:
  --help                          show this help message
  --usage                         display a brief summary of squeue options

scancel：取消排队或运行中的作业

#直接接jobid，一般提交任务时会显示生成的job号
scancel 2345

scontrol：显示或设定slurm作业、分区、节点等状态

#查看指定节点信息
scontrol show nodes host1

#查看指定工作任务的运行详情
scontrol show job 941

#查看分区信息
scontrol show partition

PartitionName=batch

AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL

AllocNodes=ALL Default=YES QoS=N/A

DefaultTime=NONE DisableRootJobs=NO ExclusiveUser=NO GraceTime=0 Hidden=NO

MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 LLN=NO MaxCPUsPerNode=UNLIMITED

Nodes=node4

PriorityJobFactor=1 PriorityTier=1 RootOnly=NO ReqResv=NO OverSubscribe=NO

OverTimeLimit=NONE PreemptMode=OFF

State=UP TotalCPUs=32 TotalNodes=1 SelectTypeParameters=NONE

DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED

DisableRootJobs:不允许root提交作业

Maxtime：最大运行时间

LLN：是否按最小负载节点调度

Maxnodes：最大节点数

Hidden：是否为隐藏分区

Default：是否为默认分区

OverSubscribe：是否允许超时

ExclusiveUser：排除的用户

sacct：显示历史作业信息
srun：运行并行作业，具有多个选项，如：最大和最小节点数、处理器数、是否指定和排除节点。
一般可能不用srun，更多时候是直接使用sbatch提交slurm的脚本。

差不多就这些了，后续再完善，敬请关注

你可能感兴趣的:(运维,slurm,超算资源管理服务,运维,slurmctld,slurmdbd)

构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
Linux文件权限管理 IT摆渡者网络服务器运维 linux
Linux文件权限管理：告别777，掌握核心操作在Linux系统中，文件权限是保障系统安全的基础。不少运维新手图省事，动辄给文件设置777权限，这其实隐藏着巨大安全风险。本文带你快速掌握Linux文件权限的核心知识与实用操作，摆脱对777的依赖。一、文件权限基础概念Linux通过"用户类别+权限类型"实现权限管控，核心要素包括：•三类用户：拥有者（user）、用户组（group）、其他用户（oth
穿越SaaS迷雾：从工具到智能体，国内垂直SaaS的“阵痛”与“新生”
——在增长与亏损的悖论中，一场由AI驱动的“大洗牌”正悄然上演引言：每个SaaS创始人的“冰与火之歌”每个投身国内SaaS（软件即服务）创业的创始人，心中或许都吟唱着一首“冰与火之歌”。“火”的一面，是资本的热捧、数字化转型的时代浪潮，以及那条陡峭诱人的ARR（年度经常性收入）增长曲线。根据相关调研报告，2023年中国企业级SaaS市场规模已达888亿元，其中垂直行业SaaS的占比正从35%攀升至
让你的 AI 更聪明，这 7 个开源 MCP 项目不要错过霍格沃兹测试开发学社人工智能人工智能测试用例开发语言 selenium 驱动开发开源 python
你还在用AI只是写写文档、改改代码？那你真的小看它了。现在，通过一套叫MCP（ModelControlPlane）的系统，AI不再只是“语言模型”，而是能直接操作网页、调用工具、自动化执行复杂任务的“智能助手”！今天整理了7个超实用的开源MCP项目，让你的AI立刻“开挂”。01｜PagePublisherMCP：HTML页面一键上线还在发愁怎么把AI生成的HTML页部署上线？PagePublish
【HCIA】TCP三次握手、4次断开详解戏精亿点点菜 tcp/ip 网络服务器
TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。在TCP/IP协议族中，TCP负责在两个网络实体之间建立、维护和终止连接。TCP连接的建立和终止分别通过三次握手和四次断开来完成。一、三次挥手TCP三次握手是建立TCP连接的过程，它确保了通信双方都准备好进行数据传输。过程如下：客户端->服务器:SYN,ISN=x服务器->客户端:SYN,ACK,ISN=y,ACK(x+1
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Spring Security：认证与授权的实现原理及实践
SpringSecurity是Spring生态中强大的安全框架，用于为Java应用提供认证（Authentication）和授权（Authorization）功能。根据2024年StackOverflow开发者调查，SpringBoot是Java开发者中最流行的框架，约60%的Java开发者使用它构建微服务，而SpringSecurity是其首选安全解决方案。本文深入剖析SpringSecurit
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
如何设计可扩展的后端系统架构？破碎的天堂鸟学习教程系统架构
设计可扩展的后端系统架构需综合考虑核心原则、架构模式、扩展策略、数据存储、容错机制及监控体系。以下是基于行业实践的详细指南：一、可扩展架构的核心原则无状态性（Statelessness）服务不保存客户端状态，请求可被任意实例处理，便于水平扩展。实现：通过负载均衡器（如Nginx、HAProxy）分发请求至多个无状态实例。松散耦合（LooseCoupling）模块间通过API或消息队列通信，减少依赖
一文详解：使用HTTPS有哪些优势？ JoySSL303 https 网络协议 http ssl 网络
互联网发展到今天，HTTP协议的明文传输会让用户存在非常大的安全隐患。试想一下，假如你在一个HTTP协议的网站上面购物，你需要在页面上输入你的银行卡号和密码，然后你把数据提交到服务器实现购买。假如这个环节稍有不慎，你的传输数据被第三者给截获了，由于HTTP明文数据传输的原因，你的银行卡号和密码，将会被这个截获人所得到。现在你还敢在一个HTTP的网站上面购物吗？你还会在一个HTTP的网站上面留下你的
Android 高通平台修改摄像头拍照偏暗的问题
Android高通平台某款摄像头拍照会偏暗，修改摄像头拍照偏暗的问题按如下方法修改。开发云-一站式云服务平台.../chromatix_gc02m1/preview/chromatix_gc02m1_preview.h|10+++++-----1filechanged,5insertions(+),5deletions(-)diff--gita/vendor/qcom/proprietary/mm
ECR仓库CloudFormation模板完整指南 ivwdcwso 运维与云原生自动化 aws 运维 ECR CloudFormation 镜像容器
概述本文档详细介绍了一个通用的AmazonECR（ElasticContainerRegistry）仓库CloudFormation模板，该模板支持多业务组、参数化配置，并包含完整的安全策略、生命周期管理和监控功能。模板特性核心功能✅支持4个业务组：app、ai、mall、frontend✅灵活的服务名手动输入✅多环境支持（dev/test/staging/prod）✅自动镜像扫描和安全检查✅生命
PHP安全编程实践系列（三）：安全会话管理与防护策略软考和人工智能学堂 php #php程序设计经验 php 安全开发语言
前言会话管理是Web应用安全的核心环节，不安全的会话实现可能导致用户账户被劫持、敏感数据泄露等严重后果。本文将深入探讨PHP中的会话安全机制，分析常见会话攻击手段，并提供全面的防护策略和实践方案。一、会话安全基础1.1PHP会话机制工作原理理论：PHP会话是通过会话ID（SessionID）在服务器和客户端之间维持状态的一种机制。关键流程包括：会话初始化：session_start()调用会话ID
【实战派×学院派】32｜上线后一堆优化需求，到底是 Bug 还是改进？郭菁菁 (BA/PM)实战派常踩的坑学院派如何补上 bug 业务分析需求分析 BA
学院派：用Bug/Enhancement分类机制+优化反馈池+二次迭代评审机制，避免优化失控、节奏紊乱你是不是也遇到过这样的场景：“这个报表逻辑不太合理，麻烦调整下。”“那个按钮位置不合适，顺便挪一挪吧。”“这个功能可以加个提醒吗？体验会好一点。”项目刚上线没多久，各路优化意见像潮水一样涌来。最让人头疼的是：到底这些算Bug（缺陷）还是Enhancement（优化改进）？该优先处理哪个？哪些该打回
虚幻引擎UE5专用服务器游戏开发-19 设置头顶状态条可见性控制 AA陈超虚幻 ue5 游戏引擎 c++游戏服务器
头顶状态条的动态显示控制。状态条会根据与玩家角色的距离（默认300单位）进行自动隐藏，并通过定时器（默认0.2秒频率）持续检测距离变化。当角色由本地玩家控制时，状态条会自动隐藏。代码采用服务器-客户端初始化架构，并包含碰撞设置、组件创建等基础角色配置。Source/Crunch/Public/Character/CCharacter.h：变量：//计时器频率UPROPERTY(EditDefaul
Fiddler中文版如何提升API调试效率：本地化优势与开发者实战体验汇总代码背锅人日志 ios 小程序 uni-app iphone android webview https
在现代软件开发中，调试网络请求是不可或缺的一环。无论是Web前端、移动App，还是后端微服务，只要涉及到API通信，就离不开高效的抓包工具。Fiddler作为全球使用最广泛的抓包调试工具之一，凭借功能强大、灵活扩展和跨平台支持，深受开发者喜爱。而对于中文用户而言，Fiddler中文版的出现，让这款专业工具变得更加亲民、高效和易于掌握。本文将结合开发者日常使用场景，解析Fiddler中文版如何通过本
百度斩获大模型中标第一，股价上涨5% 大力财经百度
7月7日（周一），百度（BIDU.US）股价上涨5%，收报90.68美元。最新数据显示，2025上半年我国大模型相关项目呈现爆发式增长态势：中标项目累计达1810个，金额突破64亿元，中标项目数超2024全年，市场需求持续释放。其中，百度智能云表现尤为突出，以48个中标项目和5.1亿元中标金额，稳居“双第一”，并在金融、能源、政务、制造等重点行业中持续领跑。依托领先的大模型技术与全栈智能基础设施，
Linux守护进程不脱发的程序猿嵌入式Linux“望闻问切“linux 嵌入式
目录1、编写守护进程的步骤2、守护进程的使用和案例设计2.1、案例功能分析2.2、守护进程代码结构2.3、代码实现2.4、代码详解3、编译和运行守护进程4、检查守护进程5、停止守护进程守护进程（Daemon）是一种在后台运行的特殊进程，通常用于执行系统服务、管理任务或处理请求。它们具有几个显著的特征，使其在系统中扮演重要角色。主要特征：长期运行：守护进程通常在系统启动时启动，并会持续运行，直至系统
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
jenkins 自动化部署之后，不允许在工具上查看源代码小疯仔 jenkins 自动化运维
先来展示一下最终的效果在没有如何操作之前的时候，这个Jenkins部署完成之后会在工具上留有源代码，能点击进去，部署到甲方的服务器上的时候会被看到，这样就会造成源码泄露解决方案可以在Jenkinsfile文件中加入以下代码pipeline{agentanytools{nodejs'nodejs16.20.2'}//步骤stages{}//新增post阶段：在流水线结束后清理工作区post{alwa
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
百万并发稳如磐石：Redis穿透/雪崩避坑实战与架构精要今天你慧了码码码码码码码码码码 Redis redis 架构数据库
某社交平台在明星官宣离婚时突发崩溃：每秒50万查询涌向数据库，导致核心服务不可用30分钟。事后分析发现，恶意用户伪造海量不存在的用户ID发起请求，同时大量热点Key集中失效，引发缓存穿透与雪崩的双重风暴。这个千万级损失的案例，揭示了缓存异常处理的生死攸关。一、缓存穿透：恶意请求的隐形杀手1.穿透原理与危害分析恶意用户缓存数据库循环其他恶意用户系统告警查询不存在的数据(user_9999999)缓存
#TypeScript高频面试题总结（2025版）沈大大520 typescript 前端面试
本文将分享TypeScript高频面试题的一些面试点以及相应的示列作者：沈大大更新时间：2025-03-11前言TypeScript作为JavaScript的超集，已经成为前端开发中不可或缺的技术。本文整理了最常见的TypeScript面试题，从基础到高级，帮助你全面准备技术面试。基础概念篇1.TypeScript与JavaScript的区别是什么？TypeScript是JavaScript的超集
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
同窗大学室友扎根家乡城市涪陵 500佰技术资讯 NodeJS 前端框架
6月7日，周六参加完大学X室友在重庆涪陵的喜酒。X室友的婚礼也比较简陋，主要有两项礼节，一是收礼金持续到了上午12点，二是新郎与新娘牵着手在舞台共同唱了一首，他们舞台一共耗时不超7分钟，也没有穿婚纱的仪式，一场婚礼到此结束。我中肯X同室友的婚礼形式，虽然不够隆重，但效果都相同，家里父母、叔侄亲友，同一个生产队父老乡亲们，同一单位同事、朋友，同窗同学也都聚在一起参观了这场喜庆。我的大学室友共计8位，
上位机软件开发哪家好？深圳市由你创科技上位机开发自动化 c#labview c++python c语言 matlab
在工业自动化、医疗设备、新能源等领域，上位机软件如同“指挥官”，负责设备控制、数据分析和人机交互，直接影响生产效率和系统稳定性。然而，面对多协议兼容性差、开发周期不可控、后期维护成本高等难题，企业如何选择一家技术过硬、服务优质的上位机软件开发服务商？深圳市由你创科技有限公司凭借全栈技术能力、垂直行业经验及高效服务体系，深圳市由你创成为众多企业首选的上位机开发合作伙伴。本文深度解析上位机开发的关键要
SpringBoot-19-企业云端开发实践之web开发晋级皮皮冰燃 SpringBoot spring boot 前端后端
文章目录1静态资源访问1.1static静态资源目录1.2application.properties(过滤规则)2文件上传2.1文件上传原理2.2SprintBoot文件上传功能2.3FileUploadController.java2.4配置访问上传的文件3拦截器3.1interceptor/LoginInterceptor3.2config/WebConfig4RESTful服务和Swagg
Unity3D 游戏在 iOS 上因为 trampolines 闪退的原因与解决办法耳朵里有只风 ios unity unity3d ios ios闪退
崩溃的情况进入游戏一会儿，神马都不要做，双手离开手机，盯着屏幕看吧，游戏会定时从服务器那儿读取一些数据，时间一长，闪退了。尼玛问题是神马呢？完全没有头绪，不过大体猜测是因为网络请求导致的，那么好，先排查服务器返回结果是否有问题，最终确认每次客户端崩溃的时候，服务器都成功的返回了格式正确的数据，没有任何异常。那么可以确定问题是出在客户端部分了。先检查代码，确认逻辑上没有任何问题之后，也倍感无力啊，问
408考研逐题详解：2010年第23题——系统调用
2010年第23题下列选项中，操作系统提供给应用程序的接口是（）A.系统调用\qquadB.中断\qquadC.库函数\qquadD.原语解析本题考查对操作系统接口机制的理解，特别是应用程序如何与操作系统内核交互以请求服务（如文件操作、进程管理等）。系统调用：是操作系统内核为应用程序提供的一组预定义接口，允许应用程序请求内核服务（如I/O操作、进程控制、内存分配等）。应用程序通过特定的指令（如in
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe