IBM Spectrum LSF 常见问题
1、随此产品一起部署的集群中包含哪些 Spectrum LSF 软件包?
包含以下 Spectrum LSF 程序:
IBM Spectrum LSF Standard Edition
IBM Spectrum LSF 许可证调度程序
IBM Spectrum LSF 数据管理器
2、哪些位置可用于部署 VPC 资源?
可以在 资源部署的位置中找到用于部署 VPC 资源的可用区域和区域以及这些资源到城市位置和数据中心的映射。
3、我需要哪些许可权才能使用该产品创建集群?
有关为产品用于创建集群的 IBM Cloud 服务设置相应许可权的指示信息可以在 授予用户对 VPC 资源的许可权, 管理对 Schematics的用户访问权和 分配对 Secrets Manager的访问权中找到。
4、如何在节点之间进行 SSH?
HPC 集群中的所有节点都具有在集群创建时注册的相同公用密钥。 您可以使用 ssh-agent 转发,这是访问具有相同公用密钥的远程节点的常用方法。 它可自动将专用密钥安全地转发到远程节点。 在会话关闭后,将立即删除转发的密钥。
要将专用密钥安全地转发到远程节点,需要执行 ssh-add 和 ssh -A。
[your local PC]~$ ssh-add {id_rsa for lsf cluster}
[your local PC]~# ssh -A -J root@jumpbox_fip root@management_private_ip
…
[root@management]~# ssh -A worker_private_ip
对于 Mac OS X ,您可以通过向 .ssh/config添加以下配置来持久存储 ssh-add :
Host *
UseKeychain yes
AddKeysToAgent yes
您甚至可以通过向 .ssh/config添加 “ForwardAgent yes” 来除去 -A 。
5、可以通过此产品在 Spectrum LSF 集群中部署多少个工作程序节点?
在部署集群之前,请务必确保 VPC 资源配额设置适合于您要创建的集群的大小 (请参阅 配额和服务限制)。
部署值 worker_node_max_count 支持的最大工作程序节点数为 500 (请参阅 部署值)。 worker_node_min_count 变量指定在创建集群时供应的工作程序节点数,这些节点将存在于集群的整个生命周期中。 这两个变量之间的变化量指定可由 LSF 资源连接器自动缩放功能创建或销毁的最大工作程序节点数。 在该增量超过 250 的配置中,如果期望工作负载的特征在单个时间点导致> 250 个集群节点连接或移除操作请求,那么建议谨慎操作。 在这些情况下,建议同步作业启动和停止请求 (如果可能)。 否则,您可能会在加入集群或从集群中除去的部分节点中看到明显的延迟。
6、为什么可以在 IBM Cloud 目录磁贴中指定两个不同的资源组参数?
IBM Cloud 目录中的 配置工作空间 部分中的第一个资源组参数条目适用于在 IBM Cloud 帐户上供应 Schematics 工作空间的资源组。 此参数的值可以与目录中 具有缺省值的参数 部分中用于第二个条目的值不同。 第二个条目适用于供应 VPC 资源的资源组。 如此第二个 resource_group 参数的描述中所指定,请注意,仅支持使用缺省资源组来使用 LSF 资源连接器自动缩放功能。
7、IBM Spectrum LSF 磁贴使用的 Terraform 文件位于何处?
可以在此 GitHub 存储库中找到基于 Terraform 的模板。
8、在何处可以找到每个云区域的定制映像名称到映像标识的映射?
可以在此 GitHub 存储库中的 image-map.tf 文件中找到映射。
9、在使用此产品部署的集群节点中使用哪些 Spectrum LSF 和 Spectrum Scale 版本?
随此产品一起部署的集群节点包括 IBM Spectrum LSF 10.1 Standard Edition 以及 Data Manager 和 License Scheduler。 请参阅以下内容以获取其中每个程序的简要描述: IBM Spectrum LSF 10 系列产品
如果集群使用 Spectrum Scale 存储器,那么存储节点将包含 IBM Spectrum Scale 5.1.3.1 软件。 有关更多信息,请参阅 IBM Spectrum Scale 产品文档。
10、启用 spectrum_scale 后,可以通过此产品在 Spectrum LSF 集群中部署多少计算工作程序和存储节点?
在部署集群之前,请务必确保 VPC 资源配额设置适合于您要创建的集群的大小 (请参阅 配额和服务限制)。
部署值 total_compute_cluster_instances 支持的最大计算节点数为 64。 部署值 total_storage_cluster_instances 支持的最大存储节点数为 18。
11、为什么 LSF 工作程序节点上显示的 CPU 号与 LSF Application Center GUI 中显示的不同?
在 LSF 工作程序节点上运行 lscpu 命令时, LSF Application Center GUI 中的 CPU 列和 ncpus 列可能未显示相同的值。
通过在 LSF 工作程序节点上运行 lscpu | egrep ‘Model name|Socket|Thread|NUMA|CPU(s)’ 而获得的 CPU 列输出将显示该计算实例上的 CPU 线程数 (非物理核心数)。
如果 EGO_DEFINE_NCPUS=threads,那么 “ncpus=number of processor x number of cores x number of threads” 和 LSF Application Center GUI 中的 CPU 列值将与您在 LSF 工作程序节点上运行 lscpu 时看到的值匹配。
如果 EGO_DEFINE_NCPUS=cores,那么 “ncpus=number of processor x number of cores” 和 LSF Application Center GUI 中的 CPU 列值将是您在 LSF 工作程序节点上运行 lscpu 时看到的值的一半。