可热插拔式内存和cpu设计思路

1 背景

最近看到了华为和suse合作的一个视频,里面说到了他们实现了内存和cpu的热插拔, 以保证硬件设备的高可用性,提供更加稳定的支持。早上起来想了想可能的一些设计思路, 后续查找资料验证思路的正确性和可行性。

2 个人思路

多U和多内存主要是为并行计算做准备的,这也就为实现热插拔提供了良好的土壤。

2.1 初级功能–需人工干涉的热插拔

对每个cpu和内存做单独的开关控制,出现问题时人工控制关闭相应的cpu和内存,任务自动流向 其他节点。

优点:实现简单。缺点:规模部署时人工处理比较麻烦。

2.2 高级功能–基于心跳监测的自动控制

需要一个单独的注册中心,cpu和内存在注册中心注册,并定时向注册中心发送心跳数据, 当注册中心接收不到心跳数据时默认cpu或内存损坏,自动将任务分流到其他节点。 待更换后心跳恢复,注册中心自动发现相应设备,把任务分发到该节点。

优点:实现了自动控制。缺点:对单独注册中心的要求较高,且存在单点故障,做不到高可用性。

2.3 更高一级–高可用性

有2个以上的注册中心,相互备份,随时可以相互接替,当一个注册中心出现问题时, 其余的注册中心会推选出一个新的主注册中心,其余的作为从注册中心, 实现高可用性和实时恢复性。

优点:高可用性、稳定性。缺点:实现难度大

你可能感兴趣的:(可热插拔式内存和cpu设计思路)