云平台中节点异常如何考虑迁移因素

在云平台中物理节点异常是否立即迁移到其他可用资源节点?还是人为干预? 手动恢复异常节点的云主机...? 


自动迁移实现不难,难就难在如何定位故障?物理机异常有N种假设:

    网络故障:交换机端口异常,广播风暴... 这种现象将会导致多节点异常?如果这种故障实现自动迁移将会带来意外风险


    服务异常:MQ 消息积压,磁盘写满,将会导致所有节点无法正常通信,如果这种故障实现自动迁移带来意外风险


    软件异常:后端存储节点服务down ,monitor 异常,将会导致云主机无法正常work, 如何定位VM 故障,是否迁移?


    硬件故障:如果定位物理节点硬件故障,如硬盘故障,CPU Crash 


你可能感兴趣的:(云平台中节点异常如何考虑迁移因素)