原文:http://www.yellow-bricks.com/2013/12/19/what-happens-in-a-vsan-cluster-in-the-case-of-an-ssd-failure/

注明:本文内容基于 VMware VSAN beta 版本撰写,请访问http://www.vmware.com/products/virtual-san/获得有关正式版本的更新信息。



       在 VMUG 活动中以及在我的博客和各种论坛中会不断提到一个问题:出现 SSD 故障时 VSAN 群集会发生什么?不久前,我曾经在“ VSAN如何处理硬盘与主机故障中围绕故障情形回答过这个问题,但既然有人不断问起来,我认为我应该写一篇单独的博文来谈一下这个问题。这样可以让人们更容易找到问题的答案,也更便于在 Google 查找答案。让我们先绘制一个场景,一个普通的 VSAN 环境是什么样的:


出现 SSD 故障时 VSAN 群集会发生什么?_第1张图片


      在上述场景下,您会看到:

  • 一个含 4 个主机的群集

  • 每个主机有 1 个磁盘组

  • 每个磁盘组有 1 SSD 3 HDD

  • 为虚拟机设置的允许的故障数目 1


      也许您已经知道,目前一个 VSAN 磁盘组可以容纳 7 HDD,并需要在前端配备一个 SSD。该 SSD 用作所存储组件的读取缓存 (70%) 和写入缓冲区(30%)。如上图所示,SSD 是第一个存储IO 的位置。因此,如果 SSD 出现故障会发生什么呢?



      如果 SSD 出现故障,整个磁盘组和所有组件都会报告为降级或缺失。具体状态(降级还是缺失)取决于故障类型,一般来说,在 SSD 发生故障时,VSAN可进行识别,并将其标记为降级,然后立即为对象(磁盘、vmx 文件等)创建一个新的副本(如下图所示)。


出现 SSD 故障时 VSAN 群集会发生什么?_第2张图片


      从设计角度看,应该注意以下几点(对于当前版本):

  • 一个磁盘组只能包含一个 SSD

  • 可以将一个磁盘组视为一个故障域

    • 例如,创建两个 3HDD+1SSD 磁盘组比创建一个 6HDD+1SSD 磁盘组优势更大

  • SSD 可用性非常重要,请选择一个可靠的 SSD!没错,一些用户级 SSD 的确性能超群,但它们往往损耗速度更快。


     需要说明一点,如果采用默认存储策略运行,则只能在发生一个组件故障时获得保护。这意味着,发生故障的可能是一个 SSD、一个主机或一个磁盘组,而此时不会丢失数据,如上所述,VSAN 通常可以快速重新创建受影响的对象。


     我并不建议您应该在可靠性方面节省资金。如果您想知道要为自己的 VSAN 环境选择哪种SSD,建议您阅读 Wade Holmes VMware vSphere 博客上发布的文章。尤其要注意耐用性要求部分!如果仍然需要我提供建议,我认为 Intel S3700 在价格/耐用性/性能方面仍然是最佳选择!


     呼朋引伴,欢迎分享!



————————————————————————————————————————————



作者: Duncan Epping

Duncan Epping 现任 VMware R&D SDDC 新兴解决方案团队首席架构师。他主要负责挖掘现有产品和功能的新机会,并通过对新解决方案或产品进行原型开发来为 VMware 探索新的业务商机。他主要致力于软件定义的存储和业务连续性/灾难恢复解决方案,目前正在申请一项专利。