【编者按】
刘一蒙是vSAN的系统顾问,她做了一个关于vSAN监控和告警的很好的总结。
主要分为三部分:
1、利用vSphere web Client监控就能完成vSAN常用的监控和告警
2、利用vRealize Operations,可根据预先定义的策略自动采取措施
3、客户怎样将vSAN监控集成到自己的第三方监控工具里
---Begin---
为保证系统的稳定运行,存储系统应该具备实时监控系统的负载和故障情况的能力,管理员可以从vSphere web Client监控vSAN环境中的所有对象,包括参与vSAN集群的所有主机、设备以及vSAN Datastore的信息,如总容量、已用容量、预留容量、虚拟磁盘和VM Home以及Swap占用的容量、运行状态、物理位置等。
在日常运维中,如果采用精简配置,虚拟机的虚拟磁盘仅占用实际数据的使用空间,大量地节省了成本。但是,在无人监控空间增长的情况下,可能会发生存储空间超额分配,引发业务应用性能下降,甚至无法工作。
实际上,vSAN在任何磁盘设备利用率超过80%的容量阈值的时候,会自动在整个集群范围内执行容量的再平衡(Rebalance),以改善资源利用率。当磁盘容量全满时,vSAN会暂停写数据并为写请求申请新的磁盘空间。
当然,vSAN会尽量避免出现这样的情况,管理员可以从vSphere Web Client上实时监控vSAN Datastore的容量状态,并且提供了更简单的虚拟机对象消耗空间的监控方式,同时可以设置阈值向管理员发送告警通知。
vSAN为管理员提供了内置的默认警报,当警报对应的事件发生时,或满足警报中制定的一个或所有条件时,会自动触发默认警报,其中一个默认警报是磁盘上数据存储的使用情况,该警报用于监控磁盘使用情况的百分比,默认情况下,在超过75%使用空间的阈值时会触发一个黄色三角形的感叹号的警报(严重性级别:警告),当到达85%时会发出另外一个警告(严重性级别:严重),vSAN Datastore的虚拟机默认使用具有精简配置格式的虚拟磁盘,那么这种类型的警报更为重要。
对于默认警报,用户不能编辑条件或删除,如果要配置特定要求的警报,需要为vSAN创建自定义的警报。
第 1 步- 创建新的 vCenterServer 警报并命名,然后选择‘datastore’以及“Monitor specific event…(监控特定事件…)”,并确保已启用。
第 2 步– 为“事件”添加触发事件并修改阈值以满足用户定义的业务要求
第 3 步– 为警报状态变化时设定操作,VM和主机监控会有更多的操作选择
您可以借助VMkernel Observer为vSAN事件设置警报的系统事件。 VMware ESXi观察日志(VOB)包含VMKernel发现的系统事件,其中许多事件特定于vSAN。每个VOB事件与一个标识符ID关联,通过VOB ID,用户可以快速轻松的为vSAN集群中所有设备故障创建vCenter警报。
在vSphereweb Client中会显示对以下vSAN监控组的健康检查结果:
· 网络
· 物理磁盘
· 集群
· 数据
· 硬件兼容性
· 性能服务
· 扩展集群
每个组包含了许多健康检查用例,一旦检查失败,会提供警告或错误级别告警,告警信息包含出现问题的主机或集群定位信息并且提供清楚告警的最佳实践。
其实在日常运行阶段,管理员还可以通过vSAN vRealize Operations Management Pack实现在生产环境中的vSAN运维操作,在出现问题时根据预先定义的策略自动采取措施,通过定制的仪表盘功能方便管理员监控、优化和故障排查。
管理员进入vRealize Operation Management Pack界面会看到三个默认仪表盘:
1. vSAN环境概览
2. vSAN性能
3. 优化vSAN部署
当然也可以构建定义的仪表盘,从默认的仪表盘中就可以获得有价值的信息。在vSAN环境概览中,管理员可以看到vSAN集群端到端的存储拓扑图、告警以及健康状态。
在vSAN性能视图中可以观察VM、磁盘组和主机级别的性能,选择特定的对象可以获取额外的信息,比如下图当选择运行的一台虚拟机时显示当前的延迟、IOPS;选择特定的磁盘组时,可以观察当前磁盘组写Buffer的性能。
在优化vSAN部署的视图中,提供了vSAN和非vSAN Datastore的负载、使用空间对比。
在vSAN vROperation Management Pack中,管理员也可以创建告警,在组件出现问题时触发相应的措施。
告警 |
告警级别 |
描述 |
vSAN集群磁盘空间使用量接近容量 |
Warning |
当vSAN集群磁盘空间使用量接近空间的80%触发告警;移除不再使用的虚拟机或添加更多的磁盘到集群中会清除告警 |
vSAN集群磁盘空间使用量小于5% |
Critical |
当vSAN集群磁盘空间使用量接近空间的95%触发告警;移除不再使用的虚拟机或添加更多的磁盘到集群中会清除告警 |
vSAN集群闪存设备读缓存接近容量 |
Warning |
当vSAN集群读缓存接近闪存设备空间的80%触发告警;添加磁盘组以增加闪存设备会清除告警 |
vSAN集群闪存设备读缓存小于5% |
Critical |
当vSAN集群读缓存接近闪存设备空间的95%触发告警;添加磁盘组以增加闪存设备会清除告警 |
vSAN集群虚拟磁盘数量接近容量 |
Warning |
当vSAN集群每个主机的虚拟磁盘数量接近75%时触发告警;添加更多的主机会清除告警 |
vSAN集群虚拟磁盘数量小于5% |
Warning |
当vSAN集群每个主机的虚拟磁盘数量达到95%时触发告警;添加更多的主机会清除告警 |
vSAN磁盘组读缓存命中率低于90% |
Warning |
当vSAN磁盘组读缓存命中率低于90%时会触发告警;扩展更多的缓存空间满足当前负载会清除告警 |
vSAN磁盘组读缓存命中率低于90%且写buffer剩余空间小于10% |
Warning |
当vSAN磁盘组读缓存命中率低于90%且写buffer剩余空间小于10%时会触发告警;添加更多的闪存空间会清除告警 |
vSphere Web Client 以及vRealize管理套件帮助您轻松监控整个环境,不过也有许多客户使用第三方监控工具或将其整合到已配置的环境中。客户需要在ESXi主机或vCenterServer上配置SNMP trap,以便第三方监控运维工具采集关于当前环境的相应拓扑、事件、告警等信息如虚拟机、网络、磁盘等,扩展VMware提供的已经很强大的工具。
或者为vCenter配置有效的SMTP服务器发送告警邮件。同时vSAN提供相应的管理API接口、CLI和SDK,使得第三方运维平台可以主动发送数据抓取请求,提供全面的系统管理操作。
1)详细文章可以参考:
使用第三方工具监控 vSphere 环境 (2126815)
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2126815
2)与之相关的MIB库,可以去如下链接下载:
SNMP MIB 模块文件下载 (2095819)
https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2095819
---End---
微信公众号平台"乐生活与爱IT"在目前阶段,主要是分享软件定义存储(SDS),及VMware VSAN相关的文章,偶尔也会分享虚拟化、云计算、大数据,甚至生活类的好文章。欢迎投稿,特别是原创文章,我的QQ号:9269216。
投稿一经采用并发布,获得的赞赏收入,作者可获得60%。投稿可微信私信我,或者通过QQ号 9269216联系我。
欢迎对SDS感兴趣的朋友,加入软件定义存储讨论 QQ群:122295009,可下载原创的一些文章,及其他有参考价值的文档。可直接搜索群号,或者扫描如下二维码:
同时,欢迎您加入 "开放讨论群-SDS&虚拟化" 微信群,并邀请其他对SDS和虚拟化感兴趣的朋友加入此微信群。可以通过添加如下管理员之一的微信号,建议添加管理员时,告知你的公司名和姓名,方便备注保存。
sdg8848
libo9538
yangzhuan
dts0103
欢迎您通过扫描关注微信公众号:“乐生活与爱IT”。
关注后,可以通过点击左下角的“文章目录”,通过输入三位数(记住!是三位数,目前第一位是0或者1)详细了解如何查看历史文章。
打开 阅读原文 ,是文章《VSAN实践经验-05: 为何VSAN 6.2没有显示性能数据 & 如何设置NTP_Server》