【编者按】
赵玺平是我通过VMware销售同事组织的一次技术交流认识的用户,当他介绍到他的使用经验时,我立刻就觉得不同寻常。
赵玺平曾经对OpenStack颇感兴趣,现在对于VMware技术的研究颇有心得。在VMware vRops 6.6发布的第二天,就安装并尝试。他利用vRops 6.6定制出一些,能够提供给领导直观了解状况的图形界面,是一个非常好的学以致用的案例。欢迎大家持续关注微信公众号“乐生活与爱IT”,后续还会发表他关于vRops 6.6心得方面的文章。
---Begin---
思考:传统的IT架构使用了这么多年,所有的监控设备以及网络架构都是基于此打造,那么在传统架构虚拟化、云化后的今天,如何针对虚拟化、云计算的环境进行运维?
机房的运维团队已经构建了完整的监控和运维管理平台,现在却发现该平台主要是基于传统的环境构建。主要针对于基础的硬件设备,业务系统的监控,对于虚拟化环境的覆盖是不足甚至可以说是零覆盖的,特别是在虚拟化技术引入之后,每台宿主机里面的众多虚拟机怎么去运维?
当前主要面临的问题:
1.虚拟机配置变化更快,数据不准确,很难做到及时更新。
配置变化更频繁,因此对其配置状态的跟踪更复杂,整个系统范围内的资产信息更难掌握,运用老套的统计办法不及时也不准确,耗费人力、物力。
2.容量性能评估难,难以有效分配资源
虚拟机不同于物理机,一台宿主机上的各个虚机之间的关系是即争用又共享,虚拟机对于CPU、内存不仅仅是占用、很大一部分是共享的关系。对此特殊的分配机制,传统的系统级CPU、内存的占用已失去绝对指导意义,并不能完全代表虚拟机是否存在瓶颈。同样的道理,难以判断物理服务器资源是否得到了充分利用、是否有必要优化、虚拟机密度是否恰当,从而导致多数组织内部存在较广泛的资源闲置情况。
3.管理缺乏标准和规范
虚拟化在整个IT系统构建中占的位置越来越重要,但与操作系统相比,IT系统级的加固和检査机制相对薄弱,成熟度及普及度都不高,存在系统缺陷、安全漏洞、管理不规范等薄弱环节,容易成为新的短板现象。
4.系统状态边界化模糊,难以准确评估状态
云计算环境涉及IT基础硬件、操作系统以及业务系统等,传统的设备边界不再那么清晰,承载的VM对资源既共享又竞争,所以系统处于不断地动态调整中,故障域的耦合更加紧密,针对问题根源的判断更加困难。仅仅针对单一类型的IT监控指标很难判断VM健康状态,必须收集该物理设备上运行的多台设备状态进行综合分析。
二、变更及其运维的手段
措施:计算和虚拟化环境缺乏有效深入的监控措施,导致管理被动,无法及时发现问题,无法有效分析问题,安全管理上缺乏对虚拟化环境的管理规范、手段及工具,安全短板问题较明显。
针对于以上四大问题,在云化后的运维,应该注重以下领域:
1、容量管理
容量管理分为容量优化和容量规划。容量优化关注优化资源配置,提高现有资源利用
率。发现并回收低效、未使用的资源,以便合理调整虚拟机大小、回收闲置资源,在不影响性能的情况下优化整合率和虚拟设备密度。容量规划关注容量不足和超额配置情况,以提前规划资源扩容,指导采购,并规避资源风险。
注意:有效的提高虚拟机的性能,不单单意味着做加法、而是一定程度上做减法,由于CPU的硬件架构有一个重要的调度机制——NUMA架构,最优的策略就是保持NUMA节点进行本地内存的访问,对于ESXi而言,要减少虚拟机用来等待时间片轮寻所需要的时间,这样才能整体提高虚拟的性能。
在虚拟机的运维中,有很多是不同于传统物理机的运维逻辑,这只是其中的一条。
2、闲置资源回收、调整虚拟比
由于云计算环境的资源共享和动态配置特性,云计算环境下的资源管理变得更加复杂难控,资源的惊人浪费和局部资源的紧张情况同时存在。如何判断充分利用这些资源,配置合理的虚拟设备比例是新环境下的运维能力的硬性要求。
3、配置及资产管理
运用专业的监控工具进行批量全面化的信息采样,收集虚拟化层面的所有信息(包含计算资源的信息、网络信息以及存储存储)。
具体包含:部署的vSphere版本、模板数量、CPU与内存使用情况、网卡数量、HBA卡数量、是否处于维护模式、是否打开了vMotion、启动运行时间、对应的vSwitch收集各种网络配置信息、Datastore的相关信息、VM配置信息、包括名称、IP地址、CPU预留、内存预留、内存limit、内存扩展预留、总的CPU请求、是否安装了VMware Tools等等。
4、安全及合规管理
在云计算环境中,有很多比较容易忽略的安全隐患,可能被恶意利用。而且云计算环境是一个高度动态的环境,一两次的检查工作并不能保证整个IT环境的持续合规,必须要高频的扫描检测才能减少安全风险。
常见的安全检测策略:拒绝MAC被更改、确保密码复杂度、配置宿主机防火墙、配置NTP服务、设施Shell超时策略、不容许安装未签名的VIB、关闭ESXi与互联网的通信、补丁安装升级、集中保存core dumps日志等。
三、经验总结
以上问题是我两年的虚拟化层面运维的经验总结的一部分,我相信也是大部分管理员所面临的问题及痛点,日益增加的虚拟机规模,看似对于业务系统的扩充有了质的改变(以往的上架安装到现在一键生成),实则是把大部分运维压力集中到了一点。肆意的申请资源以及用完闲置其实是违背了云计算的初心——按需索取、按需分配。本质上虚拟化的技术迅速发展除了减轻复杂的安装运维成本之外,更多的是不浪费资源,一机多用,高效的利用物理设备进行生产。
个人认为,对运维服务能力的改进不仅仅是在技术层面,更多的是要集中在工作过程和工作模式上,要让大家从心底里去接受,去认可那些科学的数据分析,去相信监控数据的客观性,而不是根据以往自己的“经验”去漫无目的的申请虚拟机资源,如果每一台虚拟机的资源都大量闲置,那么云计算这个项目无非就是解放了传统物理服务器上架安装的工作,对于云计算本身的意义几乎为零。
在追逐云计算的同时、不妨停下来想一下,我们按需索取了吗?我们按需分配了吗?
【编者按】
看到这里,让我想起了和腾邦CIO王总的交流带来的启发。如果只是靠资源申请方凭着自觉,不去做过度的申请,实际上是不可能的。而且,资源申请方总有夸大资源需求的倾向,原因至少有三个:
1、有时应用软件设计、架构、部署、或者配置上的缺陷或者不足,是可以通过基础架构硬件来弥补的;
2、按照以往使用硬件的习惯来申请,这样往往会超出业务实际需求
3、先到先得的心态
……
如果IT部门与其他申请资源的业务部门,采用计费的方式,精细化控制、管理并形成报表,会很大程度上减少这样的浪费。如果现阶段计费不合实际,也可以按月、按季度、按年,公布各个部分实际使用和最初申请的排名,以竞赛的形式促使申请方更合理地提出资源的请求。
图记:上图摄于广州。
IT的基础架构犹如建筑,无论存储(方的)、服务器(长的)、网络、(圆的),都最终会被云计算(云)笼罩着 :)
---End---
微信公众号平台"乐生活与爱IT"在目前阶段,主要是分享软件定义存储(SDS),及VMware VSAN相关的文章,偶尔也会分享虚拟化、云计算、大数据,甚至生活类的好文章。欢迎投稿,特别是原创文章,我的QQ号:9269216。
投稿一经采用并发布,获得的赞赏收入,作者可获得60%。投稿可微信私信我,或者通过QQ号 9269216联系我。
欢迎对SDS感兴趣的朋友,加入软件定义存储讨论 QQ群:122295009,可下载原创的一些文章,及其他有参考价值的文档。可直接搜索群号,或者扫描如下二维码:
同时,欢迎您加入 "开放讨论群-SDS&虚拟化" 微信群,并邀请其他对SDS和虚拟化感兴趣的朋友加入此微信群。可以通过添加如下管理员之一的微信号,建议添加管理员时,告知你的公司名和姓名,方便备注保存。
sdg8848
libo9538
yangzhuan
dts0103
欢迎您通过扫描关注微信公众号:“乐生活与爱IT”。
关注后,可以通过点击左下角的“文章目录”,通过输入三位数(记住!是三位数,目前第一位是0或者1)详细了解如何查看历史文章。
点击左下角“阅读原文”,可以看到《vSAN实践经验-07: vSAN的监控和告警》