以一个案例开始:
听众中一定有人听过“割接”一词,最早这一词用在电信机房,要做新老设备更换时,为保证切换切换最短,会让新旧设备一起并行工作,然后在某个风清月圆的夜晚,大家拿起剪刀一起剪掉旧设备的线,割接完成后,系统或业务通过手动或自动切换到新设备上,再拆掉旧设备,这整个过程就是割接。
到现在,割接过程和上面大同小异,但有些人可以做到很优雅的割接,有些人只能半夜12点准时开始,早上8点结束。两者最重要差别就是“割接的操作时间不一样”,这个背后的因素可能是架构复杂,或者设备众多,或者连线过多,或者切换方案不平滑。
有些听众此时会微微一笑:因为我是卖服务器的,服务器到场,预装好了虚拟化管理程序,IP地址规划在项目一期已经做好,配好IP,接入网络,加入集群,测试基本功能,撤人。
有些听众回忆起了痛苦的过去:提前很多天确定割接方案,利用旧设备配置编写脚本,配置新设备,测试功能;割接当天下午到客户现场,割接前准备,备份旧设备配置,到点后割接,拔线,装新设备,插线,测试连通性,测试业务。中途无故障两三个小时,有故障排查,排查不出来回退,轻松到第二天8点。
区别两张图片就可以表现出来:网络的割接远比服务器的复杂,接线更多,且很多时候是原位替换,很难做到平滑。
再往细里说:服务器借助于服务器虚拟化,单台主机可以在线进入维护模式,直接进行设备更换;可以在线添加服务器,扩容。交换机一方面做不到更换前后设备配置一致,一方面做不到在线下电。
解决问题的关键就是“标准化”。
VMware在13年提出SDDC(软件定义数据中心)的概念,旨在通过一层软件来做到数据中心各种资源的标准化。在软件层之上,是最终业务系统(VM),在软件层之下,是各式各样冰冷的硬件设备。标准化后,上层业务可以不用关心底层硬件,在任意地方运行。
2017年,SDDC的概念发展为现代化数据中心:
这样的图景不是天方夜谭,Google早已步入这样的阶段。
标准化包含的不是几个简单的产品,将一些硬件做个标准化,还包含架构的标准化,服务的标准化,操作流程的标准化。
硬件的标准化:
1、VMware vSphere:服务器虚拟化老大,将计算资源做到了标准化。
2、vSAN:将每台服务器的本地硬盘组成一个逻辑的存储池,使用软件策略为业务提供不同的存储容量、不同的存储服务、不同的保护级别。vSAN为上层虚拟机提供一致的存储,底层可以是任意厂商的服务器,搭载任意品牌的硬盘(同vSphere一样,有兼容列表)。
3、NSX:为虚拟机提供一致的网络服务,包括常见的交换、路由和安全,极大简化了物理网络的架构和配置。
4、带外管理网络:这是很多数据中心忽略的地方,VMware的软件让80%的操作通过远程Client进行;19%则是硬件本身的管理,例如排错,重启,更新固件;剩下1%才是硬件真的故障,去机房进行硬件更换。如果建立好带外管理网络,将所有交换机、服务器带外管理网络建立起来,那有99%的工作都可以通过远程完成,不需要去机房。
架构的标准化:
架构包含虚拟化层之上的“虚”的规划,和虚拟化层之下的“实”的规划。
具体到技术:vSphere的规划、IP地址规划、命名规划、虚拟机规划,软件层面的设计追求完整可扩展。
以及:物理设备带外管理网络规划、接线原则的规划、功能配置的规划,硬件的设计追求简而稳固。
以上完全可以用一张表格实现,在同类项目中直接套用。
下图为双中心VMware虚拟化的网络规划及硬件标准接线图。
服务的标准化:
IT 系统的最终目的是给用户提供服务,提供服务的方式有两种,被动和主动。
在做完以上基础架构的标准化之后,终归要给业务部门或者最终用户提供服务,IT 管理员类似于服务供给者,在没有服务标准化之前,业务部门要什么我们提供什么,长久下来业务逻辑千疮百孔,基础架构管理员也无能为力了(比如我遇见过一个虚拟机使用了64G内存,24颗vCPU)。
如果在最初,就定义好标准,未来用户只能选择“安全区”内的资源和服务,那一方面可以提高服务的供给速度,降低IT运维人员的工作负担,一方面也可以很好地进行监控和控制,避免各种不合理发生。
这实际是很多云计算平台在做的,云计算包含以下关键词:
1、量化:量化才能决定最小单位,决定如何分配资源
2、运算资源:CPU,内存,存储
3、网络:有了网络才能到达每一个地方
4、界面:有了界面才能提供通用性服务
5、服务:将资源加壳变成服务的模样,方便计价和计量
6、用户:需要服务的对象
VMware SDDC做到了前三项,云管理平台做4和5,用户一直在那里。
下图为VMware vRealize 蓝图界面,在蓝图中可以将计算、存储、网络、安全、操作系统、应用、业务逻辑等资源进行标准化模板定制。
操作流程的标准化:
操作流程标准化有一部分包含在服务标准化中,服务制定包含了要提供的资源以及如何获取这些服务(也就是流程)。
另一部分是对运维人员而言的标准化流程,虚拟化固然好,但前提是正常操作。如果在不将主机进入维护模式直接下点,就是存在一些风险。
在操作流程标准化里,包含日常运维的内容,每个不同的组件都有自己特定的维护方式;需要有设备更换的流程;需要有故障排除的流程;需要有合理的升级流程。
下图为一份VMware组件升级顺序
以上,做完各种标准化之后,剩余一个不近不远的问题:新架构的支持!
最近几年常谈的关键词是:容器、人工智能、区块链、混合云。
其中真正需要基础架构做出适配的只有容器和混合云,而现在的 VMware,都是支持的。