创立于1929年的周大福,是全球著名的珠宝集团,零售网络遍及中国、日本、韩国、东南亚与美国。周大福信息部支撑着集团内外几千节点、数十套系统的稳定运行。
按流程,业务发生故障后,会由店员上报分公司IT人员,再上报总部的服务台转给信息部门,总部运维同事收到通知时往往已是紧急状态,只能放下手头的工作立即处理。
处理的过程也并非一帆风顺。过往的监控系统仅支持主机监控,覆盖不全面,也没有应用资源拓扑,很难第一时间定位到引起故障的节点,通过人工排查的方式解决故障经常会耗费数小时之久。
周大福有四个分布在不同城市的数据中心,互不相通,各区自行管理建设,集团总部难以进行统一的规划和管理。使用的运维工具功能单一,仅能解决某些方面的问题;集成打通难度大成本高,无法覆盖从预防问题到解决问题的全流程,类似报障延时的情况时有发生。而随着新技术的应用、业务规模的发展,对运维管理也提出了更高的要求。
周大福信息部希望改变这种局面,化被动为主动,及时发现甚至提前发现故障,将风险扼杀,保障业务更稳定运行。
在评估调研了市面上的运维厂商后,周大福最终决定采用嘉为蓝鲸WeOps一站式运维平台。
WeOps平台架构图
WeOps功能齐备,一套平台即具备CMDB、监控告警、故障自愈、自动化操作、工单、大屏等覆盖运维全过程的功能,互相联动不割裂,且平台支持接入以往各区域自建的运维工具,做到统一纳管。底层采用腾讯蓝鲸PaaS架构,具备灵活的可扩展性,运维系统可以持续建设;内置开发框架提升运维开发能力,真正实现自主可控。
不到一个月,WeOps在周大福正式上线,一期接入600多节点,效果立现:
① 以业务为中心构建配置管理平台,统一纳管四地数据中心,自动生成应用拓扑;支持自动发现和采集、手动导入等,后续其他运维场景调用配置管理数据时自动回写,确保数据的实时性和准确性。
② 透过大屏的直观展示,可以清晰看到资源和业务的实时情况。
过往报障延时的情况得到妥善解决。
嘉为蓝鲸WeOps平台上线后,除了主机监控,监控范围增加了操作系统、数据库、中间件、虚拟化、云平台、基础应用等维度,运维人员可以主动针对影响业务的关键指标设置发现和解决问题的流程。当指标超过告警阈值后,自动触发后台自愈流程:通过邮件和短信发送至对应责任人,对应人员立即进行评估决策,点击同意处理后,平台即按照设置自动化修复故障,响应效率提升90%以上。
同时,通过平台统一告警中心,对从前每天上千条告警信息有效收敛至几十条,运维人员摆脱告警风暴,能更为聚焦定位问题和解决问题。
除此之外,运维自动化程度也得到了显著提升。
以往,部门DBA每天7点就需要到公司,耗费1个小时依次登录到数据库系统服务器逐个进行巡检,排除隐患,以保证业务系统在工作时间的正常运行。WeOps上线后,DBA在运维平台中创建周期任务,每天7点30分,系统自动按照设定对所有数据库作业完成情况进行检查,并将巡检结果汇总发送到邮箱,DBA只需要使用1分钟查看报告即可。
类似的场景还有很多,以前只能通过人工完成的重复性工作,现在可以通过WeOps自动完成,如此变化让其运维团队主管表示“WeOps的上线,让我们有更多的精力投入到更有价值的工作中去。”
订阅制的方式,也让运维转型的成本不再高昂。
如果按照传统方式,逐一建设全面的运维系统,不付出几百万很难见到成效。WeOps上线周期短、订阅制分期付费,见效快、试错成本低,运维场景功能可以随着使用逐步加深和丰富。
而企业对于产品功能的改进建议也得到很好的反馈,经研判后列入产品自然迭代排期中,无需繁重的定制开发。例如远程管理功能,周大福信息部希望在收到服务器告警后,能直接通过WeOps作为统一入口一键进入对应服务器进行管理。WeOps产品部收到此需求后讨论决定列入产品自然迭代中,如今新功能已经上线使用。
稳定高效支撑周大福遍布全球的零售网络、蓬勃发展的智慧零售业务,自动化仅是开始。未来,周大福信息部将基于平台,通过能力与数据的沉淀,进一步深化智能运维场景应用,升级运维组织和管理模式,更加从容面对来自新技术、新业务的挑战!