随着近年来德邦业务的快速发展,业务应用及系统的数量及复杂度与日俱增。一方面,业务对IT的依赖越来越大,另一方面,IT本身的运行压力也越来越大。德邦物流数据中心承担着面向整个物流业务系统运维保障,如何以更有效的方式来保障业务,如何体现IT组织的价值,如何使IT组织本身更有效的运作是数据中心当前面临的重要课题。
01、现状及痛点
团队背景
人数:800+
团队组织结构:开发、测试、配置管理、运维组
IT资源背景
由此,对于业务系统的安全性、可靠性、可用性、可扩展性挑战也越来越大。
此外,随着服务器的数量每年巨增,类型逐步进行多元化、虚拟化、云化。其应用实例数量逐步增多,业务对于IT交付速度要求也越来越高。面临四大挑战:
1、资源管理的挑战
硬件设备资源迅速增长,如何以更低成本、更少风险来维护它?
2、标准化挑战:
资源增多,数据库庞大复杂,各部门架构不一,如何找到各部门利益平衡点,标准化资源数据,降低人工运维成本?
3、流程挑战:
运维流程走Jira效率低下,项目需求管理缺陷多,安全运维有风险,如何提升团队效率?
4、业务快速交付的挑战:
业务场景更复杂,业务连续性如何保证?如何进行事故快速恢复以及事前的预知?
02、建设过程
平台整体能力架构图谱如上,在以应用为中心的CMDB能力构建上,进行所有资源的自动化、可视化、数据展示等功能实现,以达到运维工作效率的提示,避免重复手工操作风险;并与现有BMC进行结合组建智能监控中心,提高事故的预知与排查效率。
03、建设成果
分属模块:应用CMDB
目标:应用CMDB覆盖率
建设前:手工管理,部分无覆盖平台管理
建设后:部分数据自动化获取,已纳入运维管理部分,覆盖率100%;采集机房、机柜等物理设备和网络设备的信息,共12款设备型号,13种类别信息 。
分属模块:运维自动化、持续交付
目标:应用自动化发布
建设前:无自动化发布平台
建设后:自动化发布平台覆盖所有非第三方的业务及管理共34个系统。发布平台与自动化集成及自动化测试对接成功,应用发布一键化部署。
分属模块:运维自动化、持续交付
目标:流程中心
建设前:JIRA平台管理运维流程,项目管理效率低
建设后:对CMDB基础资源数据实时更新;完成容量管理、IP资源分配、设备上下架整个生命周期的流程。
分属模块:应用CMDB、持续交付
目标:应用标准化
建设前:各系统应用目录不统一,环境配置未分离。
建设后:针对DPAP框架服务层和业务代码,对目录进行规划整改,形成统一目录结构规范,端口规范,环境配置抽离,并规范日志/数据,最终达到应用标准化。
分属模块:智能监控
目标:智能监控
建设前:缺乏故障预警机制快速定位故障。
建设后:故障得到主动、快速处理;拥有流程化故障处理机制。
分属模块:/
目标:平台能力
建设前:无DevOps人员提高工具管理维度的能力
建设后:EasyOps流程中心贯穿运维交付链;培养若干具有运维开发能力人员,并成立新的运维开发小组。
04、场景能力落地
运维自动化:
EasyOps可实现“双11”场景下的分钟级快速扩容,实现应用发布一键化部署
分钟级扩容
应用/系统/组件等运维自动化
应用/系统/组件等巡检自动化
应用版本管理
……
持续交付:
双“11”期间若有应用升级,可持续部署软件资源及应用包,FOSS应用正常全量部署时长仅需10分钟
配置包
程序包
……
智能监控:
EasyOps可实现ECSAPI实时监控主机/应用/系统状态,预警阈值高峰,双11不慌乱,高峰期快速扩容
应用状态
组件状态
主机流量排行
告警趋势
……
ITOA:
EasyOps可实现“双11”场景下的运营分析功能,容量概览展示图随时上报主机容量状态,对多个时间点展示多维状态
主机容量
应用容量
……
05
客户价值
实施EasyOps前后部署效率对比:
“双11”场景快速扩容时间对比:
06、用户评价
EasyOps提升了德邦IT运营精细化管理能力,保障了2C业务的爆发式增长;以及支持底层基础设施开放平台化,转变了运维理念,通过平台的全面支撑,即DevOps全栈运维平台,实现了如下几大目标:
1、信息共享化:实现了统一的资源管理和业务信息管理平台,在该平台中,可以统一管理资源及业务信息,给运维全流程自动化、智能监控和运营分析的提供全信息的支撑。
2、运维自动化调度:实现了从资源管理层、架构服务层和应用服务层的端到端的DevOps自动化能力调度,真正提升IT组织中各类角色的效率和质量要求,比如说开发/测试/运维等等。在运维场景上,也覆盖不同的IT运维场景,比如说资源变更/配置管理/应用发布/业务调度等等。
3、海量数据化运营:能够真正给业务能力带来持续优化,提供了给领导层更多的运营决策参考。驱动了运维质量/成本/效率/体验多方面的全面提升。比如,具体的能力有
故障root cause分析;
服务可用性和性能优化的主动预测;
全面的服务影响评估;
机器学习;
异常自动发现……