内容来源:2017年4月23日,优云软件解决方案中心总监童华权在“云时代下的运维管理实践”进行《优云新一代智能化运维管理解决方案》演讲分享。IT 大咖说(ID:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。
阅读字数:3981 | 6分钟阅读
获取嘉宾演讲视频回放及PPT,请点击:http://t.cn/RsDFrEC
摘要
优云软件解决方案中心总监童华权为我们带来优云作为国内在运维领域做得比较深刻的厂商,在运维管理方面的一些见解。
运维面临的挑战
数据中心进入“两化转变”
数据中心转向“两化转变”,技术架构层面随着云计算、大数据、物联网、微服务、容器等新技术广泛使用,呈现出“混合化”趋势。运维模式层面上,DevOps理念快速推广,CI/CD深入人心,尤其是GoogleSRE、国内BATJDevOps等互联网实践,运维模式上也呈现出明显的态(Bimodal, Gartner )特征,稳态与敏态的融合业务模式,运维模式也出现随之变化,运维管理面临双态IT带来的挑战。
软件定义数据中心(SDDC)对运维的挑战
软件定义数据中心(SDDC)要求具备简化并自动化的运维管理,并支持应用和基础架构交付自动化。
上图是软件定义数据中心的模型。软件数据中心对运维和管理有几个新的诉求。它要求更加简化和自动化的运维管理能力,还有应用和基础架构交付自动化能力。这是在新的软件定义数据中心环境下对运维和管理的一些新诉求。
互联技术架构应用对运维的挑战
企业信息化建设中,新型互联网开放技术架构的广泛应用,对各类新技术的运维支持成为当前迫切的需求。
Devops对运维的挑战
DevOps理念的快速推广,促进了业务与技术的加速融合,及开发与运维的加速融合,对运维管理尤其是自动化运维提出更高的要求。
运维业务模式转变的挑战
在双态背景下,数据中心运维业务模式发生了明显转变,技术与业务、开发与运维加速融合。
在开发层面上,我们要更加注重持续交付的能力;在运维层面上,要求更高水平的自动化管理能力和更加敏捷的运维管理过程。
因为要更好地为业务服务,所以我们在用户和业务层级也要求有更好的管理和支撑能力。越来越注重用户的体验和用户行为的分析,这样才能为业务进行保障和促进业务的发展。
双态运维管理理念
新背景下的运维管理理念分享
我们提出了一个软件定义运维(Software Definition Ops)的概念。把运维业务定义出来并且快速地实现,能够投入到日常的运维过程中去。
运维软件平台PaaS化,是运维生命力关键,是双态运维最佳技术实践。基于可定义的范畴内的内容,通过平台化把它们落地。基于运维PaaS平台,实现运维场景化的梳理,运维场景标准化的确认,通过更大范畴内的自动化运维把它做出来,还有就是运维的可视化以及持续不断提升走向智能化的方向。
双态运维-软件定义运维(SDO)实践策略
双态通过运维PaaS平台对运维场景进行快速定义即可投入运行,实现面向多变业务的敏捷运维支撑,包括运维场景分析、场景定义、场景运营、持续优化等生命周期。
数据中心运维业务梳理
数据中心运维业务梳理是运维场景分析的依据,是标准化、规范化的前提,也是自动化的基础。
通过上图可以把一个数据中心所要管理的内容都梳理出来,总结为四个方面。
第一个就是调研评估,比如需求管理、风险分析、容量分析等一系列工作。还有就是例行操作、响应支持和优化改善。
运维场景大致可以分为几个部分。资产档案管理,资产档案管理是现在非常火的一个CMDB的概念,理清自己到底有多少IT资产,形成运维的基础。还有全方位监控管理、运行值班与故障处置、变更与校对管理以及巡检与作业管理。
双态运维平台建设
优云全栈互联网+运维平台
采用微服务、大数据的新一代互联网技术架构,定位于运维PaaS平台,采用统一平台+产品APP模式,平台提供统一采集操作层和资源库,产品APP基于平台服务和组件规范,可不断丰富扩展和相互联动。
1、资产档案管理
资产配置管理常见问题(一)
由Excel说起的资产配置管理,信息零散、缺乏全局管理,消耗大量的人力成本,及时性低。
数据容易被任意修改,缺乏版本控制,数据准确性低。
资产配置管理常见问题(二)
传统运维工具,资源管理范围大、维护过程复杂,反倒增大的运维人员工作负担,使用意愿低。
一直处在数据维护的困局当中,从未有余力思考如何发挥配置数据的价值。
数据中心IT资产档案管理方案场景
系统通过全网扫描与自动化采集、社交化维护方式促进CMDB的自动化构建、敏捷化维护、场景化应用。
众所周知,自动化扫描是非常有价值的。它可以帮助我们找到网络环境中有哪些IP和资源,做到没有遗漏。
再通过细化的配置采集,找出我们所需的数据中心里出现的资源详细信息,构建一个完整的配置信息。
配置数据的维护需要各自团队去维护自己的数据,让最熟悉的人负责自己的数据才是合适的,这就是团队化的维护圈。
在数据维护的过程中还要注意反馈机制,用户在使用过程中做出相应的回复,就是一个非常好的反馈机制。所以我们采用了点评、点赞、订阅等一些社交化的理念,使用户觉得使用CMDB的时候不像一个上世纪的老古董,而是具有时尚化的感觉。
构建一个配置数据的消费圈,消费圈里的人可以共享同一份数据,这份数据也可以通过图形化的方式展示出来,应用到各种各样分析的场景中。
2、全方位监控管理
监控常见问题(一)
业务应用与用户体验出现问题,而IT基础设施一切正常。
我们看到的往往都是一些日常维护的视角,而用户所看到的是我们所有问题累积后的结果。
监控常见问题(二)
我们无法感知最终用户的真实体验,无法了解我们应当在哪些方面进行优化改善,更无法奢望获得用户的认可。
根据IDC的统计,大约40%的故障是由最终用户首先发现,并通知服务台的。
监控常见问题(三)
故障排查定位花费大量的精力,需要网络、系统、应用、开发团队参与,投入大量人力成本。
数据中心全方位监控方案场景
针对以上问题,我们提供了面向基础资源、应用后台、应用前端的监控能力。从应用用户体验到应用代码的应用端对端应用性能与故障监测,并支持业务交易与用户体验监测。
大规模云监控
全面支持传统架构与互联网架构的监控,系统同时支持非代理方式进行资源监控。
支持万节点资源的秒级监控;支持超过6000个指标及脚本级扩展;支持监测资源进行标签化管理与展示;支持监控展示仪表盘的自定义。
3、运行值班与故障处置
运维值班与故障处置常见问题
运行值班是IT运行的守护者,我们是否有真正能做到:清晰掌握运行态势、快速分析定位故障、触发故障处置措施。
常见问题有:运行态势展示是否直观、明了,高层、中层、执行层无法各取所需;监控告警信息无法集中展现与处理;不具备故障分析与定位的能力;故障处置过程不连续贯通。
告警流水式处理与故障根因分析
支持告警集中管理,具有高性能告警关联引擎,自动化告警处置,做到报的出、报得准、找得对。
ECC大屏可视化展示
“看得清、管得住”是管理学的真谛,运维可视化是数据中心运行安全可靠的仪表盘,支持按需设计。
ECC大屏设计三模式:运行态势展示(参观模式)、运维指挥调度(指挥模式)、运行值班模式(值班模式)。
4、巡检与作业管理
运维操作常见问题
在数据中心软件定义化、技术架构互联网化、业务快速发展、应用持续交付等背景下,尤其是Devops理念在运维领域的全面推广,自动化运维成为运维管理能力提升的“点金石”。
运维压力大、效率偏低;运维规范化难以真正落地;运维操作存在安全隐患,根据“墨菲定律”——错误总在发生,所以锅就在那里;业务变化带来的持续交付压力;IT服务的自动化交付水平低。
巡检与作业管理场景分析
自动化操作的标准化、自动化,是运维规范化的关键,是提高运维效率、降低操作风险的关键,也是快速故障处置与应急响应的重要手段。
自动化巡检管理
巡检能力:针对Windows、Linux、AIX重要指标进行自动巡检;支持灵活增加系统巡检项目。
丰富巡检项:系统参数、服务状态、错误日志、异常登录、关键进程、合规检查。
自动化运维作业
系统支持环境准备、系统补丁升级、系统参数修改、合规检查、服务启停、数据备份、应急切换等自动化作业场景。
应用持续交付与Devops
应用快速部署,包括环境准备、基础软件部署、应用部署、参数配置等部署活动,支持应用持续交付。
作业场景编排与作业调度管理
系统支持运维操作最佳实践脚本库,支持灵活的作业编排与作业调度能力,实现数据中心的自动化运营。运维人员由炮灰转变成战场指挥官。
5、变更与交付管理
变更与交付常见问题
运维部门具有明确的服务特性,但服务便利性、服务效率、服务水平等方面我们是否能让用户满意。
不清楚到底对外提供哪些服务,以及运维团队需要如何进行支持不清晰;为最终用户提供的服务的途径单一,往往依赖于电话、邮件;内部对运营效率与协作水平较低;缺乏工具与方法让对外服务自动化流转。
运维服务流程ITSM
ITIL/DevOps流程全面支持
支持ITIL V3 / ISO20000理念相关运维流程;支持通过服务目录梳理运维业务,以服务目录驱动流程;支持表单、流程的拖拽式灵活设计;采用社交化、敏捷的流程交互模式,支持工单的评论、动态等。
社交化支持
提供工单关注功能;提供工单的评论功能,评论支持回复;评论支持圈人功能;评论支持即时的站内信或其他方式通知。
即时运维协同ChatOps
ChatOps概念定义
ChatOps是一种实时聊天驱动型的运维模型,通过将自动化机器人植入到聊天会话当中,形成了人、机器,数据的自动化、透明化的联动,使运维团队能够高效的沟通协作和执行任务,ChatOps是DevOps的一种实践演进方法。
ChatOps帮助组织平滑演进到DevOps
ChatOps面向运维内外部用户的统一运维入口,使用组织运维模式对用户透明,可以帮助逐步平滑演进到DevOps更高阶段。
ChatOps在GitHub的起源与应用
管理Github内部的服务器,启停,升级、打补丁;邮件管理,收发个人邮件;代码提交通知;代码构建,部署上线;数据库管理,删除数据,备份数据…
运维智能化运维平台建设规则
优云智能化运维管理平台可以帮忙各类企业用户逐步走向运维“一体化”、“自动化”、“智能化”的运维管理更高水平。
1、一体化,传统运维工具分散,工具间缺乏有效的运维数据与场景融合,因此基于新技术架构之上运维PaaS平台成为主流选择;
2、自动化,将人工运维转变化自动化运维,逐步实现日常运维操作与应用持续交付等运维场景的自动化落地,提高运维效率与过程规范化、降低人工操作风险;
3、智能化,通过大数据分析、运维智能机器人技术实现运维智能化管理,支撑故障自愈、容量伸缩、应急保障等。
希望优云能够帮助大家从一体化运维向自动化运维转变,并且未来能看到自动化的曙光,谢谢大家。
我今天的分享就到这里,谢谢大家!