【背景】
目前正在部门内部推动运维管理,准备做个ppt进行理念推广。无论自上而下还是自下而上,整个团队必须统一认识、达成一致目标。
项目的成功有来自高层的支持固然事半功倍,但是更重要的是实际使用者对系统、工具、流程、思想持续不断的改进优化。
先从思想理念开始启发,让大家思考起来,整个ppt分,运维现状、解决办法、如何实现(这些主要针对目前我司来说的,大家可以借鉴)。
核心是整理数据,流程控制,发掘能力,输出服务。
一、运维现状
1.IT运维工作忙而不受重视
忙:平台出现问题,基本都找运维处理;运维在各个业务部门间解决和处理问题,就像“救火员”、疲于奔命。即使这样运维人员的工作始终得不到认可,还经常抱怨“找不到人”、“解决问题太慢”。
莽:苦活累活一直做,烦不了,做到后面瞎做了;有时候碍于面子,有些不符合规定的操作也做,不出事还好,出了事情只有自己默默抗;
茫:每每提笔写周报时都不知道这周瞎忙了些啥,好不容易想到一个花费较大精力的事情,却又不好意思把这点鸡毛蒜皮的事情写上去;工作难以量化。
盲:看不到明天会发生什么,等着出问题,好一点就等着收到告警;看不到明天会改变什么,这些都是开发说了算,运维没有话语权;看不到明天自己会是什么样子,没有目标。
备注:忙而不盲,忙而不乱。
2.IT系统复杂,维护难度高,风险压力大
物:硬软件不断增加,新技术的引入增加运维的复杂性,包括各类开发系统、各类应用架构、不同品牌厂商设备等等,需要不断增加人力投入,增加了维护难度。又有几个人能说起目前有多少资产、多少系统,它们之间的关联?
人:拿着农民工的钱,操着中南海的心;敬业些的人整天提心吊胆,求神拜佛 保佑系统与业务不挂,还有些不知者不惧,等着出问题,出现问题后反而松了口气。
3.内部问题
自我认可:大多数时候,运维人员都在进行着机械枯燥重复的工作,且很难得到肯定;
流程串联:本是自家兄弟,沟通交流有障碍;
数据失准 :实施了部分自动化,却没有真正解脱,无法判断手头信息是否真实可信,往往需要登录服务器再次确认;
监控失信:千百条告警堆积无法判断问题真正的根源,甚至重要告警被忽略。
PS:人员流动、职业前景、成就感、决策智能
二、运维管理解决办法
1.告诉所有人,运维是如何做事的
运维做事也需要条件的,拒绝一句话需求;
告诉大家谁在做,做到哪一步了;
客观的以数据说话,告诉大家结果;
2.信息、状态可查可配可信任
资产信息、系统信息……全部统一入库;
设备、应用、服务……被监控可告警;
出现问题能找到处理人、故障点、操作手册……;
3.建立维护中心的基础
从原始人的体力劳动进入使用工具的石器时代;
根据维护中心标准和流程来优化现有数据与工具;
三、服务意识
1.服务意识萌芽
使自身掌握的资源与能力变为服务,向内部、外部提供这种服务。
梳理整合自身的资源,再结合自身的能力,制定服务的标准,定义服务的内容。
2.何为服务
系统资源服务
1.硬件资源运算/存储/灾备等能力+技术(VM/HA等)=资源服务;
2.用户提供:产品规划、 UV/PV 、存储/接口等需求;
3.维护沟通评估提供:服务器(cpu、mem、disk)、带宽、ip等
4.周期性报告:使用前测试报告、使用后状态报告、阶段的从业务角度分析服务运行报告。
监控服务
在提供监控能力后,需要后续的反馈监控的效果与各项指标,帮助需求方不断改进监控成效。
安全服务
查询服务
等等
3.建立服务意识
首先,了解自身能提供哪些能力与服务
服务可大可小,要显现出各自岗位中的能力与价值;
其次,服务需形成闭环
服务并不是在操作完成后即结束,还需在之后统计与分析,找出其中的问题,体现服务的价值;
最后,需不断改进
改进服务本身;帮助用户/产品/部门提升;
备注:个人觉得运维必须具有的两个意识:服务意识、安全意识
四、如何实现
1.选型:
服务台-- OTRS、ITIL
配置管理--CMDB
自动化-- Puppet、Zabbix
其他-- Wiki、GLPI、Hadoop、Data、Log、SOC
ps:大家不用纠结使用什么工具或系统,主要是结合现在使用的、团员掌握熟练的进行优化、定标、整合。
2.配图
配图有点搞怪了,但是容易记,后续文章中另详解
3.我们需要做什么
梳理资源
硬件、软件、应用等资源信息
配置关系
资源之间的关系,制定变更流程
提升能力
资源、技术、工具等提升能力
输出服务
能力+流程+分析=服务