2018-02-09

2017运维工作盘点

2017运维服务的逐步建立与取得的成果

2017年9月,以对外服务窗口为基础成立现有的运维团队。主要接管对外异常信息的人工收集、分析、分流,为信息中心其他小组争取更多的有效工作时间,为系统的完善提出许多优化建议。

2017运维工作的不足
  1. 运维服务不够全面,广度、深度都还达不到要求。
  2. 应急响应机制不够健全,异常处理对个人的依赖性较强。
  3. 故障恢复处理的方法没有形成可读性较强的资料,并统一管理。
  4. 极度依赖人工,易遗漏,效率低,出错率高。急需实现高度自动化。
原因分析:
  1. 资源配备有限:人力资源、知识储备、软硬件支持、团队配合……。
  2. 团队发展的必经过程。之前主要解决生存问题,之后需要重点考虑发展问题。

2018运维工作计划

目标

整体目标:运维80%的工作能实现自动化处理。

计划

  1. 服务等级(SLA)

    • 客户(谁)
    • 服务目录(何事)
    • 优先级(轻重缓急)
  2. 知识管理

    知识管理产生更好的IT决策

    • 服务台

      • 数据收集(统一入口):事件、故障、问题、请求履行。
      • 依据服务等级对以上数据进行分流处理
      • 定期对信息库进行数据分析,输出工作报告、业务报表等。
      • 从这些数据中分离出新的需求和系统优化建议。

      解决了什么问题:

      1. 统一信息入口,避免遗漏和重复处理。
      2. 信息数字化(可进行二次分析的数据才是有效数据)。
      3. ……
    • IT知识库(对内)

      • 在开发或实施一个信息化项目的全周期中,会产生大量的IT 知识。(如:通过SVN管理的Athena项目文档)
      • 知识管理标准流程:进行中状态(初始)→草稿状态→审批状态→发布状态→注销状态。

      解决了什么问题:

      1. 加强内部分享,避免重复劳动。
      2. 避免人事变动对团队造成过大影响。
      3. ……
    • FAQ自助服务(对外)

      自助服务的好处:

      1. 针对传统操作手册做出的改善。
      2. 业务在不断拓展,开启自助服务可减轻人工培训的压力。
      3. ……
  3. DEVOPS

    一级要务:避免系统故障,提升故障恢复速度。

    • 自动化监控体系

      • 自动监控
      • 自动恢复

      解决了哪些问题:
      1.人工巡检繁琐、枯燥且低效,实现自动监控可以进行自动巡检,遇到特定异常情况可以自动进行恢复处理,还可通过邮件等方式进行即时通知。
      2.统一监控平台,实现批量管理,提高效率。
      3..……

    • Docker

      • 进一步实现服务的容器化管理。
        • 内建服务
        • 外购服务
      • Docker的编排管理,以及实现基于容器的CI/CD。

      解决了哪些问题:

      1. 生产环境、测试环境、线上环境不一致带来的各种问题。
      2. 服务器的秒级创建。
      3. ……
    • 集群

      • mysql+mycat
      • mongodb

      搭建集群的好处:

      1. 实现弹性负载,减小宕机对系统带来的影响。
      2. 物理主机增加,减小服务器压力
      3. ……
  4. 学习任务

    • python语言学习
    • 其他

另外:

《运维规则》

  1. 对内:表现为一系列规则的执行标准。
  2. 对外:表现为大运维体系范围内一切权限的外放标准、以及工作对接的标准。

你可能感兴趣的:(2018-02-09)