惠州市电子政务云运维分享

小编的话

“品高云公开课”系列文章意在分享技术牛人的知识干货,和大家一起交流学习云知识,每期主题都不一样哟!期待各位读者在文后发表留言,来一场技术上的交流和思想上的碰撞!2016年5月20日本期品高云公开课由林长泉带来“浅谈SDN&SDN控制器”的分享。

分享嘉宾

惠州市电子政务云运维分享_第1张图片

林长泉

品高云软件开发工程师,拥有多年品高云操作系统BingoCloudOS的规划和实施经验,熟悉大型集成项目的实施管理,目前参与电子政务云的运维管理。

分享正文

描述:本期主要分享惠州市电子政务云运维体系的建立、运维的流程以及在针对云平台运维的特点。

大家好,我是品高云实施工程师林长泉,今天跟各位分享一下惠州市电子政务云的运维案例。

1、  首先是运维团队的建立

运维团队的结构会根据不同的平台以及运维目标而不同,在惠州市电子政务云的运维团队里会定义以下几种角色,部分人可能身兼不同角色:

运维总监:维护流程的梳理、制订相关的流程规范工作;监督、审核运维操作。

其他:IDC工程师、硬件工程师、系统工程师、虚拟化工程师、云平台工程师、网络工程师、安全工程师。

2、  其次是运维制度的建立

运维总监负责建立运维制度,并监督执行,包括:

安全管理制度

变更管理制度

平台运维制度

人员保密制度

人员权限分配管理制度

机房出入管理制度

3、  再者是运维流程的建立

日常巡检流程:现场硬件巡检和云平台巡检。

需求处理流程:各委局新增实例、存储等资源的处理以及反馈流程。

变更处理流程:涉及到各委局资源的变更、云平台的扩容等

故障处理流程:对故障级别进行分类,并且每一类的故障级别会对应相关的处理人员和上报人员。

应急预案流程:应急预案是预防在极端情况下发生的故障,应如何进行应对。

4、  最后是云平台是如何运维的

云平台运维主要分为两类,一类是云平台本身的监控,另外一类是通过第三方开源工具监控物理设备的运行状态。

云平台本身的监控

监控云控制器服务、集群控制器服务、节点控制器服务。

监控云平台的高级服务:弹性伸缩服务、关系数据库服务、云编排服务、简单存储服务等。

监控实例负载,包括cpu、内存、IO等维度,并设置阀值进行邮件通知。

通过部署nagios+check_mk开源监控系统,对云服务器的CPU负载、内存负载、硬盘状态、线程数、网络聚合状态等进行监控,并设置阀值进行邮件通知。

运维监控的结果需要进行分析决策,比如硬盘损坏则开始进入硬盘更换流程,云平台资源已达到75%则需进入资源扩容申请流程。最终使得整个运维过程处于良性、可持续的状态中。

以上就是我今天分享的内容,谢谢大家。

欢迎大家一起来交流!

你可能感兴趣的:(惠州市电子政务云运维分享)