运维工程师规程

环保部监控中心运维规程
环保部监控中心的建设已经初步完成,已进入运维调试阶段,为了使运维人员的工作规范化,与机房的稳定健康运行,需按照以下规程进行维护:
 
首先, 稳定性与安全性是监控中心系统运维最需要保证的两个属性:
一、系统的稳定性
稳定性是指在生产系统运行过程中,尽量降低故障发生频率,使故障处在可控制、可处理的范围之内,使生产系统的正常运行状态得到最大限度的延续。
在运维过程中,运维人员需要对系统有丰富的经验和技术水平。当接到故障报告或直接发现故障时,第一步是根据故障的表现从系统知识库中获取必要的信息。从知识库中可以基本定位到故障的发生原因。维护工程师是对系统有着深入了解的资深人员。对于更为先进的处理机制,就可以从知识库中查询到大部分故障处理的完整流程,照做即可。
目前的系统运维主要依靠运维人员的经验来判断系统故障,凭借工程师的经验进行故障处理。因此一旦出现人事变动,新进人员很难立刻接手。经验的重新积累势必影响故障处理速度,同时会给运维工作带来巨大隐患。
知识库机制的建立是一个良好的故障处理流程体制的基础。建立和维护一套完整的知识库体系,需要投入大量的人力物力,但它能够快速及时地处理生产系统运维中的各种问题,并保持运维团队处理故障能力的稳定性。
通过先进的技术手段,辅以认真负责的工作态度,相信系统故障的发生可以被系统维护人员及时发现。但故障处理时间的有效缩短则需要通过良好的故障处理机制来实现。
二、系统的安全性
这里所说的安全性,指对各种系统访问风险的控制 进行对任何人员进行权限控制。对于非系统维护人员,禁止一切关于服务器操作,如需操作需向上级报告,批准后非系统维护人员应在系统维护人员的指导下进行操作。
系统安全隐患分析
由于系统均建设在自己独立的内网环境中,与外网间有数道防火墙和各种网络安全控制做保护,直接从外界入侵相当困难。
为了日常维护需要,技术人员必须或多或少地拥有访问业务主机,甚至登录核心数据库的权限。即使普通的误操作,都有可能使重要文件和数据发生篡改或丢失,导致业务系统混乱甚至瘫痪。
对内部人员的访问限制通常的方式是依据口令的复杂度规范,口令需要分级别、分段保管,定期更改。口令是一切的基础,控制住口令,谁都无法随意登录系统。但实际情况往往不能达到这样的理想状况。比如系统间数据交换用到的口令通常不会轻易更改,一旦记下,即可凭其登录;或者互信关系的两台主机之间的相互登录等等。解决此类问题的核心是用户登录系统后不是进入命令行模式,而是全部操作菜单化。系统给予不同级别用户个性化的菜单界面,屏蔽用户操作权限之外的菜单显示,禁止用户跳出菜单之外进入命令行模式,从根本上杜绝用户越权操作的可能性,降低误操作和蓄意破坏的风险。
服务器日常监测工作:
Disk         监测服务器的磁盘空间使用率
HA           监测服务器HA获得服务地址、获得接管地址、Cluster节点状态、端口状态
CPU          监测服务器的各CPU的利用率
Memory       监测服务器的Memory使用率
Log          监测服务器的用户登录日志
WinService  监测Windows服务器的各个服务状态
Net          监测服务器的网卡流量情况,包括出入流量、丢包率等
数据库日常监测工作:
可用性     监测数据库能否正常访问、特定进程的状态和进程数等
性 能      监测数据库连接数是否过大、回滚数是否过高等
容 量      监测数据库表空间和数据文件的大小、状态和使用率等
非法访问   监测数据库会话,检查是否有未经授权的IP地址、用户、时间段访问数据库的行为
运维工程师应严格遵循以上规程。

你可能感兴趣的:(职场,休闲)