运维管理的提升-2013

管理大型的、全天候的互联网服务类、支持类以及运营类公司是一件艰苦的工作,需要运用到许多系统、人力以及跟踪和支持服务,并且任务列表每年都在增加。我们使用许多开源工具以及内置系统来完成这些工作。


我们不断地改进我们的管理和系统,随着2013年的结束,我们最近增加了下列项目和系统。


专家级工程师 - 我们的全天候核心支持团队就是我们的报警和请求(Alert and Request)工程师团队,他们是一线支持人员,为您提供全天候支持服务。以前,遇到他们无法解决的特殊系统问题时,他们将问题提交到项目团队以及系统所有人,以便解决问题。但是,现在我们有了新的专家团队,我们这个团队可以提供更高级、更专业的咨询以及特定的系统知识,所以,我们可以提供更快速的客户服务。这样,项目工程师团队就不会过于忙碌,而且,我们也有了更多的资源,可以更快地提供实时支持服务。最近,我们在下班后以及周末还提供此类服务,所以,我们能够提供更快、更好的支持服务。


专家级系统 - 为了能够持续地、系统地跟踪事件,我们为此构建了一套完整的系统。在任务管理屏幕系统(Ticket Management Screen)中,我们要求工程师以正确的格式填写升级要求。我们还采用独立的电子邮件组来帮助我们审核事件、继续跟踪进程,这些都可以更好地组织好升级事件,极大地提高问题解决效率。


全天候协调团队 - 我们组建了专门的全天候协调团队,该团队由专业的报警和请求协调员组成,他们负责对任务(ticket)进行跟进、跟踪和审核,并且还帮助工程师进行内部协调工作(升级/紧急流程/任务转移等等。)以及外部通讯工作(电子邮件/电话),以确保一切事件仅仅有条。做好运营工作是一件复杂的事情,每天都有许多事情同时发生,所以,协调团队还要管控何时开始和结束更新,也对事件顺序进行管理,以确保提供优质的客户服务。这些可以更好地帮助支持团队,提高总体效率和性能。


NOTOPS - 我们有一个新的运营情报(NOTOPS),它可以给我们的全天候团队支持发出通知提醒,它可以报告所有客户问题、维护、IDC流程问题以及所有团队成员所需要了解的一切其它必要问题。我们的运营情报是根据飞行员的航空情报系统进行设计的,这个运营情报系统是一个自动化的系统,每次换班以及每次重大事件时,都会自动进行检查。当有报警时,还可以把该系统绑定到特定的服务器、历史和跟踪服务。


换班变更报告 - 作为全天候运营服务,换班变更是一项挑战,在信息传递、通知以及当前事件跟踪方面的挑战尤为明显。我们新增了新系统、自动检查报表系统以及绝对管控交班流程系统,来提高对这一领域的控制力度。


新的夜班/周末升级流程 - 我们改进了我们的下班后的升级流程,使其可以更好地调度以及开展角色训练,并且为这个流程配备了设备以及积极日常测试系统,我们运用该系统对待命的工程师升级通讯通道进行测试。我们还采用新型电话跟踪系统,以便可以报告并管理实际的电话流程,该系统极大地帮助了我们处理调度和电话事件等问题。


紧急流程、工作日 - 新的紧急流程、团队以及资源处于随时待命状态,以便解决关键问题,如宕机、服务器崩溃以及数据库问题等等。若常规团队无法在短时间内迅速解决问题,则发布紧急事件,该事件将在5分钟内迅速整合高级团队、协调人员、通讯人员以及工程师,使这些人员汇聚一堂,通过运用快速更新、故障排除以及修复流程等工具迅速解决问题。这个流程的最重要的特点是:客户通讯、团队协调和高级技术支持。


新型24x7服务器QA - 我们有一套严格的新型QA流程,可以对所有将要投入生产(对于我们而言是24x7)的服务器和系统进行检查。该流程可以确保这些服务器和系统已经达到了一切运营需求,尤其是监控、文档、访问控制、日志以及支持程序方面的需求。这可以切实地保障初期投产顺利运行,不仅测试时间短、部署快,而且性能好、问题解决能力强。


新型设计系统 - 我们最终启动了我们的大型500构件的新型服务器设计系统。该系统虽然仍旧是beta状态,但是与我们之前的系统相比,还是改进了许多,包括一些关键特点,如模板和系统复制,为我们节省了许多时间,也减少了我们犯错的机会。它还有一个非常重要的验证功能,可以对关键参数如RAM或磁盘分配过度等问题进行检查或交叉验证,避免了许多新系统会发生的常见问题。在2014年,设计系统还将用于自动设置系统,以便直接根据设计自动构建新系统,然后进行QA检查(在系统构建之时和之后都进行检查)。


自动任务生成/自动任务关闭 - 我们每天要处理500-1000个报警,虽然,我们已经努力地减少报警量(通过我们的ARP-报警减少程序),但是仍旧有许多工作要做,还是会把许多事情搞混淆。我们的新型的自动任务系统,可以通过创建和分配不同类型的任务来减少我们的工作量,而且自动关闭系统也可以清除已经不存在的报警的任务。这样,就确实地帮助了我们的工程师和协调团队,使他们至始至终可以一直关注最关键的问题和报警。


培训 - 我们已经增加了新的报警/请求培训,使其具有明确的新的分类和结构,以便更有序地随时为客户提供支持。在2014年,我们在这个方面更进了一步,在各个级别层次上都有了不同类型的支持工程师和认证服务,尤其是包括了新的MySQL、亚马逊AWS、安全、可靠性、工程师以及性能方面的内部认证。


关键问题审核任务 - 为防止相同问题重复发生,我们始终帮助客户解决问题。除了频繁的报警ARP任务之外,我们还启动了重大问题审核流程,我们有经验更丰富的工程师来审核整个事件、发掘根本原因、提供建设性解决方案、反映出我们对客户的价值。


新型AR得分/评估程序 - 我们来了一名新的报警-请求团队经理,拥有一个更先进、更有组织的程序可以检查并评估AR工程师工作绩效,包括使用所有指标和数据分析报表,这样,我们可以定期评估所有事项,以便发现问题所在,对系统进行改进。


CNC Zabbix 控制面板2 - 该面板诞生于2013年,是一款独立的内部Zabbix 面板,可以放置所有重要报警还可用于清理屏幕,有助于工程师和协调员把更多的精力主要放在实时问题和最重要的问题上。


PM屏幕 - 使用PM荧屏能够更好地记录任务状态,也可选择性地同时更新许多任务以及搜索特定的任务。PM和协调员可以使用该荧屏随时增加任务的状态,在日常营运晨会上也可以增加任务的状态,使会议时间缩短,这样我们便可更快地投入到日常工作中。


门户新任务分配系统 - 为了能够提高全部请求的处理效率,我们通过在新系统中增加新特点的方法改善了任务的分配处理流程,使这个处理流程的功能更加强大,我们还需要设计许多额外的处理程序,在2014年,该处理流程可以完整地投入运营。


新型请求控制面板 - 我们专门为请求处理开发了独具特色的控制面板,该面板与Zabbix的功能相似,极大地提高了协调团队的工作效率,能够更有序地跟踪和管理请求。


在2014年年初,将会有更多的变革,包括新增额外的雇员、24x7小时的培训;更强的下班后的紧急处理流程包括24x7小时紧急群客户聊天工具;额外的支持通道如QQ和简单聊天工具;新型自动构建系统和审计系统;配置跟踪系统;更强的syslog处理和web/syslog分析工具;新型的网络和防火墙配置;以及更多的其它工具。


( Authored by Steve Mushero | ChinaNetCloud CEO & CTO 本博客英文原文请点击查看 )


你可能感兴趣的:(互联网,云计算,服务)