一般来讲,在安装完 Nagios 后,我们做的第一件最正确的事,就是设置它的邮件通知,对吧。因为如果没有这一步骤的话,你怎么能够知道什么时候会出现问题呢?
伴随着成功的初始安装,你即将是你司唯一一个能够接收到告警数据的人。Nagios 的一个很好的功能就是可以监控到不同的服务器。人生如梦,这种蜜月期并不会持续太久,很快事情就会从很好处理变得开始难以操纵,等到你意识到已为时晚矣———每天都会有几十个甚至上百个告警铺天盖地的蜂拥而至。你试图去理清这些永无休止、有如浪潮般的告警邮件,但依然是剪不断,理还乱......
说实话,告警信息真没必要非得弄得诸如此般狼狈不堪的模样。以下列出了关于有效告警的几个方面,并且告诉大家 Nagios 邮箱告警的不可取之处。
请注意,告警信息都是动态的,即并非是静态的一成不变的
当这些告警信息以电子邮件的方式进入到你的邮箱后,它们就不会再发生改变了,然而现实中的告警却是无时无刻的不在变化。这意味着你将会每一刻都收到状态发生了改变的告警电子邮件,导致你查看邮件时很难搞清哪一个告警才是当下发生的。这时候小伙伴儿们就该说了,解决此类问题很简单啊,只单单查看最近时间的一些告警邮件即可,说的简单,同志们,试想一下,你登陆邮箱后成百上千封邮件扑面而来,你从中很快速的筛选出离得最近的有效告警邮件,并且这些告警恰恰能够把你系统出现的所有问题都涵盖到,并且去一一解决,做到无一遗漏,现实吗?
应用性能管理告警压缩
Nagios 是基于服务器和主机形式的告警监控,这就意味着,如果一台服务器有多项问题,那么每一个问题都会对应发送出一个相关的邮件。你只能自己通过界定他们之间的依赖关系,来尝试解决告警问题。在现代化环境中,我们发出的更多的是应用性能管理告警,而并不是特定的服务器或是主机。
例如,在一百台服务器中,如果只有一台出了问题,碰巧除此之外其余所有的服务器都在如期的正常工作中,我们就用不着整晚都在修复中度过了。而如果有五十台服务器宕了,那就是非常严重的报警了,但我们一下子也处理不了五十个告警呀。因此,我们更习惯于只接受到有关应用层面的一个压缩告警,告诉我有多少服务器受到了影响,又有多少服务器依然是在正常的运行中,好让我能够对当下出现的问题一目了然。
告警分析
通常情况下,在解决告警或者完全弄懂告警的问题上,告警信息的监控其实并不到位。比如我现在手头上有一个问题,那么往往得到更多的告警信息才能够大幅度地减少解决这个问题的时间。
例如,一台服务器超负荷了,如果我们能看到最近几小时的 CPU 图表,并且能了解到应对此问题做出高级指令后的执行结果,会对我们解决告警起到至关重要的作用。这些完全可以用 OneAlert 的分析功能来实现,但这仅仅这也是该功能的冰山一角。如果你还能看到这个问题发生时的最近告警事件的柱状图,又或者是在这一段时间中,发生在你的系统中所有信息的一系列变化,包括告警事件次数、平均确认时间、平均解决时间等,会不会是超赞的呢?
可控的
单单获取内容是不够的,比如现在,当我收到一个告警的时候,介于我正在忙其他更重要的事情,我想指派给某人来处理此告警,又或者是这个报警本身就应该由相应的人来处理,系统必须正确的把报警信息指派给特定的人,该怎么办呢?更深一层次的说,我们需要有大量的可控化操作,比如勘察记录、人工指派、逐层分级以及解决问题的分享等。
团队协作
一个团队如果能够很好的互相协作,会使得很多事情变得很好解决,但团队中处理 Nagios 的邮件报警有的时候真的是很痛苦。让我们来看一看那些堆积邮件如山的邮箱吧,你怎么知道是否有人已经做出了正确的答复?你又该如何快速的将一个告警,开放式的分配指派给他人,又或者请教他人解决的方式呢?你能够看到团队其他成员关于某一事件的最后一次告警作出的详细笔录吗?这些看似简单的问题,对于邮箱告警来说基本不可能实现。
Nagios 很难制定人性化的程序。我们知道,只有得益于一些插件和先进的配置的帮助,问题才会得到更好的解决。把控系统的所有可能性,并且持续的维护它们是 OneAlert 的使命。仅仅举几个例子:告警压缩、告警分析、指派分配、告警记录、团队分享等太多太多了……那么问题来了,你应该如何开始管理你的监控系统?
OneAlert 专注于解决处理以上所有的痛点,不要惊奇,想来了解一下吗?现在还可以免费体验,赶快行动吧!