服务器崩溃和意外停机意味着用户沮丧和收入损失。因此,能够在 IT 基础架构中的任何问题升级和监控故障模式之前检测到这些问题,对于确保为最终用户提供无缝性能大有帮助。
但基础设施监控不仅仅是为了尽量减少中断。通过提供有关产品的深入见解,它将使你能够更好地了解其日常性能,并就其未来做出数据驱动的长期决策。
结合实际使用经验, 将重点介绍这两个工具Amazon CloudWatch 和 OpsGenie,它们的许多基本原理可以复制到市场上可用的其他监控服务中,各位读者可以根据实际情况进行变通。
基础架构监控是指收集和审查有关基础架构状态和性能的数据的过程。
一些监控的指标包括:
收集的数据可以来自各种来源:从应用程序本身到托管它的计算机。收集这些信息是基础设施监控的基础,因为它允许管理员定义服务器的状态并配置警报以提供有关任何异常性能的通知。
通过收集大量数据,基础设施监控工具为管理员提供必要的洞察力,以保护业务和提前计划。
持续的基础架构监控通过在问题升级和影响业务之前检测问题来帮助公司实现所需的产品性能、最大限度地提高效率并节省资源。
以下是公司需要知道的一些优势:
如果发生事故,operation team应该是第一个知道的人。如果希望能够在问题扩散并可能损害公司与用户的关系之前检测并解决任何问题,那么清楚地了解公司的基础架构至关重要。
无论公司面临的问题的性质如何,能够在问题出现后立即做出响应将大大有助于保护公司的业务。
持续主动地监控基础架构可以让公司清楚地了解其每天的运行情况,并让运维人员能够监控故障模式并及早发现任何警告信号。
例如,如果应用程序突然开始表现低于预期,可视化监控数据可能会让你深入了解导致瓶颈的原因。
对基础架构的健康状况拥有清晰的、数据驱动的洞察力对于帮助了解其持续性能并不重要。最重要的是,它使你能够就长期 IT 基础架构战略和投资计划做出明智的决策。
如果想控制与基础设施相关的成本,公司无法不使用监控工具。它们提供了一种简单的方法来了解服务器计划如何满足你的实际需求。
无论一直未充分利用现有的云服务,还是即将需要更大、更昂贵的软件包,分的监控数据都将帮助管理预算。
24/7 全天候监控基础架构让相关人员高枕无忧。如果出现任何问题,相关人员将在同一时间收到通知,并可以立即着手解决问题。
分析监控数据还可以让大家深入了解未来可以预期的长期趋势。
要开始基础设施监控,首先需要选择正确的工具。由于不同的系统需要不同的解决方案,因此值得四处看看,以确保选择具有最适合服务器集的功能的一个。
我们将它们大致分为两类:云原生和非原生。
如果您使用云服务来托管您的基础架构,那么坚持使用提供商的本地解决方案通常是最佳选择。
本机工具易于设置,因为它们随您的云帐户一起提供并且易于维护。您无需担心您的工具托管服务器或在服务器上安装其他代理以获得大多数基本指标。
最受欢迎的云服务及其原生监控工具是:
这些工具通常会为我们提供一些hypervisor级别的基础数据(负责服务器虚拟化的工具)。但是,可以使用脚本或代理推送自定义数据。 AWS 甚至提供了一种监控 RAM 和磁盘使用情况的服务。
除了监控之外,云服务还可以使用 CloudTrail 跟踪 API 调用。这可以为您提供一些洞察,例如,对基础架构所做的更改、用户访问的资源等。
除了云原生解决方案外,您还可以随时使用非原生工具。当您需要监控本地基础设施时,它们是一个不错的选择。
一些非本地解决方案需要在需要监控的每台服务器上安装额外的软件(客户端)。然后数据由代理发送到服务器(工具),服务器随后处理信息。一些最受欢迎的包括:
Amazon CloudWatch 和 OpsGenie 概述
Amazon CloudWatch 是一种用于监控 AWS 资源的本机工具,例如 EC2、RDS、SQS、ElastiCache、SES 等。它允许您创建仪表板以可视化指标,其中可以包括 EC2 实例使用的 RAM 量或与 RDS 建立的连接数。
仪表板功能非常有用,因为它可以让您即时了解基础架构的状态。它会自动刷新,因此您可以将其显示在开发人员房间的电视屏幕上。Cloudwatch 中的示例仪表板
每当警报更改其状态时,我妈需要确定要采取的操作。
OpsGenie 是一种事件管理服务,可与监控工具集成,提供有关基础设施状态的全天候通知。它由 SNS 触发——AWS 消息传递服务可以通过电子邮件、Webhook 或文本消息发送通知。
当你想要领先于中断并在问题升级之前解决任何问题时,像 OpsGenie 这样的工具将发挥关键作用。它将帮助你的团队建立随叫随到的时间表,并使每个人都了解谁应对出现的任何警报负责。
该平台的报告和分析工具还将帮助您深入了解警报并分析团队的工作量和绩效。
OpsGenie 简单统计
一个 OpsGenie 实例可以为多个团队工作,每个团队成员都可以查看时间表、修改它,或者只是查看过去的警报。
该工具可作为 Android 和 iOS 的本机应用程序使用。我们经常使用它,因为它支持推送和电子邮件通知以及手机通话。
该应用程序允许你管理你希望收到有关任何警报的通知的方式。例如,我们对其进行了自定义,以接收第一个通知作为推送通知。如果通知在三分钟内没有得到确认,应用程序将给值班工程师打电话。如果工程师不采取行动,OpsGenie 将升级流程并提醒其他团队成员。