如何从“监控”到“可观测性”?

什么是可观测性?

可观测性(Observability)是一种通过系统产生的输出数据(如日志、指标和链路追踪)来衡量当前系统运行状态的能力,其源于现代应用系统的复杂性和分布式架构,这些应用系统往往由大量的服务器、容器、微服务等组成,部署在云端或混合云环境中。在这种情况下,传统的手动日志分析和故障排查方法已经无法满足快速定位和解决问题的需求。

因此,可观测性越来越成为一种必不可少的技术手段,帮助运维人员从业务应用视角实时监控应用系统的运行状态、性能指标和安全性,快速发现和解决问题,从而确保应用系统的高可用性和稳定性。同时,可观测性也可以提高运维人员的工作效率,降低维护成本,使得应用系统更加敏捷、灵活和具有竞争力。

监控与可观测性有什么区别呢?

随着云计算、容器化和微服务等技术的发展,可观测性在现代 IT 系统中的重要性逐渐凸显。在此,我们存在疑问:我们在过去二三十年里,使用指标和仪表盘等构建的“传统监控方法”为何无法满足“现代系统”的需要,“监控”和“可观测性”有什么区别呢?

究其根本,如果我们依旧使用传统监控方法,我们将无法完全“看到”现代系统。众所周知,现代分布式系统架构的复杂性会导致一种无法预测且之前没有遇到过的方式出现的故障,而传统的监控方法更多的需要依赖“预知”的度量值、阈值和经验直觉。

然而,“可观测性”方法提供了“传统监控”方法不同的思路:

1、从目标对象方面,不局限在某一个技术领域,更关注从业务应用全局去理解整体的运行情况和用户体验;

2、从解决问题方面,不需要依靠经验直觉,就具备对复杂系统的问题发现、诊断、定位和恢复的能力;

3、从技术手段方面,不只是具有“指标、日志、链路”等监控数据,还需要建立“跨业务、跨系统、跨资源”的数据整合关联和可探索性能力。

可观测性在落地过程中的目标和挑战

在单体应用架构时代,由于系统交互比较简单,数据收集有限,往往依靠监控和运维人员的经验监测判断系统问题。然而,现代应用程序由于其分布式系统的交互组件数量众多、敏捷化开发的高频迭代造成巨大的未知故障问题,使传统方法面临挑战。

纠其原因,现有的日志、链路、指标等监控方法存在一定局限。比如问题故障的出现往往牵扯多个工具,而在问题排查过程中,这些工具和数据的孤立性和割裂性给运维人员带来了较大的认知障碍,造成了在分布式应用架构时代可观测性落地过程中的沉重负担和巨大挑战。

因此,从“监控”到“可观测性”的核心思路和目标是解决多元数据的质量问题和异构整合问题,并具备以服务化方式持续扩展可观测场景的能力,具体实现指标、日志、链路、拨测和配置等数据域的质量管理和聚合关联,构建从应用与应用、应用与云服务以及三方组件、应用与容器层、应用与资源层的横纵全局视角的可观测数据资源关联能力和价值场景服务能力。

如何从“监控”到“可观测性”?_第1张图片

同时,结合应用横向全链路观测与应用纵向资源指标关联分析,将监控、告警、流程、自动化等运维视角进行多角度与结构化整合,呈现应用间的逻辑访问关系、告警情况、工单信息、指标监控、日志监控、链路监控、自动化作业等,将基础监控、应用监控、告警、流程、自动化等能力集于一身,以应用系统全景视角,为应用运维人员提供统一的业务视图,让业务运行情况一目了然。

如何从“监控”到“可观测性”?_第2张图片

可观测落地方法论是什么

由于存量工具的功能特性、数据质量和服务能力,直接决定了可观测性落地的成效。因此,可观测的落地需综合全面考虑现有运维工具建设情况,结合实际情况,分阶段进行能力构建:

  1. 分阶段逐步构建可观测能力

如何从“监控”到“可观测性”?_第3张图片

1、阶段一:建立从业务、应用与基础架构视角的告警维度的可观测能力,并提供告警会诊机制,关注复杂应用架构下的运行观测和问题发现能力,并提供线上协调各领域专家进行高效会诊服务;

2、阶段二:建立从业务、应用与基础架构视角的主动发现可观测能力,扩展叠加日志、链路等数据,从告警感知转变为主动发现的可观测能力,并联动自动化操作,实现应急处置,关注复杂应用架构下向故障定位和排障处置进行衍生,实现左移;

3、阶段三:通过积累的数据,基于算法能力形成动态阈值,容量预测,智能洞察、方案建议等主动预防可观测能力,关注复杂应用架构下向事后处置往事前预防进行变革,保证服务体验。

可观测的建设并非一蹴而就,通过分阶段逐步深入实施,能够最大程度保障落地效果和可观测服务体验。

  1. 基于平台运维模式打造可观测工具底座

与此同时,由于越来越多企业底层IT运维工具和体系呈现出“分割”和“并列”的趋势,彼此之间的弱连接,极大限制了可观测性实现的联动性、灵活性和扩展性,拥有集成平台和产品对于支持可观测性的数据资源整合和价值场景服务供给起到了至关重要的作用。

从2016年起,广通优云便开始摸索,希望通过一种形式实现数据、资源和场景的全域打通,最终,我们创新在业内提出的“平台运维模式”通过提供可观测能力的工具底座,整体从建设能力+服务场景侧,为可观测落地提供坚实保障,是实现可观测性的最优解。

如何从“监控”到“可观测性”?_第4张图片

整体从可观测性建设能力层与服务场景层进行价值提供:

1、可观测性能力层:优云通过平台化理念,构建统一采控、数据管理和指标体系模式、业务服务(监、管、控、配、析)底座,实现对多系统、多工具、异构资源的集中纳管和能力补齐,实现多种日志、链路、指标等数据的整合和治理,实现可观测性在运行观测、问题发现、故障定位和排障处置端到端过程的无缝联动能力;

2、可观测性场景层:基于优云底座平台之上,以服务共享模式,不断延伸可观测的生态运维场景,实现从业务、应用、基础架构视角的告警可观测场景、主动发现可观测场景和主动预防可观测场景。

广通优云可观测性 实践成果

  1. 构建多层次视角的可观测体系

某国有大行基于优云运维平台,自动采集/接入应用调用链路信息、交易链路信息、日志事件、应用实例运行指标等观测数据,构建多层次视角的可观测体系,动态横向链路导航实现监测链路调用监控与追踪,静态纵向应用地图导航应用全貌,保障业务的安全、稳定运行,使用应用监控实现业务指标监控、应用指标监控、全链路追踪、应用拓扑分析、 指标阈值告警,实现了1分钟发现、3分钟定位、5分钟解决的业务支撑目标,帮助发现应用性能瓶颈,改善服务效率,提升应用体验,极大提升运维效率。

如何从“监控”到“可观测性”?_第5张图片

  1. 企业级应用墙:一图在手,尽在掌握

通过对应用进行精准“画像”,从应用中提取各项关键属性、运行指标,对各指标进行聚合分析,并根据不同人员按需配置,支持多维度查看,应用基本信息配置及呈现、指标呈现(可自定义扩展需显示的指标)、评价信息配置及呈现、应用轨迹查看(可快速链接到各流程工单系统)、应用运维操作等。

由此,运维人员可以在管理时更清晰、准确、快速地获取到应用的“病根”,并通过引导式运维快速、有效解决问题的目的。以业务/应用与基础架构图谱视角,全景展示运行状态。

如何从“监控”到“可观测性”?_第6张图片

  1. 以业务为视角的全要素、全流程洞察能力

针对业务应用的某一个异常节点,进行下钻,可以查看以应用为视角的架构拓扑,还可以查看以系统视角的架构拓扑,根据业务维度,想你所想,绘你所绘,让服务架构拓扑清晰可见,一目了然,秒解微服务繁杂且架构梳理无从下手的痛点,其中,基于平台化能力,无缝联动资产配置与知识库、自动化操作、工作流引擎等平台能力,实现应用资源数据为轴,纵向贯穿应用、资源之间的关系,建立应用资源架构关系地图,分层诊断故障根源节点,并实现应急处置和闭环管控能力。

如何从“监控”到“可观测性”?_第7张图片

  1. 应用全链路全程追踪,服务贴心

通过应用拓扑的访问关系和性能指标,查看最近应用节点是否存在性能瓶颈和应用错误,指标下钻定位到具体的耗时或应用错误链路。通过链路分析,探测到是哪个应用实例、哪台主机节点执行哪段代码产生的异常,再结合具体环节信息,展开环节所属进程资源信息、链路访问产生的应用日志、错误堆栈信息、数据库访问详情以及当前进程实例运行指标的趋势,分析定位到根因。

如何从“监控”到“可观测性”?_第8张图片

从迈入云原生时代起,技术更新迭代的速度明显增快。广通优云产品与解决方案真正实现了以应用业务为中心的核心诉求,切实解决了由传统被动监控手段到“主动发现”可观测的能力。从“监控”到“可观测性”,更丰富的技术、组织、内容融入其中,建构出对整个应用管理更宏大的认知。而这种认知如果能够基于统一可行的理念、方法论及工具产品,将统一的数据信息作为基础,将会大幅提高“主动发现”的能力,业务全面可观测,理想终将照进现实。

你可能感兴趣的:(数据中心,运维,监控告警,可观测性)