“全方位掌控系统的运行状态,快速响应各类问题”一直以来作为应用运维的目标。

  资源运行状态上:资源是否充足?机器、网络等是否有问题?

  应用运行状态上:出问题了是容器、中间件还是OS的问题?应用有bug,具体是哪段代码引起的?

  用户体验保障上:业务运行是否正常?如何能清楚的了解各地域用户体验情况?

  上面这些问题,作为运维统统都要hold住。而随着免费云服务器时代到来,企业应用上云之后,挑战也越来越大:

  1、传统运维工具那么多,云上怎么办呢,使用和维护成本太高了。

  image.png

  2、云化常见下分布式应用问题分析更加困难

  image.png

  3、如何掌握应用用户体验情况,找到体验差的地方并改进?

  image.png

  针对这些挑战,华为云推出云应用立体运维解决方案,融合了华为云的应用运维管理服务(AOM)、应用性能管理服务(APM),对基础设施层、应用层、业务层实时多维度监控,并通过应用与资源告警关联、日志分析、智能阈值、分布式调用追踪、手机APP异常分析等技术,实现分钟级问题快速诊断和修复,保障应用长稳运行。

  图1_03.png

  立体运维解决方案具有一下特点:

  01 统一运维监控管理:资源、应用、业务一站式监控与分析

  支持集群、虚机、网络、磁盘、数据库、应用、容器及业务等上百种监控指标与秒级监控,通过集群与虚机、虚机与应用、应用与资源统一建模,对各种指标智能关联分析,用户通过统一的告警入口和下钻找到问题根因。

  640.jpg

  02 日志分析:分布式日志集中搜索与实时查看

  将虚机上的应用、开源组件、系统等日志集中采集到ElasticSearch集群中,用户通过日志管理快速找到应用实例日志,提供实时刷新、日志上下文查看、秒级搜索、日志下载等常用功能。

  640 (1).jpg

  03 应用拓扑分析:应用关系与异常一目了然、故障下钻

  对应用健康状态可视化管理,包括应用运行状态、时延、错误、负载、依赖关系,包括数据库、缓存、消息中间件、NOSQL等各类开源组件。

  04 分布式调用追踪:大海捞针技术,实时监控所有进程每一次调用

  直接帮助用户找到异常的代码函数,同时可还原每个函数调用堆栈、出入参、返回值及详细的堆栈信息,性能瓶颈及代码异常无处躲藏。

  05 在线调试:对指定的类及方法设置断点和跟踪

  用户配置完类名、方法名和参数名后,当该方法被调用时,可自动捕获该方法的调用者、详细的堆栈以及各类参数,帮助开发快速锁定问题现场。

  06 业务会话监控:监控每笔交易的KPI数据,提升用户体验

运营视角,了解每个业务的运行状况,包括交易次数、时延、错误率,并通过调用链找到异常代码,同时可以帮助运营人员了解活动期间的交易体验。

文章来源:https://www.huaweicloud.com/