龙蜥白皮书精选:SysAK—大规模复杂场景的系统运维利器

文/系统运维 SIG

01 概述

SysAK(System Analyse Kit)是龙蜥社区系统运维 SIG,通过对过往百万服务器运维经验进行抽象总结,而提供的一个全方位的系统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。工具的整体设计上,力图让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在。

02 技术方案

SysAK 在功能集上会进行全方位覆盖,垂直打通整个应用的生命周期。当前工具支持监控和诊断两种模式。其中监控模式下 SysAK 常驻后台,为运维人员提供系统的各项指标。而诊断模式随用随启,主要用于分析不同运维场景下的系统现象诊断与程序控制等。其整体功能如下图所示:

图片.png

SysAK 不仅限于一个工具集,除了提供系统运维工具本身外,还设计实现了一套工具开发框架。并通过松散耦合、依赖管理、多架 构多版本的构建支持等方式,保障了工具开发者,一次开发,无需额外工作,就能在主流的架构和操作系统版本上集成。其整体结构如下图所示:

图片.png

03 应用场景

SysAK 提供的诊断工具可满足不同应用场景的运维需求:

  • 日常监控:针对各种系统资源更精细化的资源监控,帮助业务运维实现细粒度的运维调度和资源控制。除此之外,还实现了许多增 强的系统指标,实时监控系统的干扰和抖动等情况。
  • 问题诊断:针对负载异常、网络抖动、内存泄漏、IO 夯、性能异常等情况提供线上诊断功能。同时减少工具的专业性,可操作性强。
  • 故障修复:对于非整机异常的问题(例如死锁、夯机等), 该工具提供介入能力对系统进行恢复或故障隔离。

更多龙蜥白皮书精选内容,点击这里查看。

相关链接:

系统运维 SIG 主页:https://openanolis.cn/sig/sysom

更多龙蜥技术特性解析可移步《龙蜥特性百科》:https://anolis.gitee.io/anolis_features/

2022 龙蜥社区全景白皮书(或公众号【OpenAnolis龙蜥】回复关键字“白皮书”获取)https://openanolis.cn/openanoliswhitepaper

—— 完 ——

你可能感兴趣的:(开源操作系统运维白皮书io)