简介:SysOM集监控、告警、诊断、修复、安全能力于一体的操作系统运维平台。
文/系统运维 SIG
如果你被突如其来的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不出来内存?业务周期抖动,ping 命令偶尔时间很长,但无从下手?程序就这么几行但程序怎么跑 CPU 都跑不高,业务流量上不去?亦或是 CPU 使用率 90% 以上,ps 一下一堆乱七八糟的任务导致你不知如何取舍……
当你试图去社区寻找运维的开源产品时,将彻底从 Linux 免费、美味的天堂掉进地狱,因为你将搜索到的是一堆专业、重复甚至互相冲突的命令以及千篇一律的监控系统。这些命令你看不懂,监控系统也仅仅都是些监控 CPU 使用率、内存使用率、网络吞吐的面板, 根本无法解决你的问题,还有 Linux 的低前期投入,带来的是极高的运维成本。
因此,SysOM 来了, SysOM ( System Operation&Maintenance)是由龙蜥社区系统运维 SIG 打造的一站式操作系统运维平台,融入了 SIG 成员的成功商用运维实践经验,能够帮助用户在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理。
SysOM 诞生主要是为了解决以下各方面的问题:
基于以上问题,龙蜥社区 SysOM 应运而生,当前 SysOM 提供了以下 4 方面能力:
1、架构介绍
SysOM 整体架构分为:前端展示、服务端分析、客户数据收集。通过统一的前端 Web 将所有运维服务的分析数据展示给用户:
2、功能介绍
SysOM 主题功能包括以下 6 类:
作为 SysOM 管控界面,承担管理节点的增删改查、终端操作系统等功能。你可以通过简单的 Web 界面操作将需要管理的机器添加进管理界面,也可以一键登录到对应的机器进行 shell 操作。
监控中心主要为用户全方位的展示操作系统情况,包括但不限于:网络延迟、资源使用、任务负载、系统任务等。它将提供类似基于特定场景(如游戏、金融等)的网络抖动监控 Netinfo 功能,也能提供操作系统全方位基础指标监控。
宕机问题作为操作系统异常的一种极端情况,往往会对用户的应用产生重大影响。SysOM 宕机中心将会为用户提供统一的宕机问题管理,包括宕机监控、已知问题管理、在线分析、解决方案等能力。通过多维度的宕机管理,降低宕机问题对用户的影响,提升用户业务的稳定性。
操作系统作为非常底层的软件基础设施,运维难度较高,针对操作系统层面的问题,SysOM 集成了龙蜥社区的 SysAK 能力,为用户提供了全方位的诊断能力,包括:系统健康检查(即一键诊断)、网络/内存/存储/调度深度诊断,通过全方位诊断帮助用户分析操作系统层面的各类问题。
日志中心将会为用户提供日志审计的功能,便于管理员监控、管理所负责集群的运维情况。
安全问题越来越受到大家的重视,而操作系统包含大量的开源软件包,无时无刻不在产生新的安全漏洞。作为操作系统管理员最关心的是能够及时发现系统中存在的安全漏洞,并能够快速修复。SysOM 安全中心为用户提供实时的安全漏洞检测,同时根据操作系统的修复进展提供白屏修复操作。
1、环境准备
操作系统:Anolis OS 8.4 ANCK 64 位 系统规格:2 核 8 g
数量:3台
网络:公网IP
2.1 监控组件部署
#选择 Server 节点,执行下述命令部署监控组件
#部署目录
mkdir -p /usr/local/sysom/server/monitor/
#下载 grafana + prometheus + node-exporter
#下载 grafana 到 /usr/local/sysom/server/monitor/
wget https://dl.grafana.com/oss/release/grafana-8.2.5-1.x86_64.rpm -P /usr/local/sysom/server/monitor/
#下载 prometheus 到 /usr/local/sysom/server/monitor/
wget https://github.com/prometheus/prometheus/releases/download/v2.29.1/prometheus-2.29.1.linux-amd64.tar.gz -P /usr/local/sysom/server/monitor/
#下载 node-exporter 到 /usr/local/sysom/server/monitor/
wget https://github.com/prometheus/node_exporter/releases/download/v1.2.2/node_exporter-1.2.2.linux-amd64.tar.gz -P /usr/local/sysom/server/monitor/
2.2 诊断组件部署
#在 Client 节点,执行下述命令部署监控组件
#如未安装诊断组件,SysOM的诊断中心将无法运行
#部署目录
mkdir -p /usr/local/sysom/server/diagnose
#下载诊断组件 sysAK
wget https://gitee.com/anolis/sysak/attach_files/1011048/download/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm -P /usr/local/sysom/server/diagnose/
#安装 sysAK
rpm -idv /usr/local/sysom/server/diagnose/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm --nodeps
2.3 SysOM 部署
#下载 SysOM
wget https://gitee.com/anolis/sysom/attach_files/1010533/download/sysomRelease-20220329115704.tar.gz -P /usr/local/sysom/
cd /usr/local/sysom/
tar -zxvf sysomRelease-20220329115704.tar.gz
cd sysomRelease-20220329115704
#安装 Sysom。选择前面准备好的机器中的一台作为 SysOM 服务器,如果只有公网 IP,只需要填一样即可(暂不支持离线安装)。
./deploy.sh /usr/local/sysom 内网 IP 公网 IP
3、使用 SysOM
部署成功后,用户就可以通过浏览器访问已部署的 SysOM 平台了。直接在浏览器中输入公网 IP(如果只有内网 IP 也可以用内网 IP)。
3.1 登录界面
3.2 系统界面
3.3 功能使用
本文为 SysOM 系列第一篇,SysOM 功能详细介绍参见后续系列文章,还请持续关注龙蜥公众号不迷路。
原文链接
本文为阿里云原创内容,未经允许不得转载。