zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。
zabbix由2部分构成,zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP,zabbix,agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD,os x等平台上。
zabbix解决了cacti没有告警的不足,也解决了nagios不能通过web配置的缺点,同时还支持分布式部署,这使得它迅速流行起来,zabbix也成为目前中小企业监控最流行的运维监控平台。当然,zabbix也有不足之处,它消耗的资源比较多,如果监控的主机非常多时(服务器数量超过500台),可能会出现监控超时、告警超时、告警系统单点故障等现象,不过也有很多解决办法,比如提高硬件性能、改变zabbix监控模式等。
① agent代理:专门的代理服务方式进行监控,专属的协议,装有zabbix-agent的主机就可以被zabbix-server监控,主
动或被动的方式,把数据给到server进行处理。
② ssh/telent:linux主机支持ssh/telent协议
③ snmp:网络设备路由器、交换机不能安装第三方程序(agent),使用简单网络协议。大多数的路由器设备支持SNMP协议
④ ipmi:通过ipmi接口进行监控,我们可以通过标准的ipmi硬件接口,监控被监控对象的物理特征,比如电压,温度,
风扇状态电源情况,被广泛使用服务监控中,包括采集cpu温度,风扇转速,主板温度,及远程开关机等等,而且ipmi独立于硬件和操作系统,无论是cpu,bios还是os出现故障,都不会影响ipmi的工作,因为ipmi的硬件设备BMC(bashboard management controller)是独立的板卡,独立供电
⑤ zabbix核心组件介绍
Zabbix Server:
Zabbix软件实现监控的核心程序,主要功能是与Zabbixproxies和Agents进行交互、触发器计算、发送告警通知;并将数据集中保存。与prometheus的类似可以保存收集到的数据,但是prometheus告警需要使用altermanager组件
Database storage:
存储配置信息以及收集到的数据
web Interface:
Zabbix的GUI接口,通常与server运行在同一台机器上
Proxy:
可选组件,常用于分布式监控环境中,一个帮助zabbix Server收集数据,分担zabbix Server的负载的程序
Agent:
部署在被监控主机上,负责收集数据发送给server
borg.kubernetes
borgmon(监控系统) 对应克隆的版本:prometheus(go语言)
所以prometheus 特别适合K8S 的架构上
而作为一个数据监控解决方案,它由一个大型社区支持,有来自700多家公司的6300个贡献者,13500个代码提交和7200个拉取请求
Prometheus具有以下特性:
① 多维的数据模型(基于时间序列的Key、value键值对)
② 灵活的查询和聚合语言PromQL(难)
③ 提供本地存储和分布式存储
④ 通过基于HTTP和HTTPS的Pull模型采集时间序列数据(pull数据的拉取,时间序列:每段
时间点的数据值指标,持续性的产生。横轴标识时间,纵轴为数据值,一段时间内数值的动态变化,所有的点连线形成大盘式的折线图)
⑤ 可利用Pushgateway (Prometheus的可选中间件)实现Push模式
⑥ 可通过动态服务发现或静态配置发现目标机器(通过consul自动发现和收缩)
⑦ 支持多种图表和数据大盘
open-Falcaon是小米开源的企业级监控工具,用GO语言开发,包括小米、滴滴、美团等在内的互联网公司都在使用它,是一款灵活、可拓展并且高性能的监控方案。
监控系统的四个基础功能,以监控系统的主体而言
使用/管理者所关注的被监控“系统”(端)的相关组件,例如路由器、交换机、网关、应用、基础设施服务、业务特征等
但以上对象必须允许在基础设施层,例如物理主机、vm、container,那么我们就需要对这些基础设施层中关键的,伴随时间变化而变化的数据,进行采集分析,而此类数据称之为【指标】
1、指标数据采集到之后,作为“点状数据”,而此类点状数据称之为【样本数据】
2、而此类【样本数据】做为事后的分析(趋势分析),那么如果我们所需要监控的目标特别多,那么我们就需要存储大量数据
3、那么在持续存储性能表现上必须要强【TSDB数据库】,那么接下来对此类样本数据进行分析,明确系统运行状态、特性,来预测、判断未来的某一时间、时刻是否会出现问题时我们的目的
4、同时为了结果的可观测及清晰性,我们会做一些【可视化】处理分析功能,所以需要控制台(例如grafana)(目前的形式,可视化与低代码趋势)过滤手段:PromQL(数据过滤语句)
5、我们也需要有一个守护进程,实时监测特定的样本序列、指标时间序列是否有异常状态,而通常此类异常状态的判断会以一种【布尔值表达式】的方式来做为判断依据
6、满足布尔值表达式的要求(true)的指标我们认为时异常指标,而此时我们就可以通过触发一种“媒介”(media),把异常信息通知给用户,例如钉钉、webchat、短信、邮件等
1.CPU、Load、Memory、swap、disk i/o、process等
2.网络监控:网络设备、工作负载、网络延迟、丢包率等
1.消息中间件:kafka、RocketMQ、等消息代理
2.WEB服务器容器:tomcat
3.数据库/缓存数据库:MySQL、PostgreSQL、MogoDB、es、redis
redis监控内容:
redis所在服务器的系统层监控
redis 服务状态
RDB AOF日志监控
日志——>如果是哨兵模式——>哨兵共享集群信息,产生的日志——>直接包含的其他节点哨兵信息及redis信息
用于衡量应用程序代码状态和性能
监控的分类:黑盒监控,白盒监控(pro)
白盒监控,自省指标(可自己产生指标,自治功能),等待被获取
白盒监控支持通过三种途径从目标抓取(scrape)指标数据,如下:
exporters :指标暴露器,(当服务不支持pro格式,借助于exporter来响应给pro)
instumentation :测量系统(被监控’端’),指的是应用程序内置本身兼容pro采集格式的指标暴露器
pushgateway :短期、批处理任务,本身此类业务不会产生指标数据,同时难于使用exporter来获取指标数据的任务 ,以上为pro典型的采集数据的方式
linux mysql redis 资源负载/状态 持续性的过程状态
一次性、短期的、批量的业务,处理完后,进程直接退出
pushgateway 将以上短期的业务指标数据,收集到网关处,然后定期cron 推送给pro-server
黑盒指标:基于探针的监控方式,不会主动干预、影响数据
用于衡量应用程序的价值,如电商业务的销售量,ops、dau日活、转化率等,
业务接口:登入数量,注册数、订单量、搜索量和支付量
云原生时代的可观测性
可观测性系统(立体监控)以下为三个维度:
① 指标监控:随时间推移产生的一些与监控相关的可聚合的数据点(离散数据)——》pro做为代表
② 日志监控:离散式的日志或事件(日志结构化、非结构化概念)
③ 链路跟踪:分布式应用调用链跟踪(时长、状态数据)
以上是可观测性系统应具有的三个概念,而pro 只是其中一个维度
四个黄金指标 谷歌出了sre书
① 延迟:
服务请求时长
区分失败与成功的请求 code!=“200” 请求失败的数据
② 流量
应用服务容量需求,如每秒处理HTTP请求或数据库系统的事务数量
③ 错误
请求失败的速率、衡量错误发送的情况
例如:HTTP 500
④ 饱和度
资源使用情况、负载情况
例如 5大负载等资源
监控:五大负载、应用状态、主从状态、sql语句数量
谷歌的内部大型集群系统borg,是kubernetes的前身。其监控系统是borgmon,而prometheus是其克隆版,所以非常契合k8s的监控对容器非常适用。
Prometheus本身为一种时序数据库(TSDB),还具备开源的监控、报警、时间序列、数据库的组合。其设计用于进行目标(target)监控的关键组件
⭐⭐TSDB:pro通过采集的样本以时间序列的方式保存在内存(TSDB时序数据库)中并定时保存到硬盘中(持久化)
⭐⭐⭐target:主要指可输出、产生指标数据的组件/对象,包括但不限于主机、应用、服务、K8S ingress(逻辑组件)等
小结:能正常输出指标数据的对象称为target 或网络端点(表现形式,例如:192.168.226.128:9100,192.168.226.128:8500)
⭐⭐时序数据:一段时间内通过《重复》测量而获得的观测值的集合,并且可将这些观测值绘制与图形之上,以数据轴(纵轴)和时间轴(横轴)来表示随着时间流逝而产生的“渐变”变化(类似与股票)
小结:能随着时间流逝,而能不断采集到的点数据称为时序数据
时序数据库不属于sql数据库也并不是nosql数据库
官网:https://prometheus.io/docs/concepts/data_model/
时序数据,是在一段时间内通过重复测量(measurement)而获得的观测值的集合将这些观测值绘制于图形之上,它会有一个数据轴和一个时间轴,服务器指标数据、应用程序性能监控数据、网络数据等也都是时序数据;
prometheus生态圈中包含了多个组件,其中部分组件可选
通过scraping以刮擦的方式去获取数据放入storge(TSDB时序数据库),制定Rules/Alerts:告警规则,service discovery是自动发现需要监控的节点
时间序列数据,按照事件推移,在某一个时间刻度,同一个样本数据采集的时间不会绝对的一直,会随机延迟或提前一点进行采集
目的在于为那些期望原生提供Instrumentation功能的应用程序提供便捷的开发途径;
接收那些通常由短期作业生成的指标数据的网关,并支持由Prometheus Server进行指标拉取操作;
由告警规则对接,从Prometheus Server接收到"告警通知"后,通过去重、分组、路由等预处理功能后以高效向用户完成告警信息发送
与TSDB对接并且展示数据库中的数据,Prometheus web UI (Prometheus Server内建),及Grafana等;
动态发现待监控的Target,从而完成监控配置的重要组件,在容器化环境中尤为有用;该组件目前由PropetheusServer内建支持