巡检告警项

告警配置

不可量化指标(9)

指标名

说明

mount_error{job=~"$job", instance=~"$instance"} 1

磁盘挂载是否正确

node_kdump_enabled{job, instance} 0

节点kdump服务是否启动

core_dump_file_found{job, instance,dir} 1

是否存在核心转储文件

system_contract_error{job} 1

系统合约参数是否与配置仓库一致

config_error{job=~"$job", instance=~"$instance", target="runtime"} 1

运行时参数是否与配置仓库一致

config_error{job=~"$job", instance=~"$instance", service="", source="oneconf"} 1

节点配置文件是否与配置仓库一致

config_error{job=~"$job", instance=~"$instance", service="storage_service"} 1

storage服务参数是否与配置仓库一致

container_image_error{job="", instance="sre-test-02", service="master"} 1

容器使用的镜像是否正确

container_launch_parameters_error{job="", instance="sre-test-02", service="master"} 1

容器启动参数检查

可量化指标(10)

指标名

说明

node_established_connections_total{job, instance}

节点连接数

node_open_ports_total{job, instance}

节点端口开放数

node_open_client_ports_total{job, instance}

节点客户端端口数

node_open_server_ports_total{job, instance}

节点服务端端口数

directory_size{job, instance,role,dir}

文件大小

node_disk_size_bytes{job, instance,device,mountpoint}

磁盘容量

process_max_open_files{job, instance,process,pid}

进程最大文件打开数

user_max_processes{job, instance,user}

用户最大打开进程数

portal_active_session == 0

客户端连接

rate(tx_failed_contract_execution_sum[30s]) > 5

是否正常处理交易

告警项

告警名称

告警表达式

节点磁盘挂载错误

mount_error{job=""} == 1

节点kdump服务未启动

node_systemd_unit_state{job="",name="kdump.service",state="active"} == 0

运行时参数与配置文件不一致

config_error{job="",target="runtime"} == 1

发现进程核心转储文件

core_dump_file_found{job=""} == 1

系统合约参数与期望配置不一致

system_contract_error{job=""} == 1

节点配置文件与配置仓库不一致

config_error{job="",service="",source="oneconf"} == 1

节点连接数超限

node_tcp_connection_states{job="",state="established"} > 36000

进程最大打开文件数错误

process_max_fds{job=""} != 65536

无客户端连接

portal_active_session{job=""} == 0

无法正常处理交易

rate(tx_failed_contract_execution_sum{job=""}[30s]) > 5

你可能感兴趣的:(巡检,运维)