同创永益

系统学习 Zabbix 系统监控（一）

文介绍了zabbix 基本概念及其特点，阐述 zabbix 系统环境搭建与基础安装，如何实现对各类操作系统、硬件设备、应用软件监控告警。

1 介绍

1.1 摘要

本文深入浅出，切近实际运维应用，由 zabbix 3.4 版本入手，学习 zabbix 监控告警实现方式，由 zabbix 5.0 浅出实现快速部署、快速应用。本人从业多年，关注 zabbix 开源社区，以及 zabbix 官方组织的各种峰会，了解到的前沿技术，因随着运维监控软件的不断发展，未来软件将是开箱即用的模式，运维人员在使用监控软件，不必再去花精力编写运维监控程序，而是完善监控项，这样的方式对于初学者越来越不容易学习。因此，学习 zabbix 3.4 版本是非常必要的， zabbix 官方那时候还没有集成更多的模板以直接使用，那里有大量的监控项需要自己编写实现，不仅全面了解了 zabbix ，也是对 linux 命令、 shell 脚本、 Python 语言等的很好学习，也有助于二次开发，自定义监控项的配置。

1.2 背景

以下是部署实施基于 zabbix 监控系统的建设背景，以解决诸多运维实际问题：

目前公司系统运维主要采用人工检查的方式，问题发现的时效性较低，容易出现问题不被立刻发现，人工也容易疏忽漏查，导致问题处理不及时，影响信息化系统服务效果，就需要更好保障系统稳定运行。

公司信息化系统、操作系统、设备种类多，各类信息化系统如：OA 、 U9 ， PLM 、企业邮箱等，又有 Linux 、 Windows 、 VMware 、 EMC 等系统，设备有服务器、交换机、存储等，机房环境有动环系统进行监测。如此众多的信息化系统平台，当然需要统一运维界面，实时监测各系统运行状况，为运维工作提供便利。

为适应时代的发展，未来是个智能化的时代，运维工作要实现自动化，运维工作者要向开发去转变，开发即运维，或许有一天人工智能将代替运维人员，而今的运维人员希望是人工智能创造者的一份子，了解自动化运维，与时俱进是非常必要的。

综上，为了提高运维效率，节约人力资源，对设备、机房环境实时监控，能有效、实时发出告警信息，从而及时发现问题快速响应。急需一套能满足以上需求的监控系统，经考量 zabbix 监控系统应用广泛，可实现上述功能。

1.3 系统简介

Zabbix 是一个企业级解决方案，支持实时监控数千台服务器，虚拟机和网络设备，采集百万级监控指标。Zabbix 完全开源免费。

Zabbix 的主要特点有：

1.指标收集：从任何设备、系统、应用程序上进行指标采集
2.问题监测：定义智能阈值
3.可视化：单一界面管理平台
4.告警和修复：确保及时、有效的告警
5.安全和认证：保护您所有层级的数据
6.轻松搭建部署：大批模板，开箱即用，节省您宝贵的时间
7.自动发现：自动监控大型动态环境
8.分布式监控：无限制扩展
9.ZABBIX API ：将 Zabbix 集成到您 IT 环境的其他任何部分

1.4 名词术语

Zabbix 系统有一些自己定义的专业术语，为更好的熟悉系统名词，下面主要介绍本文以及 zabbix 常用的术语。

主机（ host）

一台你想监控的服务器、工作站、交换机等网络设备，用 IP 或者域名表示。

主机组（ host group）

多台具有某种相同角色、属性的集合。例如，所有 windows 服务器放在一个叫 “windows server” 的主机组中。

监控项（ item）

你想要监控、获取主机或主机组的哪些数据。例如：我想监控所有机器的 CPU 使用情况，则需要建一个监控项，用于获取所有服务器的 CPU 使用率。

触发器（ trigger）

由逻辑表达式组成的按照预先设置好的阀值来评估由监控项采集到的数据。触发器有两种状态，分别为 “ 问题 ” 和 “ 已解决 ” 。例如：在上述通过监控项获取了 CPU 的使用率，假如我想超过 CPU 使用超过 80% 的就预警，则可以创建一个触发器，当监控项获取的值超过 80% 时就按照预设的情况报警，状态为 “ 问题 ” ；低于 80% 时认为报警解除，状态恢复为 “ 已解决 ” 。

事件（ event）

单次发生的需要注意的事情，例如上述触发器状态由问题变成了正常或者由正常变成了问题，均可以称为一个事件。事件包括触发器事件、自动发现事件、自动注册事件和内部事件 4 个部分。

动作（ action）

一个对事件做出反应的预定义的操作；例如 CPU 使用超过 80% 时，触发器状态变成了问题，即产生了一个事件，我们可以针对此事件预设一个动作（比如执行命令 reboot ），则系统会自动针对此事件的预设动作执行命令 reboot 。

媒介（ media）

发送告警通知的手段或途径。例如：当 CPU 超过 80% 报警后，通过媒介（邮件、短信、自定义脚本、微信等）形式告知。

模板（ template）

一组可以被应用到一个或多个主机上的实体（监控项，触发器，图形，聚合图形，应用， web 场景等）的集合。简单的说，即多个监控项的集合。

应用集（ application）

一组监控项组成的逻辑分组。例如， CPU 的监控项，归集至 cpu ，在想查看有关 cpu 方面的信息时，可以直接在界面上提供的搜索框内查询所有有关 cpu 的信息。

zabbix server

zabbix 系统实现监控的核心程序，主要功能是与被监控主机、代理机等进行交互、触发器计算、发送告警通知、收集数据并存储等。

zabbix agent

一个部署在监控对象上的，能够主动监控本地资源和应用的程序；一般来讲，我们需要在所有被监控服务器上安装此程序。

zabbix proxy

一个帮助 zabbix server 收集数据，分担 zabbix server 的负载压力的程序；另外，还可以用在 server 与 agent 机器网络不通，使用 proxy 作为网络代理，实现两者的通信功能。

1.5 系统架构

系统结构说明：由 web 、 linux 、 php 、 mysql 等组件部署安装，实现 zabbix server 服务端；由被监控对象例如：Windows 系统， linux 系统、 Vmware 虚拟化平台、交换机，存储等组成了 agent 端。Zabbix server 可采用主动模式，获取 agent 上数据，也可采用被动模式，接收 agent 定时发送的数据。

2 指标

2.1 软件版本

版本选择说明：目前 zabbix 3 版本成熟稳定，各大企业公司运维监控系统运行于该平台上，提供的监控项比 zabbix 第 1 和 2 版本丰富，完全能满足监控对象的需要；至今 zabbix 第 3 版已持续发布 4 年多时间，开源系统积累了大量的资料与研究人员，可供交流学习，能很好服务于 zabbix 定制化；zabbix 4.0 版本 2018 年 10 月正式发布， 4.2 版本于 2019 年 4 月正式发布，目前最新的是 zabbix 5.2 版本，版本持续更新满足未来升级发展的需要，新版本增加了 ELK 、时序数据库，以及前端 web 优化，但监控本质并未发生大的变化。

2.1 硬件指标

Zabbix 可以运行于虚拟环境也可以部署在服务器上，因 zabbix 采集数据主要是文本，对网络带宽要求不高，千兆速率足矣，只要满足性能上的要求即可，主要为 CPU 、内存和硬盘三项。结合 zabbix 官网给出的指标、实际监控项数量、历史记录保存时间长度。根据上表的参考标准，测试环境建议小型化部署。

3 安装部署

Zabbix 安装方式主要是两种：1 、 yum 源安装 2 、 zabbix 源码安装，安装方法互联网上搜索非常多，这里就不再阐述。主要安装组件：PHP 、 Apache 或 Nginx 、 Mysql 、 Zabbix 软件包。

4 windows 系统状态监控

本节介绍实现对 windows 系统状态监控。使用zabbix 3.4版本，一起了解学习zabbix监控数据采集过程，这样对我们自定义监控项非常有帮助，提供方法扩展思路。诚然zabbix 5.0 版本等高版本，许多监控项已经被zabbix agent集成，但那并不利于初学者学习与实践。

通过在被监控主机上，部署安装 zabbix_agent ，实现事件查看器监控、 CPU 监控、内存监控、磁盘读写监控、磁盘容量监控、网卡流量监控、系统时间监控、系统进程和服务监控。

考虑到公司使用的服务器目前多数为 windows server ，对于个别服务器安装了PC 操作系统不深入研究，经测试 Windows 版本支持情况如下表：
4.1 windows 部署 zabbix_agent
为了监控 window 系统，首先需要在该系统下部署 zabbix_agent 代理，用于收集该系统信息。

自研程序包列表：
4.1.1 解压安装

Zabbix agent 的原始文件为 zabbix_agents_3.4.6.win.zip ，一般部署是：解压在 window 服务器 C 盘根目录下，再改写 conf 下的配置文件。为了部署方便快捷，现提供已经配置成熟的 zabbix 目录，直接复制 zabbix 目录到 window 服务器的 C 盘根目录下，最后进行程序安装和启动。因此，涉及 C:zabbixscriptconfzabbix_agentd.win.conf 文件的均可以忽略，供学习与交流。

cmd 或 powershell 下安装和启停命令如下：
cd C:zabbixbinwin64
.zabbix_agentd.exe -c C:zabbixconfzabbix_agentd.win.conf -i 安装
.zabbix_agentd.exe -c C:zabbixconfzabbix_agentd.win.conf -s 启动
.zabbix_agentd.exe -c C:zabbixconfzabbix_agentd.win.conf -x 停止

4.1.2 添加端口

Windows 防火墙需要添加端口的出站和入站规则，将 TCP 协议 10050 、 10051 端口开放。不然 zabbix 主动或被动模式就获取不到该设备的数据。10050 10051 是 zabbix 程序使用端口。

4.1.3 配置自启动

Zabbix agent 安装过程中，会自动将 zabbix agent 服务、开机自启动配置好，只需要检查下， agent 是否正常运行即可。

4.2 windows 事件查看器监控

对 windows 系统下事件查看器中系统日志进行监控和信息获取，将事件查看器中的错误（ Error ）、关键（ Critical ）等系统、程序重要信息打印在 zabbix 界面中，也可以添加监控项，触发器来针对某个信息实现告警。例如：当事件查看器中，有磁盘坏块告警信息时， zabbix 界面会进行告警提示。或是配合研发部门程序日志，程序可将告警信息写入到事件查看器中，zabbix 对其进行监控告警。

4.2.1 zabbix 官网指导说明

https://www.zabbix.com/documentation/3.4/manual/config/items/itemtypes/zabbix_agent/win_keys

截图如下：

4.2.2 创建监控项
类型：必须是 zabbix 客户端（主动式）
键值：参考 zabbix 官方文档，例子

eventlog[System,“Critical|Error”] 将事件查看器中 “ 系统 ” 栏中 “Critical|Error” 类型的信息过滤出来

eventlog[System,“Error”,".Disk."] 事件查看器中 “ 系统 ” 栏中 “Critical|Error” 类型的信息过滤，并使用正则表达式匹配详细信息中的来源：Disk 的关键字

eventlog[Security,“Success Audit”,^4624$,skip].nodata(60)}=0 and

eventlog[Security,“Success Audit”,^4624$,skip].regexp(administrator,1)}=0

如果在 60 秒内有监控到数据，并且监控内容不包含字符串 “administrator” 则触发告警，如果 60 秒内没有新的数据了，则触发器恢复 OK 。简单点说就是，用户登录后触发器触发至少会持续 60 秒，如果用户不断的登录成功，间隔小于 60 秒，则触发器一直是 problem 状态。

应用集：Event 事件日志

4.2.3 创建触发器
名称：{HOST.NAME} 代表主机名

表达式：添加 “ 最新一条日志级别不等于 N” ， N 取值是 0 、 1 或其他， 0 表示正常， 1 和其他值表示不正常。所以 N 取值不等于 0 ，触发告警。

4.2.4 事件查看器注意事项

系统：System 安全：Security

级别：错误（ Error ）、关键（ Critical ）、信息（ Information ）等，参考 zabbix 官网指导说明

来源：一定要看详细信息中的 Provider Name ，次截图上，详细信息与常规来源不一致，一个是 Microsoft-Windows-TerminalServices-Printers ，一个是 TerminalServices-Printers 。容易导致正则匹配出错，建议使用含有匹配的方式。

4.2.5 监控结果

4.3 windows 系统 CPU 监控

4.3.1 监控 CPU 使用率

因为 zabbix 未提供能查看 cpu 使用率的监控项，只提供了 cpu 负载的监控项，就需新增建监控项，监控 CPU 用户使用率与其类似，不再说明。（zabbix 3.4版本）

4.3.2 创建监控项

名称：CPU 使用率

键值：为了规范命名 cpu_time

信息类型：浮点数

更新时间：1m

单位：%

应用集：CPU 状态

4.3.3 创建触发器
名称：CPU 使用率过高：{HOST.NAME}

表达式：{Windows Server Model:cpu_time.avg(5m)}>90 5 分钟均值大于 90% 告警

最后行添加

1、#CPU 使用率
PerfCounter=cpu_time,“Processor(_Total)% Processor Time”,60
2、#CPU 用户使用率
PerfCounter=cpu_usertime,“Processor(_Total)% User Time”,60

注：cpu_time 为 zabbix 界面上监控项配置的键值，虽然可以自定义，但要规范命名。
60 为数据更新时间，单位秒，要小于等于 zabbix 界面上监控项配置 “ 更新时间 ” ，这样才有更新的意义。

配置完成后，重启 zabbix_agentd 生效

cd C:zabbixbinwin64
.zabbix_agentd.exe -c C:zabbixconfzabbix_agentd.win.conf -x
.zabbix_agentd.exe -c C:zabbixconfzabbix_agentd.win.conf -s

4.3.6 监控结果

4.4 windows 系统内存监控

应用集：Memory 内存状态

Memory 内存状态主要监控项有：Memory 内存使用率、 Memory 内存使用量、 Memory 内存总量（带上 Memory 方便了排序归类）。Swap 交换分区使用率、 Swap 交换分区使用量、 Swap 交换分区总量。

zabbix 自带内存监控项，可以直接创建使用。

监控项配置：
说明：windows 系统下没有支持 system.swap.size[pused] ， swap 使用率监控项，一般 swap 分区被使用了，就可以说明物理内存不足，可以使用 pfree 替代。

4.4.1 创建监控项

以监控内存使用率为例：
名称：内存使用率

键值：vm.memory.size[pused]

其他键值：vm.memory.size[used] vm.memory.size[total]

信息类型：浮点数

更新时间：1m

单位：%

应用集：Memory 内存状态

4.4.2 创建触发器
名称：内存使用率过高：{HOST.NAME}

表达式：{Windows Server Model:vm.memory.size[pused].avg(5m)}>90 5 分钟均值大于 90% 告警

4.4.3 配置图形
4.4.5 监控结果
4.5 windows 磁盘读写监控

Windows 下磁盘监控，可以细分到监控各个磁盘数据如 C 、 D 、 E 等，目前未想到到自发现规则配置，就对所有磁盘进行监控取总体值，以总体值为例进行监控配置。

细分：

LogicalDisk(E:)Disk Write Bytes/sec

LogicalDisk(C:)Disk Write Bytes/sec

LogicalDisk(D:)Disk Write Bytes/sec

LogicalDisk(_Total)Disk Write Bytes/sec

总体：

PhysicalDisk(_Total)Disk Read Bytes/sec

4.5.1 创建监控项

磁盘读写监控项较多，配置监控项如下图：
键值：

disk_read_speed 、 disk_write_speed 、 disk_free_percent 、 disk_rw_percent 、 disk_rw_percent 等。

C:zabbixscriptconfzabbix_agentd.win.conf 文件配置为：

Disk 磁盘读速率 Bytes/s
PerfCounter=disk_read_speed,“PhysicalDisk(_Total)Disk Read Bytes/sec”,60

Disk 磁盘写速率 Bytes/s
PerfCounter=disk_write_speed,“PhysicalDisk(_Total)Disk Write Bytes/sec”,60

Disk 磁盘空闲状态百分比
PerfCounter=disk_free_percent,“PhysicalDisk(_Total)% Idle Time”,60

Disk 磁盘读和写总共用时百分比
PerfCounter=disk_rw_percent,“PhysicalDisk(_Total)% Disk Time”,60

Disk 磁盘读用时百分比
PerfCounter=disk_read_percent,“PhysicalDisk(_Total)% Disk Read Time”,60

Disk 磁盘写用时百分比
PerfCounter=disk_write_percent,“PhysicalDisk(_Total)% Disk Write Time”,60

Disk 磁盘平均读写队列长度
PerfCounter=disk_queue_length,“PhysicalDisk(_Total)Avg. Disk Queue Length”,60

Disk 磁盘平均读队列长度
PerfCounter=disk_read_queue_length,“PhysicalDisk(_Total)Avg. Disk Read Queue Length”,60

Disk 磁盘平均读队列长度
PerfCounter=disk_write_queue_length,“PhysicalDisk(_Total)Avg. Disk Write Queue Length”,60

4.5.2 配置图形
Disk 磁盘读写用时百分比：选择

Windows 系统监控模板 : Disk 磁盘读用时百分比

Windows 系统监控模板 : Disk 磁盘写用时百分比

Windows 系统监控模板 : Disk 磁盘读和写总共用时百分比

调整线条以及颜色

4.5.3 监控结果
4.6 windows 磁盘容量监控

Zabbix 自带监控模板，在自动发现规则 Mounted filesystem discovery 已经配置。可用来来监控 CDEF 等分区容量。可以改成中文易读。如下图：
4.7 windows 网卡流量监控

Zabbix 自带监控模板，在自动发现规则 Network interface discovery 已经配置。

需要过滤掉不需要监控的端口，只显示真实的网卡流量，在 zabbix 界面，管理 - 一般 - 正则表达式中找到 Network interfaces for discovery 项，添加过滤规则。例如：
4.8 windows 系统时间监控

需要创建两个监控项，一个是绝对时间用于触发器告警，另一个是易读时间显示。通过获取到被监控系统时间与 zabbix server 做时差比较，超过 10 分钟告警。

4.8.1 创建监控项
键值：system.localtime[local] 易读时间

键值：system.localtime[] 绝对时间

4.8.2 创建触发器
名称：与 zabbix 主机时差超过 10 分钟：{HOST.NAME}

表达式：{Windows Server Model:system.localtime[].fuzzytime(600)}=0

4.9 windows 系统进程监控

Windows 的进程或程序监控，是通过监控进程数量，以此为状态标志位来判断进程是否已停止运行。

当最新进程数为 0 时，判断进程已停止运行；当 5 分钟内，平均值大于等于 1 时，恢复触发器，判断进程已恢复运行；当最新进程数不为 0 时，判断进程正在运行。

下面以监控 Xshell.exe 程序，运行进程为例，来创建实施监控。

4.9.1 创建监控项
键值：proc.num[Xshell.exe]

Zabbix 官网样例 proc.num[,]

信息类型：数字（无正负）方便看图形，标志位

更新间隔：1m 1 分钟同一规定

注：windows 下只支持进程名和用户名称

4.9.2 创建触发器
名称：Xshell 程序已停止运行：{HOST.NAME}

问题表现形式：{Windows Server Model:proc.num[Xshell.exe].last()}=0

恢复表达式：{Windows Server Model:proc.num[Xshell.exe].avg(5m)}>1 or {Windows Server Model:proc.num[Xshell.exe].avg(5m)}=1

转自@TWT社区~

[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
为什么你的服务器总被攻击？运维老兵的深度分析
作为运维人员，最头疼的莫过于服务器在毫无征兆的情况下变得异常缓慢、服务中断，甚至数据泄露。事后查看日志，常常发现一些“莫名其妙”的攻击痕迹。为什么服务器会成为攻击者的目标？这些攻击又是如何悄无声息发生的？今天，我们就从实战角度分析几种常见且容易被忽视的攻击模式，并教你如何通过日志分析初步定位问题。一、服务器被攻击的常见“莫名其妙”原因“扫楼式”探测与弱口令爆破：现象：服务器CPU、内存无明显异常，
如何在Windows系统下使用Dockerfile构建Docker镜像：完整指南 996蹲坑 windows docker 容器
前言Docker作为当前最流行的容器化技术，已经成为开发、测试和运维的必备工具。本文将详细介绍在Windows系统下使用Dockerfile构建Docker镜像的完整流程，包括两种镜像构建方式的对比、Dockerfile核心指令详解、实战案例演示以及Windows系统下的特殊注意事项。一、Docker镜像构建的两种方式1.容器转为镜像（不推荐）这种方式适合临时保存容器状态，但不适合生产环境使用：#
2025年网络安全人员薪酬趋势程序员肉肉 web安全安全网络安全计算机信息安全程序员
2025年网络安全人员薪酬趋势一、网络安全行业为何成“香饽饽”？最近和几个朋友聊起职业规划，发现一个有趣的现象：不管原来是程序员、运维还是产品经理，都想往网络安全领域跳槽。问原因，答案出奇一致——“听说这行工资高”。确实，从2025年的数据来看，网络安全行业的薪资水平不仅跑赢了大多数IT岗位，甚至成了“技术岗里的天花板”。但高薪背后到底有哪些门道？哪些职位最赚钱？城市和经验如何影响收入？今天我们就
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
Oracle EMCC 13.5 集群安装部署指南 Lucifer三思而后行 DBA 实战系列 oracle 数据库
大家好，这里是DBA学习之路，专注于提升数据库运维效率。目录前言第一阶段：OMR集群部署1.1OracleRAC环境准备1.2数据库版本验证1.3EMCC专用数据库优化第二阶段：ACFS集群文件系统构建2.1存储层配置配置multipath多路径配置UDEV设备绑定2.2ACFS文件系统创建使用ASMCA创建磁盘组创建ACFSVolume挂载点准备和文件系统创建第三阶段：OMS集群部署3.1环境准
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
【大家的项目】helyim: 纯 Rust 实现的分布式对象存储系统
helyim是使用rust重写的seaweedfs，具体架构可以参考Facebook发表的haystack和f4论文。主要设计目标为：精简文件元数据信息，去掉对象存储不需要的POSIX语义（如文件权限）小文件合并成大文件，从而减小元数据数，使其完全存在内存中，以省去获取文件元数据的磁盘IO支持地域容灾，包括IDC容灾和机架容灾架构简单，易于实现和运维支持的特性：支持使用Http的文件上传，下载，删
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
突破传统：Dell R730服务器RAID 5配置与智能监控全解析芯作者 D2：ubuntu 服务器 linux ubuntu
在现代数据中心运维中，合理的存储配置是保障业务连续性的基石。今天，我们将深入探索DellPowerEdgeR730服务器的RAID5配置技巧，并结合热备盘策略、自动化监控脚本以及性能调优方案，为您呈现一份别开生面的技术指南。一、为什么RAID5+热备盘是企业级存储的黄金组合？RAID5通过分布式奇偶校验实现数据冗余，允许单块硬盘故障时不丢失数据。其存储效率公式为：Efficiency=\frac{
重型机械识别漏检率高？陌讯算法实测降 35%
在重型机械作业场景中，传统视觉识别系统常面临三大痛点：大型设备遮挡严重导致漏检率超20%、金属表面反光使特征提取失效、多机型混合作业时模型泛化能力不足。某港口集团曾反馈，其基于开源YOLOv5部署的机械监控系统，在暴雨天气下误报率飙升至37%，直接影响作业调度效率[实测数据来源：某港口2024年Q1运维报告]。技术解析：陌讯算法的三重突破陌讯视觉算法针对重型机械识别的特殊性，采用了创新的"动态注意
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
DeepSeek 驱动智能交通调度：从传统到智慧的跃迁之路奔跑吧邓邓子 DeepSeek 实战 DeepSeek 智能交通调度应用
目录一、引言二、DeepSeek技术概述2.1DeepSeek简介2.2核心技术原理2.3技术特点与优势三、智能交通调度现状与挑战3.1智能交通调度系统构成3.2现存问题与挑战四、DeepSeek在智能交通调度中的应用4.1交通流量预测与优化4.2智能信号灯控制4.3公交智能排班与调度4.4地铁智能运维与调度4.5交通枢纽智能管理4.6事故预防与应急响应五、应用案例分析5.1某省会城市交通优化案例
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Ceph集群管理实战 wespten OpenStack vSphere 虚拟化云平台 SDN 数据库存储块存储文件存储对象存储分布式网络存储 linux 运维服务器
配置完Ceph集群后，我们即可对Ceph集群进行数据存储。在后续使用过程中，Ceph提供了常用的命令对Ceph集群进行必要的运维。常见的集群状态查看、磁盘使用率查看、添加磁盘、删除坏盘等操作。详情可参考：WelcometoCeph—CephDocumentation1、Ceph的常用命令本节给出的Ceph常用命令可以作为最基本的集群运维命令。1）查看集群状态命令。[root@installer~]
@RefreshScope 注解深入解析
1.引言随着微服务架构的日益普及，应用程序的配置管理变得越来越复杂。在传统的单体应用中，配置通常是静态的，任何配置的更改都需要重启整个应用程序才能生效。然而，在由众多独立服务组成的微服务环境中，频繁的服务重启不仅会影响系统的可用性，还会增加运维的复杂性。为了解决这一挑战，动态配置管理应运而生，它允许在运行时修改和加载配置，而无需中断服务。SpringCloud作为一套基于SpringBoot的微服
【云服务器安全相关】堡垒机、WAF、防火墙、IDS 有什么区别？ weixin_44329069 云服务器安全相关服务器安全 php
目录✅一句话总结：️1.堡垒机：对“自己人”看的最严2.WAF（Web应用防火墙）：保护你的网站不被攻击3.防火墙：基础“门卫”，管谁能进来、谁能出去4.IDS/IPS：入侵检测系统/入侵防御系统✅通俗类比：✅它们并不重复，而是分工协作！✅一句话总结：安全工具主要功能拦截对象应用层级举例堡垒机审计、管控内部人员登录服务器行为内部管理员运维通道（SSH、RDP）记录操作命令WAF防御网页攻击（如SQ
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Netstat高级分析工具：Windows与Linux双系统兼容的精准筛查利器
Netstat高级分析工具：Windows与Linux双系统兼容的精准筛查利器在网络安全运维中，快速识别可疑连接是防御入侵的关键一步。本文将介绍一款我本人开发的原创高效的双系统兼容Netstat信息分析工具，大幅提升恶意连接筛查效率。一、Netstat分析在安全运维中的核心价值作为网络安全工程师，我们每天都需要处理大量网络连接数据。netstat-ano命令是分析网络连接的基础工具，但在实际工作中
【实战总结】WMIC在HW行动中的4类关键应用
WMIC命令完全指南：网络安全运维工程师的深度实践手册关键词：WMIC命令、Windows管理、网络安全运维、系统信息收集、进程分析、自动化审计【实战总结】WMIC在HW行动中的4类关键应用1.前言在Windows环境下的网络安全运维中，WMIC（WindowsManagementInstrumentationCommand-line）是一个强大但常被低估的管理工具。它通过WMI（WindowsM
Oracle 数据库管理与维护实战指南（用户权限、备份恢复、性能调优）白仑色 Oracle系列数据库 oracle 数据库管理性能调优备份恢复
关键词：Oracle用户权限管理、冷热备份、RMAN备份、AWR报告、SQL调优、等待事件分析✅摘要在企业级Oracle数据库运维中，用户权限管理、数据备份恢复机制、性能监控与调优是保障系统安全、稳定和高效运行的三大核心任务。本文将围绕以下内容进行详细讲解：用户与权限管理：创建用户、角色、授权与回收权限备份与恢复策略：物理备份（冷/热）、逻辑备份（EXP/IMP）、RMAN工具使用性能监控与调优：
深度解析：SUSE Harvester私有云平台建设指南
关键词:SUSEHarvester,私有云,HCI,超融合,Kubernetes,KubeVirt,Longhorn,云原生,虚拟化,容器目录导航一、初识SUSEHarvester-私有云的新选择二、核心架构解析-揭开HCI的神秘面纱三、部署实战-从零到一搭建你的私有云四、存储与网络配置-数据的安全港湾五、虚拟机管理-让资源调度更智能六、监控与运维-保驾护航的守护者七、最佳实践-踩坑经验分享八、总
腾讯云认证考试报名 - TDSQL数据库交付运维专家(TCCE MySQL版) m0_65303136 数据库腾讯云运维
数据库交付运维专家-腾讯云TDSQL(MySQL版)适合人群：适合TDSQL(MySQL版)各组件扩缩容、运维、性能优化、故障解决、压力测试等数据库开发、运维、管理人员。认证考试：单选*40道+多选*20道+上机*20道考试时长：理论考试120分钟,上机考试480分钟（理论考试通过后6个月内预约并完成上机考试）成绩查询：理论和上机成绩均达到70分及以上通过认证，官网个人中心->认证考试查询考试费用
运维工程师发展路线 SZHCI 运维
一、运维工程师发展路线1.传统运维侧重点是解决具体的问题。要求具备扎实的底层的知识储备，如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验，能够快速解决问题，实施变更。能够处理突发故障，顺利完成服务的部署，变更的实施。2.云计算运维侧重点是开源技术方案的使用，为云服务的稳定提供保证。随着业务不断发展，服务器规模扩大，就需要具备大规模服务器的批量管理能力。要求对开源技
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

系统学习 Zabbix 系统监控（一）

1 介绍

2 指标

3 安装部署

4 windows 系统状态监控

你可能感兴趣的:(zabbix,运维)