马哥教育

从 0 到 1000+ 台服务器监控的构建之路

来源：民工哥技术之路

ID：jishuroad

作者：顾凯

AdMaster精硕科技是中国领先的独立第三方营销大数据解决方案提供商，也是目前国内的独立第三方DMP（大数据管理平台）平台。目前，AdMaster已经为快消、IT、汽车等多个行业80%的世界100强品牌及众多国内知名品牌提供数据服务，杜蕾斯、宝洁、卡夫、雅诗兰黛、可口可乐、伊利、联合利华、麦当劳、微软、东风日产等大家耳熟能详的品牌都在使用精硕科技的数据服务。

云智慧有幸邀请到精硕科技运维总监顾凯先生，为大家带来《从几台到几千台的运维经历》精彩分享：

从入职到AdMaster以来历时五年多，经历了公司从几十台到几千台服务器的飞速增加阶段，目前AdMaster每天增长量数据量超过5T，每天请求数超过100亿，每天计算超过1000亿条记录，每天计算任务数超过10万个，1000亿记录的秒级查询，100万级的QPS。

多年以来一直以稳定运行为前提，确保业务永不掉线，带领运维团队自主开发了运维系统，包含，资产管理，工单管理，监控系统，域名管理，公有云管理，私有云管理等平台，并将运维数据进行分析整理，将运维工作透明化，可视化。

这次主要给大家介绍一下从几十台到几千台服务器的运维过程中，监控系统的变迁经历。常说一千个人心中有一千个哈姆雷特，一千个运维的心中有一千种运维的方法，没有一个方法是万能的、可以适用所有的场景，具体问题还得具体分析，我将这五年的经历大致分了三个阶段：

第一阶段：200台以下

第二阶段：200~1000台

第三阶段：1000+（1000以上和2000以上没啥区别了）

每个阶段的分界点也不是那么精确的，就是一个大概的时期，变化都是一个逐渐的过程。

一、机器数量小于200台的阶段

这个时期需求简单，主要用于通知问题、快速定位解决问题，大致总结一下，主要需求就三点：

1. 简单，易用；

2. 稳定运行；

3. 能够报警，邮件，短信。

基于以上需求，可以使用比较流行开源的监控软件Nagios，Cacti，Zabbix，Ganglia，etc。流行的开源产品有较多的文档，可快速上手，并且有大量的前人使用经验，可以避免许多问题，即使遇到问题也容易找到解决办法。其中邮件报警一般是都支持的，短信需要自己对接一下短信平台。

我们在早期的时候选择了Nagios和Cacti，选择Nagios主要是个人原因，我最熟悉，使用Cacti是因为对交换机的监控特别方便，几乎是傻瓜式的。其实在这个阶段，不管是哪一个监控产品，基本都可以满足需求，选择的因素还是看个人喜好，这个时期运维同学是可以偶尔任性一下的。

二、机器数量200到1000的阶段

这个时期，需求开始变得复杂，不过主要还是用于通知、告警，避免同样的问题再次发生，我在这个时期主要做了以下事情：

1. 统一监控内容：将基础监控进行统一，默认每个机器都包含CPU，内存，磁盘空间等基础信息监控；

2. 覆盖式监控：将所有机器均纳入监控，除去基础监控以外，最重要的当属业务监控，尽可能的覆盖业务流程，通过自定义监控减少和去除重复的问题，保障业务稳定运行。

3. 及时通知，确保无漏报：将所有监控分类，根据重要程度、紧急程度等，分别用邮件，微信，短信，电话等不同级别的方式通知，确保每个监控都有人处理，并且对于重要的业务采用call死你的方式，不处理就一直通知。

在这个时期对Nagios进行了深入的研究，编写自定义脚本、大量增加各种监控项，将Nagios大部分的插件如nrpe、nsca和功能充分使用。

随着机器越来越多，需要监控的服务也越来越多，告警信息出现爆发式增长，每天收到上千封报警邮件。有个小插曲，我应该是第一个将腾讯企业邮箱撑爆的人，不是容量撑爆了，是邮件的数量超过了他们数据库的最大值，导致我在一周内没办法收发邮件，也没办法删除。

这个阶段的后期，也就是快接近1000台机器的时候，Nagios的监控功能已经无法满足需求了，并且Nagios图形功能总是捉襟见肘，于是开始思考超过1000台的情况了，摆在面前的路有两条：

1. 根据自己的需求继续深度开发Nagios；

2. 自建监控。

这时候有些朋友会想：换一个别的开源监控就能解决了。使用开源软件的最大问题就是，这个软件有什么功能你才能用什么功能，没有的功能要么自己开发，要么放弃使用，大量报警只是一个改变的转折点，经过长时间的使用和积累，通用的、普适的开源监控产品已经不能完全满足庞大复杂的需求了。

经过很长一段时间的慎重考虑，我决定自己搞一套监控系统，其实也是因为之前深入了解Nagios的整体架构和运作模式，觉得自己做一套也不是不可能的。

三、机器数量超过1000台的阶段

经过前期的思索和准备，到这个阶段开始开发自己的监控系统，解决痛点，完成需求，主要有几个事情：

1. 具备目前在用的Nagios所有功能：比照Nagios去做，覆盖原来的功能，并针对Nagios的问题进行优化改进，然后在替代了Nagios之后再升级。（第一步最重要了，如果连之前的Nagios的功能都不能替代，自建之路只能在这里就停下了。）

2. 将告警进行整理，化繁为简，减少重复告警：当出现轰炸式告警信息之后，如果不进行及时整理势必会将真正需要处理的事情耽误，并且由于某些原因，比如线路问题，会发生重复告警，所以必需要将告警信息进行处理再发出，预警信息由之前的每天3000+，下降到现在每天300以内。

3. 分离告警和显示：前面的监控系统，基本上告警功能和显示功能均在一起，不同机房的信息也需要汇总在中心节点后统一显示和告警。重要的告警的处理是分秒必争的，也跟界面显示无关，所以我在设计的时候将显示和告警功能进行了一次分离，在本地机房进行报警，然后再集中展示。

4. 分布式部署，避免单点：每个机房设置一个分节点，就是上面说的报警节点，设置一个中心节点，先在各个机房告警，然后汇总在中心展示。分节点与中心节点互备，通过智能DNS进行切换，如中心节点宕机，DNS自动切换到一个分中心节点，分节点升级为中心节点。

分布式节点切换示意图

总结

自建监控系统的好处就是可以充分利用数据、组合数据、分析数据、解释数据，将晦涩难懂的数据解读成人人能懂的数据，让产品人员、销售人员、老板统统明白当前的业务状态是怎么样的。最后给大家展示两个我们自建监控系统中分析后展示的数据：

这个图显示了全国各省访问Track系统的情况，不仅包含了速度，访问的数据中心，还能显示是否出现域名劫持等信息。当然靠自己的监测节点是得不到这么多这么全的监控数据的，这时候需要云智慧的“监控宝”出面帮忙了，我们使用监控宝的全国200多个节点，将检测数据通过API回传，再整理分析、反馈在图上。交换机的流量之前使用的是Cacti，交换机多了之后查找起来简直是个庞大的任务，针对这个需求痛点，我们的监控系统支持了交换机监控，除了基础的CPU等信息外，专门在流量上花了点心思。

通过上图可以一目了然的看到当前交换机之间的速度情况，流量都来自哪里，有多少。

这张图可以看到哪里流量达到了预警值，哪个交换机出现了问题，在快速定位处理上提供了很大的便利。

最后，每个公司的需求不一样，每个运维面对的痛点也不尽相同，不管有多少变化，万变不离其宗，有了机器上的各种监控数据，就可以组合分析出你想要的结果，自建的路上，我们才刚刚开始，keep moving！谢谢大家！

QA部分

问：这个底层还是nagios吗？

答：不是了，完全都是自己从头写的，借鉴了nagios的思路，但是采集的方法，汇总处理的方法不一样了。

问：数据库这块有监控么？还是交由专门的dba负责？

答：我们没有单独针对对数据库的监控，还是调用别人的监控脚本，然后获取数据。

问：你们在业务监控上都做了那些工作？

答：业务监控我们也有一些，给大家发个图：

这个是我们的业务监控，将所有的监控数据用文字进行描述，让产品、业务同学以及老板都知道现在是什么情况。

问：这么大的数据收集量，数据库端有做特殊的优化吗？异步处理？

答：是异步的，这个业务系统是放在大屏上展示的，出了问题时不用来研发和运维这边询问，就能直接看到哪里出了问题，也知道具体找谁询问恢复情况。

问：这个监控对资源的消耗有多大？

答：还好，集中展示处理数据的时候遇到过一些瓶颈，不断在优化。

问：智能DNS系统是自己开发的吗？

答：智能DNS我们用了第三方的，自己的也有。

问：请问下你们数据库是MySQL集群么？

答：MySQL的主从，将报警和展示分开还有一个原因，就是担心性能问题。展示可以慢几秒钟、几分钟，但报警不可以，所以报警是即时的，并且不用担心监控机器挂了就会变成瞎子。我们目前有6个节点分布在全国，全挂掉的几率很小，只要有一台活着就可以报警。

问：这个精确值是秒吗？

答：秒级的，最慢的通知是电话，需要十几秒。

问：你们现在只用了监控宝吗？透视宝有没有在用呢？

答：透视宝正在研究。

问：交换机获取的什么指标？

答：CPU，内存，警告信息，流量，端口。

问：再请教下阿里云的服务器性能是不是比自己托管服务器差很多？

答：目前公司用的阿里云自建数据库，性能有很大问题，云服务的IO普遍存在问题，阿里最严重。

问：业务监控怎么做的？

答：业务监控其实跟透视宝类似，只不过没有做到那么细粒度。

问：是在程序里埋点吗？

答：不在程序里埋点，就是利用监控数据实现的，所以只能做到现象级别，不能做到代码级。

问：是监控日志？还是CPU这些？

答：不是CPU了，针对程序是否正常运行的一些综合判断，业务监控看到的一项，后面可能对应了十几个监控，还有一些逻辑判定，主要是将人的分析模式变成了自动的。这个跟公司业务有关，有的是API、有的是程序，不同业务也不一样，还有响应速度等。

问：公司有几个运维？

答：算上我一共8个人，这个图是我们自己开发的平台。

问：运维每天工作怎么划分的，分产品吗？

答：早期分产品，第二阶段自动化作完之后，基本上随意了，都通过工单系统来完成，常规的工单审批结束后自动上线，不需要运维参与。

问：有没有一堆业务统计需求？

答：有，需求由我来分配，经常需要统计的需求我们会做好了，直接给他们看系统取数。

问：私有云用的什么工具？

答：基于kvm做的开发，早期用gopstack、openstack，后来发现太重了。简单理解一下私有云，就是kvm 自动化。

问：你们物理机都大概什么配置？

答：最低配也是双6核，64G。

问：你们可视化后是什么样子，是工单吗？

答：将运维可视化的原因其实还有一个就是别人不理解运维，不知道运维在干什么，经常被误解为安装系统、执行脚本的。可视化就是将大家重点关注的展示出来，用运维的数据教育他们，工单是所有运维操作的起点，也是避免背锅扯皮的利器，工单系统其实是我最花心思设计的系统，工单的流程，尤其是审批。遇到滥用工单的情况，能气死你。

问：有没有碰到过服务器正常、中间件和数据库也正常，而线上业务突然失效的情况？

答：你这个可能需要透视宝。

问：透视宝可以监控网络出口带宽的拥堵吗？

答：透视宝主要是做应用性能监控的，透视宝就像是应用系统的CT扫描仪，能够采集实际用户移动端和浏览器端体验性能数据、服务器上运行的应用环境、数据库访问、应用代码的执行性能数据，然后利用大数据技术把采集到的数据进行快速诊断分析，发现影响应用性能的“病灶”，并给出诊断建议，网络环节的监控是由监控宝完成的，二者结合可以真正实现从用户端到服务端的全链路服务监控和问题诊断。

问：突然失效是什么意思，前端代理有报错吗？有需求就下掉？

答：比如一个功能运作正常，突然点了没反应，代码没有任何报错，过一段时间又恢复了，日志都正常没征兆，但就是找不到原因，CPU、内存这些都正常，网络流量也没有波动，连接数也是正常范围。

问：大家有没有碰到过内网问题导致的业务失效？

答：透视宝应该可以帮到你，透视宝做的很细。透视宝是可解决内部的问题，监控宝可以解决外部的问题，结合起来就ok了，可以检查下交换机，看是不是有SFP网络震荡，这个我遇到过。

问：sfp网络震荡是什么？如果网络问题，那应该其他所有都有影响吧？

答：网络震荡就是交换机重新学习mac地址，导致短时间内网络不通。

问：网络震荡是什么原因引起的？

答：专业的解释是由于报文变化或者定时器超时，反复触发重计算，会一直持续在根桥选择、端口角色切换、端口状态迁移三个过程，常见的原因有：

链路故障：网络上某个端口的链路属性，如端口状态、速率和双工模式等持续变化；

节点故障：单个交换机CPU较高，无法在定时间隔内发送或处理STP报文；

网络故障：网络发送拥塞，导致根端口方向的STP报文在转发过程中被丢弃；L2PT透传了其他网络的STP报文，造成本端STP误收敛；网络上错误的配置了组播抑制功能，偶尔丢弃STP报文。针对不同的故障原因，需要修改配置或者优化网络设计，解决震荡问题。

简单的说，一个模块出现问题、一根网线出现问题，导致频繁的up down几次，就会出现网络震荡。

问：碰到这种问题不会报警吗？特征就是短时间内网络不通？大概有多久，顾总是怎么发现的？

答：单看交换机的话会被认为误报，结合业务发现不是，我们的大数据集群增长过程遇到的问题，看你怎么设置阈值了，常规的不会报。我针对这个作了特殊的监控，端口发现不出来，交换机常规日志里也没有，有个特殊的日志记录的，一下想不起来了（能否补充？）

问：端口单双工和速率变化呢？交换机日志还没收集？

答：没有改变，ELK作交换机日志收集处理。

ServerStatus牛逼！！架构文摘JGWZ 学习工具开源软件
作为一名攻城狮，面对各种服务器内存飙高、CPU猛增、磁盘打满等等服务器问题，可谓是伤透了我们的心。不仅要开发，还要处理这些问题，大把的时间浪费了，这时候一个好的全面的监控工具尤为重要了。所以，带着这个问题，为大家一个酷炫高逼格的服务器探针的监控工具：ServerStatus介绍ServerStatus是一个免费开源的监控工具，并且提供了一个直观的Web页面，极大的方便了开发人员。特性实时监控，如在
如何利用 AI 技术快速定位和修复生产环境问题 pytorch人工智能
摘要生产环境的问题往往难以复现，排查成本高，直接影响用户体验。传统的日志分析、异常监控、APM（应用性能监控）等方法已经被广泛使用，但随着AI技术的发展，我们可以进一步自动化问题检测、智能日志分析、异常根因分析，极大提高生产问题的排查效率。本文将探讨如何利用AI技术优化生产环境的排查流程，并提供实际可运行的示例代码，帮助开发者掌握AI赋能下的智能问题诊断方法。引言生产环境的稳定性是衡量一个系统可靠
健康养生：开启高品质生活之门 yy0821yy 生活
健康是人生最宝贵的财富，而养生则是守护健康的智慧之选。在快节奏的现代生活中，掌握健康养生之道，能让我们精力充沛地面对每一天。饮食养生首当其冲。我们应追求均衡饮食，确保每餐都有适量的碳水化合物、蛋白质、脂肪、维生素和矿物质。主食多选择粗粮，如燕麦、玉米等，它们富含膳食纤维，能促进肠道蠕动。优质蛋白质来源包括豆类、鱼类、鸡胸肉等，它们是身体修复和生长的基石。减少高油、高盐、高糖食物的摄入，多吃新鲜的蔬
Python进行DevOps实践黑夜照亮前行的路 python devops 开发语言
使用Python进行DevOps实践可以涉及多个方面，从自动化部署、配置管理、监控到日志分析等等。下面是一些具体的方法和实践，展示如何使用Python在DevOps环境中进行工作：1.自动化部署使用Python编写自动化部署脚本，可以极大地提高部署效率。例如，可以使用fabric或paramiko等库来远程执行命令，或者使用Ansible这样的自动化工具，它本身使用Python编写，并提供了丰富的
Dubbo、SpringCloud框架学习种豆走天下 dubbo spring cloud 学习
学习Dubbo和SpringCloud框架是微服务架构的一个重要部分。这两个框架在分布式系统中起着重要的作用，分别是阿里巴巴和Spring团队开发的。下面我将为你提供一些基础知识和学习路线，帮助你更好地理解和掌握这两个框架。1.Dubbo框架学习1.1什么是DubboDubbo是阿里巴巴开源的一款高性能的微服务框架。它提供了RPC（远程过程调用）、服务注册与发现、负载均衡、容错、监控等功能。Dub
Spring AOP、Java Agent 与 ASM 的作用和区别潇凝子潇 java spring 后端
SpringAOP、JavaAgent与ASM的作用和区别1.作用技术作用典型应用场景AOP通过分离横切关注点（如日志、事务、权限），在方法调用前后动态注入代码，实现非侵入式功能增强。SpringAOP（基于动态代理）、AspectJ（编译时/运行时增强）JavaAgent基于JVM的InstrumentationAPI，在类加载时或运行时修改字节码，支持对全量类的监控或增强。性能监控（如APM工
【商城实战(38)】Spring Boot：从本地事务到分布式事务，商城数据一致性的守护之旅奔跑吧邓邓子商城实战 spring boot 分布式本地事务分布式事务商城实战
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【商城实战(37)】Spring Boot配置优化：解锁高效商城开发密码奔跑吧邓邓子商城实战 spring boot 后端 java 商城实战配置优化
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【商城实战(36)】UniApp性能飞升秘籍：从渲染到编译的深度优化奔跑吧邓邓子商城实战 uni-app 商城实战性能优化
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
kubernetes集群监控 Kube-Prometheus-Stack xiaojinran k8s prometheus docker 运维 kubernetes prometheus 容器 grafana
kubernetes集群监控概述Kubernetes（K8s）集群监控是指对Kubernetes集群中的各个组件和资源进行实时监测和数据收集，以获取对集群健康状态、性能指标和事件的可视化和告警。Kubernetes集群监控的内容通常包括以下几个方面：基础设施监控：监控物理服务器、虚拟机或云实例的资源使用情况，包括CPU、内存、磁盘和网络等指标。这可以帮助确保集群的底层基础设施正常运行，并及时发现资
kube-prometheus-stack部署prometheus全栈监控k8s 时空无限 Kubernetes kubernetes
添加源helmrepoaddprometheus-communityhttps://prometheus-community.github.io/helm-charts更新源helmrepoupdate成功输出Hangtightwhilewegrabthelatestfromyourchartrepositories......Successfullygotanupdatefromthe"prom
prometheus-helm的使用 weixin_43806846 prometheus
1、部署Prometheus监控平台1、下载安装Prometheus（当前集群版本1.26.3）gitclonehttps://github.com/prometheus-operator/kube-prometheus.git-brelease-0.12安装：cdkube-prometheus/创建命名空间和crd：kubectlapply--server-side-fmanifests/set
204页数字化转型：集团企业信息化规划方案公众号：智慧方案文库精选解决方案（附下载）大数据 database
建立统一共享的信息平台，集团总部能实时监控下属单位的库存、产量、成本、资金流等关键信息，有效利用大数据技术平台为管理层提供全面、及时、准确的决策信息支持。n推动生产、销售、新业务领域的自动化、数字化、网络化、信息化、集成化，为今后打造智能制造、智慧农业奠定坚实基础；n推进IT基础设施建设与提升，采用全新的架构设计理念，建成组件化、集中化、服务化、协同化的统一云平台，提供高质量、可重用的平台服务，营
2025版自动控制流程_工业级连接_智能重连监控系统_增强型工业连接协议 ‘s Vision+Robot EPSON 资深设备全生命周期管理 python
importtimeimporttkinterastkfromtkinterimportmessageboxfromPILimportImage,ImageTkimportsocketimportthreadingfromdatetimeimportdatetimeimportloggingimportsubprocess#确保导入subprocess库importosimportpyautogu
Linux 命令学习记录 hxung 面试学习使用 linux 学习运维
Linux命令详解与进阶指南Linux是一种广泛使用的开源操作系统，掌握Linux命令是开发者和系统管理员的必备技能。本文将详细介绍Linux的常用命令，并涵盖一些高级进阶技巧，帮助你更高效地使用Linux。目录基础命令文件与目录操作文本处理系统信息权限管理进阶命令进程管理网络操作磁盘管理Shell脚本高级技巧管道与重定向正则表达式任务调度性能监控案例实战日志分析自动化部署服务器监控基础命令文件与
深入理解Spring Boot：快速构建现代化的Java应用杨凯凡 Spring spring boot java spring
大家好！今天我们来聊聊Java开发中最流行的框架之一——SpringBoot。SpringBoot是Spring生态系统中的一个重要模块，它旨在简化Spring应用的开发和部署。通过SpringBoot，开发者可以快速构建独立、生产级的应用程序，而无需繁琐的配置。本文将深入探讨SpringBoot的核心特性、自动配置、配置文件、Web开发、数据库集成、缓存、安全以及监控等内容，帮助你全面掌握Spr
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
【商城实战(23)】筑牢安全防线，防范常见漏洞奔跑吧邓邓子商城实战安全商城实战 uniapp SpringBoot Element plus SQL注入 CSRF
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
如何做好产品测试管理测试工具
做好产品测试管理的关键在于测试规划、流程标准化、数据驱动决策。其中，测试规划要求在项目初期就明确产品质量目标和测试策略；流程标准化强调建立严谨、可重复的测试流程和标准，确保每个测试环节有章可循；数据驱动决策则通过实时数据监控和反馈分析，持续优化测试方案，最终提升产品质量与用户满意度。一、产品测试管理的重要性与基本概念在软件开发和互联网时代，产品测试管理是保障软件质量、确保产品稳定交付的核心环节。产
Webpack 前端性能优化全攻略北辰alk 前端 vue 前端 webpack 性能优化
文章目录1.性能优化全景图1.1优化维度概览1.2优化效果指标2.构建速度优化2.1缓存策略2.2并行处理2.3减少构建范围3.输出质量优化3.1代码分割3.2TreeShaking3.3压缩优化4.运行时性能优化4.1懒加载4.2预加载4.3资源优化5.高级优化策略5.1持久化缓存5.2模块联邦5.3性能分析6.优化效果验证6.1构建速度分析6.2性能监控7.最佳实践总结7.1优化策略7.2持续
DevOps实践：持续集成与持续部署完全指南蜡笔小新星 devops ci/cd 运维开发语言经验分享
文章目录引言：从人工到自动化的进化革命一、CI/CD核心认知升级1.1持续集成vs持续部署vs持续交付1.2中小团队为什么要实施CI/CD？二、CI/CD工具链选型指南2.1中小团队推荐技术栈2.2工具对比决策矩阵三、实战五步构建企业级流水线3.1基础环境搭建（以K8s为例）3.2代码质量门禁配置3.3容器化构建最佳实践3.4自动化部署策略3.5智能回滚机制四、三大致命陷阱与破解之道4.1流水线变
Linux运维（七）Linux Shell脚本编程：从“Hello World”到“万能脚本大师” 带上一无所知的我运维 linux
LinuxShell脚本编程：从“HelloWorld”到“万能脚本大师”引言如果你还在用鼠标点来点去，那你可能还没体会到Shell脚本的魅力。Shell脚本就像是Linux世界的“魔法咒语”，只需几行代码，就能让系统乖乖听你的话。今天，我们从“HelloWorld”开始，一步步升级到“万能脚本大师”，让你在Linux的世界里呼风唤雨！第一章：HelloWorld！——脚本的起点1.第一个脚本创建
使用Spring Boot Admin监控和管理微服务微赚淘客系统开发者@聚娃科技 spring boot 微服务后端
使用SpringBootAdmin监控和管理微服务大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨如何利用SpringBootAdmin来监控和管理微服务，提升系统的稳定性和可靠性。1.引言随着微服务架构的流行，系统的复杂性和服务数量不断增加，监控和管理这些微服务变得尤为重要。SpringBootAdmin作为一款
解锁命令模式：Java 编程中的解耦神器编程巫师设计模式命令模式 java 开发语言
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
解锁外观模式：Java 编程中的优雅架构之道编程巫师设计模式外观模式 java 架构
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
组态软件在物联网中的应用概述 by组态软件物联网 web组态组态低代码流程图
组态软件在物联网（IoT）中的应用主要体现在以下几个方面：1.设备监控与管理组态软件通过图形化界面实时监控物联网设备的状态，如温度、湿度、压力等，并支持远程控制，帮助用户及时发现并处理异常。2.数据采集与分析组态软件能够从物联网设备中采集数据，进行存储和分析，生成趋势图、报表等，辅助用户优化系统运行。3.系统集成组态软件支持多种通信协议（如MQTT、OPCUA等），能够集成不同厂商的设备，实现统一
解锁适配器模式：代码重构与架构优化的魔法钥匙编程巫师设计模式 java 适配器模式设计模式
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
Redis缓存判断热点数据及进行数据预热的几种方式介绍 hxj.. 分布式缓存 redis 数据库热点数据数据预热
Redis缓存如何判断热点数据？热点数据计算整体来讲就是基于访问频率，可以是整体的访问次数，可以是一定时间内的频率，可以是部分请求的采样，可以借助成熟工具等，要根据业务需求来定1.基于访问频率原理：通过统计每个键的访问频率（如每秒访问次数），识别出访问频率最高的数据。实现方法：使用Redis的INCR命令或监控工具（如RedisMonitor）统计键的访问频率。统计访问频率要确保并发场景下数据操作
智慧运维与物联网技术在地铁车辆段的应用项目罗博深
本文还有配套的精品资源，点击获取简介：随着物联网技术的广泛应用，智慧运维系统通过传感器、大数据分析、云计算等技术集成，提升了地铁车辆段的运维效率和安全性。该系统可以实时监控设备状态、预测故障、提供智能决策支持、优化维护策略，并降低运营成本，同时提高乘客安全。其应用拓展至整个地铁线路，乃至与城市交通系统协同，展现了智慧运维对公共交通系统现代化的贡献。1.物联网技术基础与应用物联网（Interneto
什么是SDI信号？SDI信号的分类、特点及应用度纬仪器信息与通信
引言在视频传输领域，SDI（SerialDigitalInterface，串行数字接口）信号是一种广泛应用的数字视频传输标准。它以其高速、高保真度和低延迟的特点，在广播、电影制作、视频监控等多个领域发挥着重要作用。本文将详细介绍SDI信号是什么、分类、特点优势以及常见的应用案例。SDI信号是什么？串行数字接口（serialdigitalinterface，简称SDI）是一种用于传输高质量、未压缩的
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

从 0 到 1000+ 台服务器监控的构建之路

你可能感兴趣的:(监控,服务器监控之道,linux运维)