GLAB-Mary

【无监控，不运维！这份监控建设总结太赞了！】

运维行业有句话：“无监控、不运维”，是的，一点也不夸张，监控俗称“第三只眼”。没了监控，什么基础运维，业务运维都是“瞎子”。所以说监控是运维这个职业的根本。

尤其是在现在DevOps这么火的时候，用监控数据给自己撑腰，这显得更加必要，有人说运维是背锅侠，那么，有了监控，有了充足的数据，一切以数据说话，运维还需要背锅吗，所以作为一个运维工程师，如何构建一套监控系统是你的第一件工作。

在开篇之前，让我们以全局的眼光，探讨一下运维监控工具如何选型以及构建运维监控平台的设计思路，如果你是刚刚入行运维这个职业，那么这个专栏非常适合你，如果你已经在运维职场深耕多年，那么也能帮助你开阔思路和眼界。

一、常见的运维监控工具

现在运维监控工具非常多，哪个好，哪个不好，哪个适合你，哪个不适合你，其实只有你了解了他们的特性后，才知道，所以从这里开始讲起。

1、Cacti

Cacti是一套基于PHP，MySQL，SNMP及RRDTool开发的网络流量监测图形分析工具。简单的说Cacti就是一个PHP程序。它通过使用SNMP协议获取远端网络设备和相关信息（其实就是使用Net-SNMP 软件包的snmpget 和snmpwalk 命令获取）并通过RRDTOOL工具绘图，通过PHP程序展现出来。我们使用它可以展现出监控对象一段时间内的状态或者性能趋势图。

cacti是很老的一款监控工具了，其实说它是一款流量监控工具更合适，对流量监控比较精准，但缺点很多，出图不好看，不支持分布式，也没有告警功能，所以使用的人会越来越少。

2、Nagios

Nagios是一款开源的免费网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。

nagios主要的特征是监控告警，最强大的就是告警功能，可支持多种告警方式，但缺点是没有强大的数据收集机制，并且数据出图也很简陋，当监控的主机越来越多时，添加主机也非常麻烦，配置文件都是基于文本配置的，不支持web方式管理和配置，这样很容易出错，不宜维护。

3、Zabbix

zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数，保证服务器系统的安全运营；并提供强大的通知机制以让系统运维人员快速定位/解决存在的各种问题。

zabbix由2部分构成，zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP，zabbix agent，ping，端口监视等方法提供对远程服务器/网络状态的监视，数据收集等功能，它可以运行在Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等平台上。

zabbix解决了cacti没有告警的不足，也解决了nagios不能通过web配置的缺点，同时还支持分布式部署，这使得它迅速流行起来，zabbix也成为目前中小企业监控最流行的运维监控平台。

当然，zabbix也有不足之处，它消耗的资源比较多，如果监控的主机非常多时，可能会出现监控超时、告警超时等现象，不过也有很多解决办法，比如提高硬件性能、改变zabbix监控模式等。

4、Ganglia

Ganglia是一款为HPC（高性能计算）集群而设计的可扩展的分布式监控系统，它可以监视和显示集群中的节点的各种状态信息，它由运行在各个节点上的gmond守护进程来采集CPU 、内存、硬盘利用率、I/O负载、网络流量情况等方面的数据，然后汇总到gmetad守护进程下，使用rrdtool存储数据，最后将历史数据以曲线方式通过PHP页面呈现。

Ganglia监控系统有三部分组成，分别是gmond、gmetad、webfrontend。gmond安装在需要收集数据的客户端，gmetad是服务端，webfrontend是一个php的web ui界面，ganglia通过gmond收集数据，然后在webfrontend进行展示。

ganglia的主要特征是收集数据，并集中展示数据，这是ganglia的优势和特色，ganglia可以将所有数据汇总到一个界面集中展示，并且支持多种数据接口，可以很方面的扩展监控，同时，最为重要的是，ganglia收集数据非常轻量级，客户端的gmond程序基本不耗费系统资源，而这个特点刚好弥补了zabbix消耗性能的不足。

最后，ganglia在对大数据平台的监控更为智能，只需要一个配置文件，即可开通ganglia对hadoop、spark的监控，监控指标有近千个，完全满足了对大数据平台的监控需求。

5、Centreon

Centreon是一款功能强大的分布式IT监控系统，它通过第三方组件可以实现对网络、操作系统和应用程序的监控：首先，它是开源的，我们可以免费使用它；

其次，它的底层采用类似nagios的监控引擎作为监控软件，同时监控引擎通过ndoutil模块将监控到的数据定时写入数据库中，而Centreon实时从数据库读取该数据并通过Web界面展现监控数据；

最后，我们可以通过Centreon web一键管理和配置主机，或者说Centreon就是nagios的一个管理配置工具，通过Centreon提供的Web配置界面，可以轻松完成nagios需要手工配置主机和服务的不足。

centreon的强项是一键配置和管理，并支持分布式监控，nagios能够完成的功能，通过centreon都能实现，同时，centreon还可以和ganglia进行集成，centreon将ganglia收集到的数据进行整合，可以实现主机自动加入监控以及自动告警的功能。

6、Prometheus

Prometheus是一套开源的系统监控报警框架，它既适用于面向服务器等硬件指标的监控，也适用于高动态的面向服务架构的监控。对于现在流行的微服务，Prometheus的多维度数据收集和数据筛选查询语言也是非常的强大。Prometheus是为服务的可靠性而设计的，当服务出现故障时，它可以使你快速定位和诊断问题。

7、Grafana

Grafana是一个开源的度量分析与可视化套件，通俗的说，Grafana就是一个图形可视化展示平台，它通过各种炫酷的界面效果展示我们的监控数据。

如果你觉得zabbix的出图界面不够好看，逼格不够高，就可以使用Grafana的可视化展示，同时，Grafana支持许多不同的数据源，Graphite，InfluxDB，OpenTSDB，Prometheus，Elasticsearch，CloudWatch和KairosDB都可以完美支持。

8、对比图

二、统一运维监控平台设计思路

运维监控平台不是简单的下载一个开源工具，然后搭建起来就行了，它需要根据监控的环境和特点进行各种整合和二次开发，以达到与自己的需求完全吻合的程度。那么下面就谈谈运维监控平台的设计思路。

构建一个智能的运维监控平台，必须以运行监控和故障报警这两个方面为重点，将所有业务系统中所涉及的网络资源、硬件资源、软件资源、数据库资源等纳入统一的运维监控平台中，并通过消除管理软件的差别，数据采集手段的差别，对各种不同的数据来源实现统一管理、统一规范、统一处理、统一展现、统一用户登录、统一权限控制，最终实现运维规范化、自动化、智能化的大运维管理。

智能的运维监控平台，设计架构从低到高可以分为6层，三大模块，如下图：

数据收集层：位于最底层，主要收集网络数据、业务系统数据、数据库数据、操作系统数据等，然后将收集到的数据进行规范化并进行存储。

数据展示层：位于第二层，是一个Web展示界面，主要是将数据收集层获取到的数据进行统一展示，展示的方式可以是曲线图、柱状图、饼状态等，通过将数据图形化，可以帮助运维人员了解一段时间内主机或网络的运行状态和运行趋势，并作为运维人员排查问题或解决问题的依据。

数据提取层：位于第三层，主要是对从数据收集层获取到的数据进行规格化和过滤处理，提取需要的数据到监控报警模块，这个部分是监控和报警两个模块的衔接点。

报警规则配置层：位于第四层，主要是根据第三层获取到的数据进行报警规则设置、报警阀值设置、报警联系人设置和报警方式设置等。

报警事件生成层：位于第五层，主要是对报警事件进行实时记录，将报警结果存入数据库以备调用，并将报警结果形成分析报表，以统计一段时间内的故障率和故障发生趋势。

用户展示管理层：位于最顶层，是一个Web展示界面，主要是将监控统计结果、报警故障结果进行统一展示，并实现多用户、多权限管理，实现统一用户和统一权限控制。

在这6层中，从功能实现划分，又分为三个模块，分别是数据收集模块、数据提取模块和监控报警模块，每个模块完成的功能如下：

数据收集模块：此模块主要完成基础数据的收集与图形展示。数据收集的方式有很多种，可以通过SNMP实现，也可以通过代理模块实现，还可以通过自定义脚本实现。常用的数据收集工具有Cacti、Ganglia等。

数据提取模块：此模板主要完成数据的筛选过滤和采集，将需要的数据从数据收集模块提取到监控报警模块中。可以通过数据收集模块提供的接口或自定义脚本实现数据的提取。

监控报警模块：此模块主要完成监控脚本的设置、报警规则设置，报警阀值设置、报警联系人设置等，并将报警结果进行集中展现和历史记录。常见的监控报警工具有Nagios、Centreon等。

在了解了运维监控平台的一般设计思路之后，接下来详细介绍下如何通过软件实现这样一个智能运维监控系统。

下图是根据上图的设计思路形成的一个运维监控平台实现拓扑图，从图中可以看出，主要有三大部分组成，分别是数据收集模块、监控报警模块和数据提取模块。

其中，数据提取模块用于其他两个模块之间的数据通信，而数据收集模块可以有一台或多台数据收集服务器组成，每个数据收集服务器可以直接从服务器群组收集各种数据指标，经过规范数据格式，最终将数据存储到数据收集服务器中。

监控报警模块通过数据抽取模块从数据收集服务器获取需要的数据，然后设置报警阀值、报警联系人等，最终实现实时报警。报警方式支持手机短信报警、邮件报警等，另外，也可以通过插件或者自定义脚本来扩展报警方式。这样一整套监控报警平台就基本实现了。

三、企业运维监控平台选型

1、中小企业监控平台选择Zabbix

Zabbix是一款综合了数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的一款综合运维监控平台。

Zabbix学习入门较快，功能也很强大，是一个可以迅速用起来的监控软件，能够满足中小企业的监控报警需求，因此是中小型企业运维监控的首选平台。但是，Zabbix当监控服务器数量较多时，会产生很多问题，如监控数据不准确、报警超时等等问题，这是因为Zabbix对服务器性能要求较高，当监控的服务器数量超过500台后，监控性能急剧下降，此时需要进行分布式监控部署，并且需要提升监控服务器的性能。

安全性方面，Zabbix客户端的agent如果故障，收集到的数据将丢失，同时Zabbix Server也是单点，可能还需要对Zabbix Server做HA保证数据的安全和监控的高可用。

2、互联网大企业监控平台选择 Ganglia+Centreon

开源监控软件组合应用+二次开发是大型互联网企业构建监控平台的一个基本策略，对于有海量服务器、多业务系统的复杂监控，没有哪个软件能独立完成企业的所有监控需求，因此，多种开源监控软件组合应用+二次开发才是监控平台的最终方向。

推荐ganglia是因为ganglia客户端软件对服务资源占用非常低，并且扩展插件非常多，监控扩展也非常容易，同时结合专业的web监控平台centreon，可以实现在数据收集、数据展示、数据提取、监控报警配置、用户展示等方面的完美配合，因此这里对海量服务器进行监控我们推荐ganglia+centreon组合。

四、说说我们运维监控平台的演变历程

这是一个经验和总结，我结合这么多年我们监控平台的演变，总结了一下不同阶段、不同机器数量，监控平台需要的构建思路和策略。

1、机器数量小于100台的阶段

这个时期由于机器数量较少，因此，对监控的需求也很简单，监控的用途可能主要用于通知问题、快速定位与解决问题，大致总结一下，此阶段监控平台的特点如下：

（1）、部署简单，上手易用（2）、稳定运行，不出故障（3）、可进行报警，以邮件、短信等形式

基于以上特点和需求，可以使用比较流行开源的监控软件Nagios，Cacti，Zabbix，Ganglia等等。流行的开源产品文档很多，可快速上手，并且有大量的前人使用经验，遇到问题也很容易解决。

最初我们选择了nagios，因为这款软件是最早流行的，后来因为主机和服务添加不方便，切换到了zabbix上了，此阶段，zabbix应该是最好的选择。

2、机器数量200到1000的阶段

这个阶段，由于机器数量变多，监控需求也开始变得复杂，不过主要还是用于通知、告警，发现问题，并避免同样的问题再次发生，根据这个阶段的特点，我们在这个时期主要对监控平台做了以下工作：

1）监控内容分类：由于要监控的机器很多，监控内容也随之增多，于是我们将监控根据用途不同，进行了分类，主要分为系统基础监控数据、网络监控数据和业务监控数据。

2）全覆盖式监控：将所有机器均纳入监控中，主要包含软件监控和硬件监控，硬件监控主要是监控硬件性能和故障，软件监控除了第一步提到的各种基础监控数据外，还增加了业务逻辑监控，尽可能的覆盖业务流程，通过大量自定义监控减少和去除重复的问题，保障业务稳定运行。

3）多种告警方式，确保无漏报：将所有监控根据重要程度、紧急程度进行分类，分别用邮件，微信，短信，电话等不同级别的方式进行通知，每个监控对应到不同的人，确保每个监控都有人处理，并且对于重要的业务采用持续通知的方式，不处理就一直通知。

这个阶段的难点是对告警信息的处理，由于机器越来越多，需要监控的服务也越来越多，告警信息就出现了爆发式增长，每天收到上千封报警邮件是经常的事情。过多的邮件出现，其实就失去了告警的意义，因为我们不可能去查看每一封邮件，而这么多告警邮件中，很多都是非必要的告警，例如系统负载偶尔增高一下，就发了告警邮件，这完全是不需要的。

因此，这个阶段，主要是对监控告警策略进行配置和优化，尽量减少不必要的告警邮件，例如，对系统负载的监控，可以选择连续几次负载超过阀值，然后持续多久之后才进行告警操作，通过对告警策略的优化，告警信息大大减少，每天最多几十封，这样的话，就不会错过任何告警信息了。

（1）告警不及时

当我们服务器超过1000台以后，我们的zabbix就经常罢工，有时候监控数据不能及时显示，有时候告警迟迟不来，特别是告警延时，这个是最恐怖的事情，线上业务7*24小时不能出现故障，虽然监控到了异常，但是通过监控系统发出来已经是1个或者几个小时之后了，那监控还有什么意义呢，及时性是监控系统的第一要求，这个是必须要解决的问题。

如何解决这个问题呢，除了对监控进行优化，例如分布式proxy方式部署，开启zabbix主动模式，还对数据收集进行了扩展和优化，我们对基础数据的收集，抛弃了zabbix来实现，而采用ganglia，而对业务数据部分实现仍然采用zabbix完成，通过将收集数据的负载进行分担，大大减低了zabbix的负载，数据收集的准确性，及时性又恢复正常了。

（2）告警系统出现了单点故障

由于服务器众多，收集的数据也飞速增长，曾经有一次，监控服务器突然意外宕机了，等系统恢复启动起来，已经是一个小时以后了，这一个小时运维就变成了睁眼瞎了，多可怕的事情。

自从发生监控系统宕机事故后，我们对监控服务器进行了分布式高可用部署，以避免单点故障，同时对监控到的数据进行远程异地备份，当监控服务器故障后，会自动切换到备用监控系统上，并且监控数据自动保存同步。

（3）告警需求监控系统无法满足

业务的增加，客户对业务稳定性要求变得更加苛刻，为了保证业务系统稳定运行，业务逻辑监控需求被提出来了，业务逻辑监控就是对业务系统的运行逻辑进行监控，当业务运行逻辑故障时候，也需要进行告警，很显然，对业务逻辑的监控，没有现成的工具和代码，只能根据业务逻辑自行开发，通过提高业务逻辑接口，汇报数据等方式，我们对zabbix进行了多项二次开发，以满足对业务逻辑的监控。

最后，运维监控平台是运维工作中不可或缺的一部分，如何构建适合自己的运维监控平台，每个公司的需求不一样，每个运维面对的痛点也不尽相同，但，不管有什么需求，多少需求，万变不离其宗，有了机器上的各种监控数据，运维就能做很多事情。运维监控的路上，我们一起前行。

作者：南非蚂蚁来源：http://blog.51cto.com/ixdba/2310782

2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ruby和python哪个好学 hakesashou python基础知识 ruby python 开发语言
Ruby和python都挺好学的。建议学习Python，语法的话，Python相对更简洁。而且Python应用场合更广泛，运维、网站开发、数据处理、科学研究都可以。Ruby和Python十分相似，有很多共同点，但也有一些不同之外，以下是Python和Ruby的对比：1、Python和Ruby都是面向对象的语言，都是动态和灵活的。二者的主要区别在于他们解决问题的方式。Ruby提供了不同的方法，而Py
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
Prometheus运维六 PromQL查询语言详解及操作安顾里 Prometheus 监控类大数据 kubernetes 运维 linux
海阔凭鱼跃，天高任鸟飞Prometheus官网：https://prometheus.io/文章目录1.什么是PromQL?2.PromQL的基本使用2.1时间序列选择器2.1.1瞬时向量选择器2.2区间向量选择器2.2.1范围向量选择器2.2.2时间位移操作2.2.3使用聚合操作2.3标量和字符串3.PromQL操作符4.内置常用函数5.HTTPAPI操作PromQL6.使用建议1.什么是Pro
Ansible架构介绍与安装 2401_86637445 ansible 架构
一、介绍Ansible什么是Ansible?Ansible是一款自动化运维工具，其主要功能是帮助运维实现IT工作的自动化、降低人为操作失误、提高业务自动化率、提升运维工作效率。实现了批量系统配置、批量程序部署、批量运行命令等功能。ansiblepuppetsaltstack主流的三种。ansible自动化运维工具被红帽收购阿里巴巴在用saltstackpython开发。无客户端，只需安装SSH、P
【K8S】kubernetes集群架构与组件奇奇怪怪^ 云 Linux IT 运维服务器 linux
文章目录【K8S】kubernetes集群架构与组件kubernetes组件**master组件**node组件整体流程POD终止过程【K8S】kubernetes集群架构与组件kubernetes组件K8S是属于主从设备模型(Master-slave架构)，即有Master节点负责集群的调度、管理和运维，Slave节点是集群中的运算工作负载节点在K8S中，主节点一般被称为Master节点，而从节
Spring Boot实现多租户架构 spring_root spring boot 架构后端
一、概述1什么是多租户架构？多租户架构是指在一个应用中支持多个租户（Tenant）同时访问，每个租户拥有独立的资源和数据，并且彼此之间完全隔离。通俗来说，多租户就是把一个应用按照客户的需求“分割”成多个独立的实例，每个实例互不干扰。2多租户架构的优势更好地满足不同租户的个性化需求。可以降低运维成本，减少硬件、网络等基础设施的投入。节约开发成本，通过复用代码，快速上线新的租户实例。增强了系统的可扩展
【Linux 从基础到进阶】Puppet配置管理工具使用爱技术的小伙子 Linux从基础到进阶 linux puppet 运维
Puppet配置管理工具使用Puppet是一种开源的配置管理工具，广泛用于自动化管理和配置服务器。它通过声明式的语言定义系统状态，能够跨多台服务器实现一致性配置。Puppet对运维团队来说，是一种强大的工具，能够有效管理服务器配置并简化操作复杂性。本文将详细介绍Puppet的核心概念、安装步骤、以及如何在CentOS和Ubuntu系统上进行配置和管理。1.Puppet的核心概念在使用Puppet之
Docker 安装配置和基本命令详解以及案例示范 J老熊 docker 容器运维面试 linux
1.引言容器化技术的快速发展给软件开发和运维带来了革命性的变化，Docker作为这一领域的领军者，已经成为软件开发和部署流程中的重要工具。Docker的轻量化、快速启动和高效资源利用让开发者能够在不同的环境中实现一致的开发体验。本篇文章将详细讲解如何在CentOS系统中安装Docker，如何配置阿里云镜像加速，Docker的基本命令和语法，以及通过实际的电商交易系统案例来演示如何在Docker环境
服务器运维小技巧（二）——如何进行监控告警 baiolkdnhjaio 网络安全
服务器运维难度高的原因，很大程度是因为服务器一旦出现问题，生产环境的业务就会受到严重影响，极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量，能够快速响应问题，及时解决问题。但是“及时”的这一点很难做到，需要通过优化工作流程、建立预警系统，搭建自动化等行为快速响应。今天主要介绍如何通过服务器运维工具搭建监控预警的手段来辅助缩短响应时间。首先打开牧云主机管理助手，进入系统设置界面
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
前端发布 CDN缓存跳动的世界线前端缓存 CDN
公司给服务器加了CDN，导致有时前端代码上传打包后，正式环境页面效果却不更新。每次都需要去找运维刷CDN…让我彻底记住了CDN缓存CDN（ContentDeliveryNetwork，内容分发网络）是一种广泛使用的互联网技术，旨在提高用户访问网站的速度和可靠性。CDN的核心思想是将网站的内容缓存到全球分布的边缘节点上，让用户能够从最近的节点获取数据，从而减少延迟和带宽消耗。CDN缓存机制的基本原理
如何快速的构建企业运维可视化大屏益达_glmsb
基于AIOps理念研发的新一代运维监大屏全盘展示IT运行状态，减轻运维人员的重复性工作量，提高IT系统排错速度，加速运维知识学习积累。图片1.png领先的数据可视化平台，把IT运维化繁为简图片2.jpg图片3.png图片4.png图片5.png图片6.png全面提升IT运维管理水平1.直接导出精美的IT运行可视化报表图片7.png2.资源分析对比图片8.png3.自动生成监控项运行“脑图”图片9.
使用MLOps进行AI部署的顶级公司 AI研报人工智能
自从AI技术进入主流领域以来，MLOps（机器学习运维）已成为在生产环境中部署和管理机器学习模型的一系列实践，这对企业的成败起着关键作用。各种背景的公司都在采用MLOps技术，以简化操作、提高模型效率和扩展AI解决方案。本文介绍了在AI部署方面表现突出的顶尖公司，它们的策略以及成功案例。使用MLOps进行AI部署的公司1.谷歌谷歌在MLOps领域处于领先地位，凭借其在云计算和机器学习研发方面的深厚
ansible入门打败404 运维 linux ansible
一、ansible简介1、ansible是什么？ansible是目前最受运维欢迎的自动化运维工具，基于Python开发，集合了众多运维工具（SaltStackpuppet、chef、func、fabric）的优点，实现了批量系统配置、批量程序部署、批量运行命令等功能。ansible是基于paramiko开发的,并且基于模块化工作，本身没有批量部署的能力。真正具有批量部署的是ansible所运行的模
云平台下存储运维的变革与实践宋罗世家技术屋 VIP专栏运维大数据
【摘要】未来存储监控平台可结合整体智能运维分层立体的监控体系，实现从基础设施到租户业务的端到端全覆盖的立体监控，提供基础监控、业务监控、链路监控等方面通用平台能力，将监控平台+云服务+一线运维等各云服务监控整合基于监控平台实现自己特定业务监控。现有运维体系的建设现状随着银行数字化转型升级进程的加快，IT系统架构越来越复杂，软件更新迭代越来越快。银行信息化建设中的大量业务和数据需要依靠信息系统来完成
构建Java微服务架构的CI/CD流程微赚淘客系统@聚娃科技架构 java 微服务
构建Java微服务架构的CI/CD流程大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天，我们来探讨如何构建一个高效的Java微服务架构的持续集成和持续部署（CI/CD）流程。随着微服务架构的流行，CI/CD已成为开发和运维流程中的关键部分，通过自动化的构建、测试和部署，能够大幅提高开发效率和系统可靠性。什么是CI/CD？CI/C
云原生应用——软件的未来快乐非自愿云原生
随着云计算技术的飞速发展，企业对于软件应用的部署和运行方式提出了新的要求。传统的软件部署模式已经难以满足现代企业对于敏捷性、可伸缩性和高可用性的需求。因此，云原生应用应运而生，它代表了软件开发和运维的新范式，预示着软件的未来。什么是云原生应用？云原生应用是指那些专门为在云环境中运行而量身定制和优化的应用程序。这些应用程序充分利用了云计算的核心特性，例如弹性伸缩、按需资源分配、微服务架构、容器化技术
Psutil：Python 系统和进程监控利器 ivwdcwso 运维开发 python 开发语言 Psutil 运维自动化系统管理
引言在现代IT运维和系统管理中，实时监控系统资源和进程状态是一项至关重要的任务。Python的psutil（PythonSystemandProcessUtilities）库为我们提供了一个跨平台的工具，使得获取系统信息和管理进程变得简单而高效。本文将详细介绍psutil的主要功能，并通过实际案例展示其在日常运维中的应用。什么是Psutil？Psutil是一个跨平台的库，用于获取运行进程和系统利用
利用zabbix监控ogg进程(Windows平台) Linux运维老纪万象人生-坚守Zabbix企业级监控岗位运维开发服务器云计算 zabbix linux
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:Linux运维老纪的首页,持续学习,不断总结,共同进步,活到老学到老导航剑指大厂系列:全面总结运维核心技术:系统基础、数据库、网路技术、系统安全、自动化运维、容器技术、监控工具、脚本编程、云服务等。常用运维工具系列:常用的运维开发工具,zab
TDengine和DolphinDB哪个更好，哈哈哈哈，闲来无聊分析了一下。(1) 2401_84023482 程序员 tdengine 大数据时序数据库
TDengine是专为时序数据设计的，针对的是物联网、工业互联网、IT运维场景。这些场景是不需要特殊的查询函数的，更关心的是写入速度、查询速度。而且这些场景下，也需要一些其他数据库不具备的功能，比如插值、时间聚合等等如果要问TDengine和DolphinDB最大的特色，存储引擎可能是TDengine最大的特色，性能也非常好；DolphinDB的最大特色毫无疑问是它的计算引擎。可以毫不夸张的说，D
CentOS 运维常用的shell脚本一碗情深运维运维 centos linux
文章目录一、操作系统磁盘空间查看实时获取系统运行状态获取cpu、内存等系统运行状态获取系统信息二、应用程序获取进程运行状态查看有多少远程的IP在连接本机三、用户管理统计当前Linux系统中可以登录计算机的账户有多少个创建用户四、自动化管理自动备份日志文件监控的页面地址，对tomcat状态进行重启或维护实时监控本机内存和硬盘，剩余空间不足发送报警邮件一、操作系统磁盘空间查看disk_info.shd
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
【2023年】云计算金砖牛刀小试3 geekgold 云计算 linux 运维容器 kubernetes 云原生
A场次题目：OpenStack平台部署与运维业务场景：某企业拟使用OpenStack搭建一个企业云平台，用于部署各类企业应用对外对内服务。云平台可实现IT资源池化，弹性分配，集中管理，性能优化以及统一安全认证等。系统结构如下图：企业云平台的搭建使用竞赛平台提供的两台云服务器，配置如下表：设备名称主机名接口ip地址云服务器1controllereth0，eth1私网：192.168.100.10/2
【2023年】云计算金砖牛刀小试 geekgold linux 容器 grafana prometheus ansible kubernetes 云原生
A模块题目OpenStack平台部署与运维任务1私有云平台环境初始化（6分）IP主机名192.168.157.30controller192.168.157.31compute1.配置主机名把controller节点主机名设置为controller,compute节点主机名设置为compute。分别在controller节点和compute节点将hostname命令的返回结果提交到答题框。【0.5
【2023年】云计算金砖牛刀小试2 geekgold 云计算运维容器 jenkins kubernetes devops docker
A场次题目：Openstack平台部署与运维control172.17.31.10compute172.17.31.20compute任务1私有云平台环境初始化1.初始化操作系统使用提供的用户名密码，登录竞赛云平台。根据表1中的IP地址规划，设置各服务器节点的IP地址，确保网络正常通信，设置控制节点主机名为Controller，计算节点主机名为Compute，并修改hosts文件将IP地址映射为主
网络安全（黑客）自学白帽子凯哥 web安全安全网络安全服务器网络
一、什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。无论网络、Web、移动、桌面、云等哪个领域，都有攻与防两面性，例如Web安全技术，既有Web渗透，也有Web防御技术（WAF）。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、怎样规划网络安全如果你是一
网络安全（黑客）——自学2024 白帽子黑客-宝哥 web安全安全嵌入式硬件网络单片机
一、什么是网络安全网络安全是一种综合性的概念，涵盖了保护计算机系统、网络基础设施和数据免受未经授权的访问、攻击、损害或盗窃的一系列措施和技术。经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。作为一个合格的网络安全工程师，应该做到攻守兼备，毕竟知己知彼，才能百战百胜。二、网络安全怎么入门安全并非孤立存在，而是建立在其计算机基础之上的应用技术。
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

【无监控，不运维！这份监控建设总结太赞了！】

一、常见的运维监控工具

二、统一运维监控平台设计思路

三、企业运维监控平台选型

你可能感兴趣的:(运维)