†徐先森®

Jmete+Grafana+Prometheus+Influxdb+Nginx+Docker架构搭建压测体系/监控体系/实时压测数据展示平台+遇到问题总结

背景

需要大批量压测时，单机发出的压力能力有限，需要多台jmeter来同时进行压测；发压机资源不够，被压测系统没到瓶颈之前，发压机难免先发生资源不足的情形；反复压测时候也需要在不同机器中启动压测脚本，更改脚本变动麻烦，收集压测数据难，启动和关闭压测进程难，分布式压测可以让压测时机的把控更准确，实现自由伸缩，一次配置，随处运行。

本文可实现从0到1搭建体系

可能面对的缺点：

1. 单台并发量不够，发压机资源不足
2. 手动方式在不同发压机上脚本更改麻烦
3. 测试结果难以整理
4. 扩增新节点发压时调试麻烦
5. 压测开始/结束时间点无法统一，手动操作有误差
6.长时间压测时，压测数据积压问题。超过1G的压测结果会出问题，严重影响磁盘IO（可更改采点时间间隔，但不是所有场景都适用如果想看到更细粒度数据就会很吃力）。
7. 压测数据保存。每次压测默认会覆盖上次的结果，虽然可以更改复写机制，但总会有超过阈值大小的时间，如果可能保存到数据库更好。
8. 压测数据展示，不太美观。每次压测完需要根据jtl文件生成html报告
9. 发压机资源监控，无法知道发压机是否达到资源瓶颈，是否需要添加额外服务器，此举可有效节约服务器资源。
10. 每次执行都需要登录服务器进行操作，是否可集成到Jenkins中，每次运行直接在web端指定IP地址，进行压测？（需详细调研加以尝试）
一台Master，一台Slave，每次扩展只需要对Slave打一个镜像，拷贝几个相应虚拟机，压测时直接指定相应IP地址

搭建阶段

1.集群压测+数据入库

2.发压机指标监控

3.CI/CD集成Jenkins （待定）

Jmeter 分布式集群搭建

一. 分布式压测注意点

1、运行相同版本的JMeter(两台机器版本不一致，需要重新升级)

2、使用相同的java版本

3、都在一个网段

4、server.rmi.ssl.disable开关一致

5、关闭防火墙

6、使用的JMeter插件一致

7、如果压测的是java脚本，需要将java脚本和相关lib包都放在jmeter目录lib/ext下，在每一台机器上都得有脚本文件和依赖的jar包（如果是http脚本，在Master的机器上有脚本文件即可）

8、将jmeter的场景文件jmx上传到Master jmeter的任意位置，参数文件需要放到每一台压力机上（如果脚本中涉及从外部读取的csv文件，那该文件就需要上传到各个slaver施压机上） 9、关闭运行时千万不要通过control+c终止运行，需要再开一个窗口，在主jmeter的bin目录下"./shutdown.sh" 就会向从压力机发布指令，结束运行；

10、若是脚本中设置的并发线程数是100，采用3台slaver机器去施加压力，那么对于服务端来说，此时的并发线程数是300。

二. Jmeter分布式压测原理了解

1、分为控制器（controller）和代理（agent），也有人叫master机和slave机（总控机器的节点master，其他产生压力的机器叫“肉鸡” server） 2、master会把压测脚本发送到 server上面

3、执行的时候，server上只需要把jmeter-server打开就可以了，不用启动jmeter 4、结束后，server会把压测数据回传给master,然后master汇总输出报告

controller 作为控制器不加入实际测试，只负责发送和收集 agent 信息。

三.参数优化

1. 控制台取样间隔的设置（linux中的日志输出时间间隔）

summariser.interval=10，默认时间为30秒，最低可修改为6秒 (在jmeter的bin目录下 jmeter.properties)

2. JVM优化（按照4c 8g配置）

因为整台服务器就是为性能测试使用，所以jvm堆栈可以调到最大比例，防止压测时发压机OOM异常。修改jmeter的bin目录下，vi jmeter，修改HEAP的size大小如下,也可以设置为6G，建议自测调整JVM大小

"${HEAP:="-Xms4g -Xmx4g -XX:MaxMetaspaceSize=512m"}"

3. 修改默认编码

sampleresult.default.encoding=UTF-8

4. linux中没有实时输出日志

解决不输出实时日志：修改配置文件jmeter.properties中的配置项

找到 #summariser.ignore_transaction_controller_sample_result=true 改为 summariser.ignore_transaction_controller_sample_result=false

5. 进入jmeter的bin目录下，修改reportgenerator.properties

修改 jmeter.reportgenerator.overall_granularity=1000 （报表中数据展示间隔1秒钟）

6. 打开主从机器交互配置，修改jmeter.properties文件

将server.rmi.ssl.disable=true（去掉注释）【主从之间默认是https的，在局域网内部使用，没有必要使用https方式】

7. 指定运行 slave节点，二选一配置

本机通过第二种方式

更改bin/jmeter-server，指定RMI_HOST_DEF=-Djava.rmi.server.hostname=本机内网ip，或者通过运行命令指定本机IP来启动nohup ./jmeter-server -Djava.rmi.server.hostname=192.168.0.107 &

否则会报错如下：

Server failed to start: java.rmi.RemoteException: Cannot start. localhost.localdomain is a loopback address. An error occurred: Cannot start. localhost.localdomain is a loopback address.

8.压测执行顺序

1. slave以server方式执行

执行命令如下(需要确认下新开的slave 是否会执行该命令加载环境变量将本机IP刷到Jmeter参数中)

该命令会将slave上的Jmeter以后台方式运行，并且将当前机器ip添加到jmeter-server配置中

localhostPrivateIp=$(/sbin/ifconfig -a eth0 |grep inet|grep -v 127.0.0.1|grep -v inet6 | awk '{print $2}' | tr -d "addr:") && nohup ./jmeter-server -Djava.rmi.server.hostname=$localhostPrivateIp &

2.Master压测

运行时需要指定—R 127.0.0.1 128.0.0.1

jmeter -n -t getUserInfoById.jmx -l res.jtl -R 112.16.63.227(slave的内网ip地址英文逗号分隔)

如果想要压测执行，请在Master节点中

进入jmeter/bin/目录下
运行 ./shundown.sh

实时数据展示平台搭建

使用Docker+Nginx+Prometheus+Grafana+Influxdb+Node-exporter方式

1.InfluxDb部署和配置

拉取镜像
docker pull influxdb:1.7.10

启动容器
（后面的命令是为了让容器和宿主机的时间一致，避免因时间不一致导致的数据不显示问题）

docker run  -d --name=influxdb -p 8086:8086 -v ${PWD}:/var/lib/influxdb influxdb:1.7.10  /etc/localtime:/etc/localtime


进入容器
docker exec -it influxdb bash 

输入命令
influx

进入influx内部
show databases;
查看influxdb现有数据库

使用命令
create database jmeter; 
创建名为jmeter的数据库

use jmeter; 
使用该数据库 

show measurements;
查看下面具备哪些表


select * from "表名字"；
查看表中具有哪些数据

效果展示

2.Grafana部署

Grafana就是一个报表展示平台，相比来说配置和安装更加容易，Grafana版本之间可能会有稍许差别，此处使用版本9.3.2；

拉取镜像
docker pull grafana/grafana:9.3.2

运行镜像
（--link 是为了让grafana和influxd网络互通）
docker run -d --name=grafana --link=influxdb:influxdb -p 3000:3000 grafana/grafana:9.3.2

效果截图

3.Prometheus部署和配置

注意

首先在tmp目录下新建prometheus和prometheus.yml文件

prometheus+docker方式部署+加载Nginx端口转发配置+允许热加载node-exporter+挂在配置文件到宿主机+prometheus允许后缀名方式访问（和Nignx配置对应）

拉取镜像
docker pull pro/prometheus 

运行镜像
docker run -d -p 9090:9090 -v /tmp/prometheus:/etc/prometheus --name=prometheus prom/prometheus --config.file=/etc/prometheus/prometheus.yml --web.route-prefix=/ --web.external-url=/prometheus/ --web.enable-lifecycle

安装完prometheus并配置好Nginx和Node-exporter 后可访问IP/prometheus/ ，查看prometheus配置了几个node-exporter

4.Nginx 部署（Yum方式）

yum install -y nginx

安装完nginx , 修改配置文件，在/etc/nginx/nginx.conf

运维给我开通的是外网80端口，所以我就直接用80端口代理Grafana的web页面

完整http块内的配置如下（可能有的配置冗余，但也懒得去排查修改了）

http {
    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

    access_log  /var/log/nginx/access.log  main;

    sendfile            on;
    tcp_nopush          on;
    tcp_nodelay         on;
    keepalive_timeout   65;
    types_hash_max_size 4096;

    include             /etc/nginx/mime.types;
    default_type        application/octet-stream;

    # Load modular configuration files from the /etc/nginx/conf.d directory.
    # See http://nginx.org/en/docs/ngx_core_module.html#include
    # for more information.
    include /etc/nginx/conf.d/*.conf;

    server {
        listen       80;
        listen       [::]:80;
        server_name  _;
        root         /usr/share/nginx/html;

      location /prometheus/{
        proxy_pass http://127.0.0.1:9090/;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_redirect default;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "Upgrade";
        proxy_set_header Host $http_host;

           }

      location /influxdb/ {
        proxy_pass http://127.0.0.1:8086/;
           }

      location ^~ / {
       index index.html index.htm;
        proxy_pass http://127.0.0.1:3000/;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_redirect default;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "Upgrade";
        proxy_set_header Host $http_host;
           }

        # Load configuration files for the default server block.
        include /etc/nginx/default.d/*.conf;

        error_page 404 /404.html;
        location = /404.html {
        }

        error_page 500 502 503 504 /50x.html;
        location = /50x.html {
        }
    }

5. Jmeter压测数据写入Influxdb

在相应Thread Group中添加Backend Listener，最好给不同的Backend Listener 起不同的名字，防止同时多脚本压测时出现数据写入混乱的问题；

1. 选择指定implementation
2.填写influxdb所在地址和端口，以及数据库名，如下截图（因为脚本要跑在Linux内网环境，所以 URL 我写的是内网IP）
3.measurement名字填写jmeter
4.application 可以填写指定名称（不同脚本）
5.填写的application名称会在Dashboard中的 application内显示，执行压测脚本时，会显示实时数据
6.Transaction 显示的是Samper名称

效果展示

6. Node-exporter部署，监控发压机

在需要监控的机器上，使用docker方式部署node-exporter

新服务器部署node-exporter 步骤 
docker pull prom/node-exporter

docker run -d --net="host" --name node_exporter --restart=unless-stopped -p 9100:9100 -v "/proc:/host/proc:ro" -v "/sys:/host/sys:ro" -v "/:/rootfs:ro" prom/node-exporter

然后在prometheus中配置该node-exporter所在地址和端口号 

  - job_name: 'Jmeter-slave-'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['IP:9100']

加上新配置的node-exporter之后，使用命令在prometheus所在机器进行 prometheus热加载更新，然后访问Prometheus web页面，确认该node-exporter是否添加到监控体系当中

curl -X POST http://ip:9090/-/reload

7.Grafana展示Jmeter实时压测数据+展示Node-exporter数据

点击grafana的logo看到COMPLETE，add data source 新增数据源

1.Grafana 配置 Jmeter压测数据源

指定docker中的influxdb:8086，并指定jmeter数据库，点击save and test 通过即成功；

2. 展示Jmeter实时压测数据

Import 5496，点击load，加载出来后指定刚增加的data source Influxdb，指定表名字 jmeter，点击import ；

压测时即可看到实时数据，展示效果如下

application名称是Backend listener中填写的application 名称

Transaction 显示的是Samper名称

3.添加Prometheus+node-exporter主机监控数据源

仿照上述新增数据源，内网ip/prometheus/,测试通过即可

4. 展示主机监控数据，添加Dashboard

import dash board 8919，导入并保存即可

效果展示

问题总结

1. 为什么用Nginx？

因为运维只给开一个端口，但是还有那么多服务需要用，所以用作端口代理。

2. 为什么用Docker？

因为Docker部署更加方便。

3. Docker和Jmeter压测时时间不一致，无法写入数据（Grafana和Jmeter压测时间）

docker run -p 3306:3306 --name mysql -v /etc/localtime:/etc/localtime
根据需求更改启动容器时的参数，将宿主机的时间和docker时间一致（docker和宿主机在同一台机器）

4. Jmeter数据无法写入Influxdb数据库，查询measurements为空

Jmeter：配置后端监听器（Backend Listener），使用Nginx作为端口转发，将Influxdb的服务映射到/influxdb路径

5.Jmeter入库后，Grafana配置数据源失败

在docker中运行时指定docker内influx的网络，配置时使用influxdb:8086

6.Grafana展示Jmeter中的数据为空

配置后端监听器measurement值为jmeter，否则读取不到数据

7.多个脚本同时执行添加了后端监听器，压测数据被写入到同一个Application库中

默认根据监听器名称进行判断监听器有没有执行，解决方案，不同后端监听器起不同的名称

8. Grafana 监控发压机指标数据显示 no data

使用curl查看9100是否能取到node-exporter数据，如果可以取到去prometheus web页面查看prometheus是否配置成功

云原生周刊丨CIO 洞察：Kubernetes 解锁 AI 新纪元 KubeSphere 云原生云原生 kubernetes 人工智能
开源项目推荐DRANETDRANET是由谷歌开发的K8s网络驱动程序，利用K8s的动态资源分配（DRA）功能，为高吞吐量和低延迟应用提供高性能网络支持。它旨在优化资源管理，确保K8s集群中的网络资源能够按需高效分配。DRANET采用Apache-2.0开源许可，鼓励社区贡献与扩展，是云原生环境下提升网络性能的创新解决方案。LazyjournalLazyjournal是一个用Go语言编写的终端用户界
k8s集群版本升级少陽君 K8S kubernetes 容器云原生
Kubernetes集群版本升级是为了获得最新的功能、增强的安全性和性能改进。然而，升级过程需要谨慎进行，特别是在生产环境中。通常，Kubernetes集群的版本升级应遵循逐步升级的策略，不建议直接跳过多个版本。Kubernetes版本升级的常见流程：升级顺序：先升级控制平面节点（MasterNodes），然后升级工作节点（WorkerNodes）。遵循版本兼容性：Kubernetes支持小版本的
新书速览|云原生Kubernetes自动化运维实践全栈开发圈云原生运维 kubernetes
《云原生Kubernetes自动化运维实践》本书内容：《云原生Kubernetes自动化运维实践》以一名大型企业集群运维工程师的实战经验为基础，全面系统地阐述Kubernetes（K8s）在自动化运维领域的技术应用。《云原生Kubernetes自动化运维实践》共16章，内容由浅入深，逐步揭示K8s的原理及实际操作技巧。第1章引领读者踏入Kubernetes的世界，详细介绍其起源、核心组件的概念以及
“三分钟”带你看懂批次管理!（一） wms系统
一、批次管理的定义与重要性1.批次管理的定义：批次管理是一种针对产品或物料的管理方法，它将同一生产周期或相同条件下生产、具有一致质量特征、生产信息和使用属性的产品组作为一个批次，进行分类、标识、追踪和管理。2.批次管理的重要性：提高可追溯性：精准追踪物料和产品的来源、去向及生命周期，在质量问题或召回需求出现时，能快速锁定问题批次，降低损失。增强质量控制：监控不同批次产品的质量指标，及时发现和分析质
分析K8S中Node状态为`NotReady`问题网络飞鸥 Kubernetes kubernetes 容器云原生
在Kubernetes（k8s）集群中，Node状态为NotReady通常意味着节点上存在某些问题，下面为你分析正常情况下节点应运行的容器以及解决NotReady状态的方法。正常情况下Node节点应运行的容器1.kubeletkubelet是节点上的核心组件，它负责与控制平面通信，管理节点上的容器生命周期。它通常作为系统服务运行，而不是以容器形式存在，但也有使用容器化部署的情况。2.kube-pr
K8S之POD调度〰振振 ༽ K8S kubernetes docker 容器
K8S-Pod调度1、Deployment/RC:全自动调度简述Deployment或RC的主要功能就是自动部署一个容器应用的多份副本，及持续监控副本的数量并维持该值。创建Deploymentkubectlcreate-fnginx-deployment.yaml#nginx-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name
2023年全国职业院校技能大赛（高职组）“云计算应用”赛项赛卷10（公有云）忘川_ydy 云计算云计算 kubernetes openstack docker python ansible k8s
#需要资源（软件包及镜像）或有问题的，可私聊博主！！！#需要资源（软件包及镜像）或有问题的，可私聊博主！！！#需要资源（软件包及镜像）或有问题的，可私聊博主！！！模块三公有云（40分）企业选择国内公有云提供商，选择云主机、云网络、云硬盘、云防火墙、负载均衡等服务，可创建Web服务，共享文件存储服务，数据库服务，数据库集群等服务。搭建基于云原生的DevOps相关服务，构建云、边、端一体化的边缘计算系
K8S遇到过的比较深刻的Pod问题 Gold Steps. 技术博文分享 kubernetes 容器云原生故障处理
第一案：Pod集体自杀凌晨12点的告警总是格外刺眼。值班群里突然炸出一连串消息："支付服务全部下线！但Pod日志显示一切正常！"运维组赶到战场时，发现大量Pod像多米诺骨牌般接连消失，监控面板上却全是绿色对勾。错误排查：#查看案发时间线kubectlgetevents--sort-by='.lastTimestamp'|grep-ikilled#查看Pod详细信息kubectldescribepo
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
服务器虚拟化相关的面试题努力的搬砖人. java 面试服务器其他
以下是服务器虚拟化相关的面试题，涵盖了服务器虚拟化的基础概念、技术原理、应用场景、性能优化、容错与高可用性、网络与存储、管理与监控、安全与备份、与其他技术的结合等方面，希望对你有所帮助。服务器虚拟化基础概念1.什么是服务器虚拟化？它的主要目的是什么？•服务器虚拟化是指通过虚拟化技术将一台物理服务器虚拟成多台虚拟机，每台虚拟机可以独立运行操作系统和应用程序。其主要目的是提高服务器的资源利用率，降低硬
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
Modbus最全最简单讲解道传科技上位机网络
一、什么是ModbusModbus是一种串行通信协议，最初由Modicon公司（现为施耐德电气的一部分）在1979年为使用其PLC（可编程逻辑控制器）而开发。Modbus已成为工业领域内广泛使用的一种通信协议，特别是对于监控和控制系统。Modbus协议支持多种通信方式，包括RTU（RemoteTerminalUnit，远程终端单元模式）、TCP/IP和ASCII（美国标准信息交换码）等。备注：C#
大规异构集群混合并行分布式训练系统，解决算力不均衡问题 HETHUB 爱串门的小马驹万卡大规模集群大模型训练异构集群大规模集群分布式大模型训练
视频教程在这：3.2大规模异构集群，混合并行分布式系统，解释算力不均衡问题HETHUB_哔哩哔哩_bilibili一、大规模异构集群出现的原因：同一种GPU数量有限难以构建大规模集群：训练大规模模型依赖于大量的计算资源。例如，训练GPT-4模型（1.8万亿个参数）需要25000个A100GPU。用一种GPU加速器构建大规模集群是一个挑战。使用多种类型的GPU加速器构建大规模集群是解决同构GPU加速
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
从零到一：Redis Cluster部署配置全流程详解，轻松搞定高可用分布式缓存！ IT成长日记 #数据库技术解析与应用实践 Redis Cluster redis 缓存集群
RedisCluster是Redis官方提供的分布式解决方案，它通过数据分片（Sharding）和主从复制（Replication）来实现高可用性和横向扩展。RedisCluster能够在多个节点之间自动分配数据，并且在节点故障时自动进行故障转移，确保系统的高可用性。本文将详细介绍RedisCluster的部署和配置全流程，帮助读者快速搭建一个高可用的Redis集群。1RedisCluster概述
IPv6网络的可操作安全考虑——RFC9099解析（四）黑带架构湿 IPv6安全网络安全安全
2.6记录和监控为了在发生安全事件或检测到异常行为的情况下进行取证（forensic）研究，网络运营商应记录多个信息片段。在某些情况下，这需要通过网络管理站对设备进行频繁的轮询。日志包括但不限于：在可用时，使用网络的所有应用程序（包括用户空间和内核空间）的日志(例如，网络运营商管理的web服务器；IPFIX数据【RFC7011】；SNMPMIBs或来自RESTCONF/NETCONF的YANG数据
【颠覆性缓存架构】Caffeine双引擎缓存实战:CPU和内存双优化，命中率提升到92%，内存减少75% Julian.zhou 架构相关 Java 开发基础技能算法缓存架构 java
千万级QPS验证！Caffeine智能双缓存实现92%命中率，内存减少75%摘要：本文揭秘千万级流量场景下的缓存革命性方案！基于Caffeine打造智能双模式缓存系统，通过冷热数据分离存储与精准资源分配策略，实现CPU利用率降低60%、内存占用减少75%的惊人效果。文末附可复用的生产级代码！一、经典方案的致命陷阱：资源浪费之谜1.1真实事故现场案例回放：某电商大促期间，缓存集群CPU飙升至90%导
K8S集群新增和删除Node节点（K8s Cluster Adds and Removes Node Nodes） Linux运维老纪天涯海角 k8s伴你同行 kubernetes 容器云原生云计算运维开发 linux
实战：在已有K8S集群如何新增和删除Node节点在Kubernetes(K8S)集群中，Node节点是集群中的工作节点，它们运行着容器的实际实例。管理K8S集群中的Node节点，包括新增和删除节点，是一个常见且重要的操作，可以帮助你根据需求扩展或缩减集群的容量。本篇文章将分享一下如何在已有集群添加新节点和删除现有节点1新增节点到K8S集群新增节点可以分为准备节点、配置节点和将其加入集群三步。1.1
prometheus使用alertmanager实现报警功能平凡似水的人生监控系列运维 linux 监控类
前言在运维工作中，最重要的事情就是监控，监控中最重要的就是报警功能，这样可以使我们收到告警之后及时处理，以免事态发展到无可挽回的地步，下面就给大家分享一下prometheus中的告警如何实现吧。一、安装altermanager1、解压安装包tarzxfalertmanager-0.21.0.linux-amd64.tar.gz-C/data/#查看是否安装成功cd/data/alertmanage
服务器监控 Prometheus、AlertManager、Grafana、钉钉机器人通知懒熊猫运维
监控系统简介Prometheus是一套开源的系统监控报警框架。需要指出的是，由于数据采集可能会有丢失，所以Prometheus不适用对采集数据要100%准确的情形。但如果用于记录时间序列数据，Prometheus具有很大的查询优势，此外，Prometheus适用于微服务的体系架构。prometheus可以理解为一个数据库+数据抓取工具，工具从各处抓来统一的数据，放入prometheus这一个时间序
Java直通车系列46【Spring Cloud】（服务监控与追踪Spring Cloud Sleuth 和 Zipkin）浪九天 Java直通车 java spring 开发语言后端 spring cloud
目录服务监控与追踪（SpringCloudSleuth和Zipkin）一、为什么需要服务监控与追踪？二、核心工具：SpringCloudSleuth+Zipkin三、场景示例：电商下单调用链追踪场景描述：使用Sleuth+Zipkin的追踪流程：四、高级功能与优化五、适用场景六、总结服务监控与追踪（SpringCloudSleuth和Zipkin）一、为什么需要服务监控与追踪？在微服务架构中，一个
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
QEMU 中 x86_cpu_realizefn 到 ept_emulation_fault 的调用流程解析（macos） inquisiter 数据库服务器 linux
QEMU中x86_cpu_realizefn到ept_emulation_fault的调用流程解析在QEMU的x86虚拟化实现中，CPU的初始化与执行流程涉及多个关键函数，从CPU设备的最终初始化（x86_cpu_realizefn）到虚拟机监控程序（HVF）中处理EPT（扩展页表）缺页异常（ept_emulation_fault），以下是完整调用链的详细分析：1.x86_cpu_realizef
使用LangSmith追踪LLM令牌使用情况的指南 dgay_hua java 服务器前端 python
在将应用程序投入生产时，追踪令牌使用情况以计算成本是一个重要的步骤。本文将深入探讨如何从LangChain模型调用中获取这些信息。技术背景介绍在大语言模型（LLM）的应用中，令牌使用计数是估算模型调用成本的基础。LangSmith提供了一种有效的方式来帮助跟踪应用程序中的令牌使用。此外，使用回调机制可以在不同的API调用中进行监控，这对于复杂的应用程序尤其重要。核心原理解析通过在API调用中使用回
SpringBoot集成Pulsar 生产者与消费者示例代码七维大脑技术&解决方案分享 java 中间件
目录介绍功能特点一、导入pulsar依赖二、pulsar配置（示例为yml文件）三、生产者示例代码四、消费者代码介绍Pulsar是一个多租户、高性能的服务器到服务器消息传递解决方案。Pulsar最初由Yahoo开发，由Apache软件基金会管理。功能特点Pulsar的主要功能如下：原生支持Pulsar实例中的多个集群，并可跨集群无缝地复制消息。非常低的发布和端到端延迟。无缝扩展到超过一百万个主题。
Calico与eBPF知多少：高性能网络与可观测性实践指南磐基Stack专业服务团队 Calico 网络 php 开发语言
#作者：邓伟文章目录摘要1.引言1.1背景1.2目的2.Calico简介2.1功能概述2.2架构概览3.理解eBPF3.1定义3.2应用场景系统监控：内核级可观测性革命网络过滤：高性能流量治理性能分析：函数级瓶颈定位4.Calico与eBPF的融合4.1集成方式4.2优势分析5.实践指南5.1部署步骤5.1.1准备环境5.1.2安装Calico并启用eBPF模式5.1.3配置要点5.2配置示例6.
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

Jmete+Grafana+Prometheus+Influxdb+Nginx+Docker架构搭建压测体系/监控体系/实时压测数据展示平台+遇到问题总结

背景

搭建阶段

Jmeter 分布式集群搭建

一. 分布式压测注意点

二. Jmeter分布式压测原理了解

三.参数优化

1. 控制台 取样 间隔的设置（linux中的日志输出时间间隔）

2. JVM优化 （按照4c 8g配置）

3. 修改默认编码

4. linux中没有实时输出日志

5. 进入jmeter的bin目录下，修改reportgenerator.properties

6. 打开主从机器交互配置，修改jmeter.properties文件

7. 指定运行 slave节点，二选一配置

8.压测执行 顺序

1. slave以server方式执行

2.Master压测

实时数据展示平台搭建

1.InfluxDb部署和配置

2.Grafana部署

3.Prometheus部署和配置

4.Nginx 部署（Yum方式）

5. Jmeter压测数据写入Influxdb

6. Node-exporter部署，监控发压机

7.Grafana展示Jmeter实时压测数据+展示Node-exporter数据

1.Grafana 配置 Jmeter压测数据源

2. 展示Jmeter实时压测数据

3.添加Prometheus+node-exporter主机监控数据源

4. 展示主机监控数据，添加Dashboard

问题总结

你可能感兴趣的:(prometheus,grafana,node-exporter,docker+监控,jmeter集群,influxdb)

1. 控制台取样间隔的设置（linux中的日志输出时间间隔）

2. JVM优化（按照4c 8g配置）

8.压测执行顺序