.Anoxia

prometheus+grafana+node_exporter+alertmanager监控主机及报警

安装prometheus
安装node_exporter
安装grafana
安装alertmanager
参考文档

安装prometheus

prometheus安装
各个版本的Prometheus https://prometheus.io/download/
以linux系统为例，下载编译好的二进制包，解压使用：

$ wget  https://github.com/prometheus/prometheus/releases/download/v2.11.1/prometheus-2.11.1.linux-amd64.tar.gz
$ tar xzvf prometheus-2.11.1.linux-amd64.tar.gz
$ mv prometheus-2.11.1.linux-amd64 /usr/local/prometheus

验证安装是否成功

$ cd /usr/local/prometheus
$ ./prometheus --version
prometheus, version 2.11.1 (branch: HEAD, revision: e5b22494857deca4b806f74f6e3a6ee30c251763)
  build user:       root@d94406f2bb6f
  build date:       20190710-13:51:17
  go version:       go1.12.7

编辑prometheus配置文件
prometheus默认配置文件在prometheus目录下，文件名为prometheus.yml，默认配置文件内容如下：

$ cat /usr/local/prometheus/prometheus.yml

# Prometheus全局配置项
global:
  scrape_interval:     15s # 设定抓取数据的周期，默认为1min
  evaluation_interval: 15s # 设定更新rules文件的周期，默认为1min
  scrape_timeout: 15s # 设定抓取数据的超时时间，默认为10s
  external_labels: # 额外的属性，会添加到拉取得数据并存到数据库中
   monitor: 'codelab_monitor'


# Alertmanager配置
alerting:
 alertmanagers:
 - static_configs:
   - targets: ["localhost:9093"] # 设定alertmanager和prometheus交互的接口，即alertmanager监听的ip地址和端口
     
# rule配置，首次读取默认加载，之后根据evaluation_interval设定的周期加载
rule_files:
 - "alertmanager_rules.yml"
 - "prometheus_rules.yml"

# scape配置
scrape_configs:
- job_name: 'prometheus' # job_name默认写入timeseries的labels中，可以用于查询使用
  scrape_interval: 15s # 抓取周期，默认采用global配置
  static_configs: # 静态配置
  - targets: ['localdns:9090'] # prometheus所要抓取数据的地址，即instance实例项

创建新用户运行prometheus，家目录为/var/lib/prometheus，用作存放prometheus的数据。

$ groupadd prometheus
$ useradd -g prometheus -m -d /var/lib/prometheus -s /sbin/nologin prometheus

创建systemd服务

$ vim /lib/systemd/system/prometheus.service

[Unit]
Description=prometheus
After=network.target
[Service]
Type=simple
User=prometheus
ExecStart=/usr/local/prometheus/prometheus \
--config.file=/usr/local/prometheus/prometheus.yml \
--storage.tsdb.path=/var/lib/prometheus/data \
--web.enable-admin-api \
--web.enable-lifecycle
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
[Install]
WantedBy=multi-user.target

$ mkdir /var/lib/prometheus/data

启动prometheus

$ systemctl daemon-reload
$ systemctl start prometheus

验证是否启动成功
默认监听端口为9090

$ systemctl status prometheus
$ netstat -lnpt|grep 9090

访问自带的web
prometheus自带web界面，可以查看表达式搜索结果、报警配置、prometheus配置、exporter信息等。web界面默认为 http://ip:9090。

也可以访问http://ip:9090/metrics,查看默认抓取的数据。

上面就是简单启动Prometheus，prometheus启动时还有一些启动选项。
Prometheus相关启动选项
–config.file 指定启动的配置文件。例： --config.file=“prometheus.yml”
–web.listen-address 指定监听ip及端口。例：–web.listen-address=“0.0.0.0:9090”
–web.enable-admin-api 为管理控制操作启用API端点。
–web.enable-lifecycle 通过HTTP请求启用关机和重新加载。
–storage.tsdb.path 指定prometheus数据存储路径。例： --storage.tsdb.path="/data/"
–storage.tsdb.retention.time 指定Prometheus数据存储时间，默认存在15天。例：–storage.tsdb.retention.time=“24h”
删除prometheus数据信息

控制管理 API 启用后，可以使用下面的语法来删除与某个标签匹配的所有时间序列指标：

$ curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={kubernetes_name="prometheus"}'

如果要删除一些 job 任务或者 instance 的数据指标，则可以使用下面的命令：

$ curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={job="prometheus"}'
$ curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={instance="prometheus"}'

要从 Prometheus 中删除所有的数据，可以使用如下命令：

$ curl -X POST -g 'http://localhost:9090/api/v1/admin/tsdb/delete_series?match[]={__name__=~".+"}'

清理某个时间段的数据（清理的时间戳区间：1557903714 到 155790395 ），用以下命令：

curl -X POST -g 'http://127.0.0.1:9090/api/v1/admin/tsdb/delete_series?start=1557903714&end=1557903954&match[]={instance="prometheus",job="prometheus"}'

不过需要注意的是上面的 API 调用并不会立即删除数据，实际数据任然还存在磁盘上，会在后面进行数据清理。

安装node_exporter

prometheus通过node_exporter提供的接口收集主机信息。

安装node_exporter
github上node_exporter相关文档 https://github.com/prometheus/node_exporter
各个版本的node_exporter https://github.com/prometheus/node_exporter/releases
下载编译好的二进制包，解压使用：

$ wget https://github.com/prometheus/node_exporter/releases/download/v0.18.1/node_exporter-0.18.1.linux-amd64.tar.gz
$ tar -xvf node_exporter-0.18.1.linux-amd64.tar.gz
$ mv node_exporter-0.18.1.linux-amd64 /usr/local/node_exporter

验证安装是否成功

$ ./node_exporter --version
node_exporter, version 0.18.1 (branch: HEAD, revision: 3db77732e925c08f675d7404a8c46466b2ece83e)
  build user:       root@b50852a1acba
  build date:       20190604-16:41:18
  go version:       go1.12.5

创建systemd服务

$ vim /lib/systemd/system/node_exporter.service

[Unit]
Description=node_exporter
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/node_exporter/node_exporter
Restart=on-failure
[Install]
WantedBy=multi-user.target

启动node_exporter

$ systemctl daemon-reload
$ systemctl start node_exporter

验证是否启动成功
默认监听端口为9100

$ systemctl status node_exporter
$ netstat -lnpt|grep 9100

prometheus.yml中加入node_exporter的配置

$ vim prometheus.yml

  - job_name: node_exporter  #自定义
    static_configs:
    - targets: ['127.0.0.1:9090']
      labels:
        instance: node_exporter #自定义
        group: node_exporter #自定义

重新加载prometheus的配置

$ systemctl reload prometheus
或
$ curl -X POST http://localhost:9090/-/reload  (启用了--web.enable-lifecycle选项)

查看是否配置成功
访问 http://127.0.0.1:9090。

点击Targets，查看添加的node信息。

访问 http://127.0.0.1:9100/metrics 查看抓取的节点信息。

安装grafana

Grafana是用于可视化大型测量数据的开源程序，它提供了强大和优雅的方式去创建、共享、浏览数据。Dashboard中显示了不同metric数据源中的数据。

grafana官网 https://grafana.com
grafana各个版本 https://grafana.com/grafana/download

安装grafana
以ubuntu系统安装为例：

$ wget https://dl.grafana.com/oss/release/grafana_6.3.1_amd64.deb 
$ dpkg -i grafana_6.3.1_amd64.deb

查看是否安装成功

$ grafana-server -v
Version 6.3.1 (commit: f2fffad, branch: HEAD)

启动grafana

$ service grafana-server start

验证是否启动成功
默认监听端口为3000

$ service grafana-server status
$ netstat -lnpt|grep 3000

访问grafana
访问 http://127.0.0.1:3000 默认用户名和密码都为admin。
添加数据源
点击Data Sources。

数据源选择Prometheus。

名字为Prometheus，URL为 http://localhost:9090，其他默认就可以，保存。

在Dashboards页面导入Prometheus Status模板，这里选择导入官网的模板。

点击import，可以输入模板的id，也可以上传json文件。
官网模版 https://grafana.com/grafana/dashboards
这里用405号模板，Prometheus选择Prometheus，点击import。

时间选择最近5分钟，此时会有数据。

根据自身需求可以导入其他模板，也可以自己做仪表盘。
一些模板需要依赖相应插件，可以去官网下载，安装说明官网文档都有记载。
官网插件下载网址 https://grafana.com/grafana/plugins

安装alertmanager

安装alertmanager
报警可以使用grafana自带的报警，也可以通过alertmanager实现报警。
各个版本的alertmanager https://github.com/prometheus/alertmanager/releases
下载编译好的二进制文件，解压使用：

$ wget https://github.com/prometheus/alertmanager/releases/download/v0.18.0/alertmanager-0.18.0.linux-amd64.tar.gz
$ tar -xvf alertmanager-0.18.0.linux-amd64.tar.gz
$ mv alertmanager-0.18.0.linux-amd64 /usr/local/alertmanager

查看是否安装成功

$ cd /usr/local/alertmanager
$ ./alertmanager --version
alertmanager, version 0.18.0 (branch: HEAD, revision: 1ace0f76b7101cccc149d7298022df36039858ca)
  build user:       root@868685ed3ed0
  build date:       20190708-14:31:49
  go version:       go1.12.6

修改主配置文件
主配置文件为alertmanager.yml

$ vim alertmanager.yml

# 全局配置项
global: 
  resolve_timeout: 5m #处理超时时间，默认为5min
  smtp_smarthost: 'smtp.qq.com:587' # 邮箱smtp服务器代理
  smtp_from: '******@qq.com' # 发送邮箱名称
  smtp_auth_username: '******@qq.com' # 邮箱名称
  smtp_auth_password: '******' # 授权码
  wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企业微信地址


# 定义模板信息
templates:
  - 'template/*.tmpl'

# 定义路由树信息
route:
  group_by: ['alertname'] # 报警分组依据
  group_wait: 20s # 最初即第一次等待多久时间发送一组警报的通知
  group_interval: 20s # 在发送新警报前的等待时间
  repeat_interval: 5m # 发送重复警报的周期 对于email配置中，此项不可以设置过低，否则将会由于邮件发送太多频繁，被smtp服务器拒绝
  receiver: 'email' # 发送警报的接收者的名称，以下receivers name的名称

# 定义警报接收者信息
receivers:
  - name: 'email' # 警报
    email_configs: # 邮箱配置
    - to: '******@163.com,******@qq.com'  # 接收警报的email配置，多个邮箱用“,”分隔
      html: '{{ template "test.html" . }}' # 设定邮箱的内容模板
      headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题
    webhook_configs: # webhook配置，不需要可以注释掉
    - url: 'http://127.0.0.1:5001'
    send_resolved: true
    wechat_configs: # 企业微信报警配置,不需要可以注释掉
    - send_resolved: true
      to_party: '1' # 接收组的id
      agent_id: '1000002' # (企业微信-->自定应用-->AgentId)
      corp_id: '******' # 企业信息(我的企业-->CorpId[在底部])
      api_secret: '******' # 企业微信(企业微信-->自定应用-->Secret)
      message: '{{ template "test_wechat.html" . }}' # 发送消息模板的设定

上述配置了email、webhook和wechat三种报警方式。

注：
1）repeat_interval配置项，对于email来说，此项不可以设置过低，否则将会由于邮件发送太多频繁，被smtp服务器拒绝。
2）企业微信注册地址：https://work.weixin.qq.com

.tmpl模板配置

邮件报警

$ mkdir template
$ vim template/test.tmpl

{{ define "test.html" }}

        {{ range $i, $alert := .Alerts }}
                
        {{ end }}

        
                项目组
                报警项
                实例
                报警阀值
                开始时间
                详情
        

                        {{ index $alert.Labels "group" }}
                        {{ index $alert.Labels "alertname" }}
                        {{ index $alert.Labels "instance" }}
                        {{ index $alert.Annotations "value" }}
                        {{ $alert.StartsAt }}
                        {{ index $alert.Annotations "summary" }}
                
{{ end }}

上述Labels项，表示prometheus里面的可选label项。annotation项表示报警规则中定义的annotation项的内容。

企业微信报警

$ vim template/test_wechat.tmpl

{{ define "cdn_live_wechat.html" }}
  {{ range $i, $alert := .Alerts.Firing }}
    [报警项]:{{ index $alert.Labels "alertname" }}
    [实例]:{{ index $alert.Labels "instance" }}
    [报警阀值]:{{ index $alert.Annotations "value" }}
    [开始时间]:{{ $alert.StartsAt }}
  {{ end }}
{{ end }}

此处range遍历项与email模板中略有不同，只遍历当前没有处理的报警（Firing）。此项如果不设置，则在Alert中已经Resolved的报警项，也会被发送到企业微信。

定义报警规则

$ cd /usr/local/prometheus
$ vim rule.yml

groups:
  - name: node_status
    rules:
    - alert: node_status # 告警名称
      expr: probe_success == 0 # 告警的判定条件，参考Prometheus高级查询来设定
      for: 1m # 满足告警条件持续时间多久后，才会发送告警
      labels: #标签项
        status: 严重
      annotations: # 解析项，详细解释告警信息
        summary: "group:{{$labels.group}},instance:{{$labels.instance}} has been down "
        description: "group:{{$labels.group}},instance:{{$labels.instance}} has been down "
        value: "{{$value}}"
  - name: CPU
    rules:
    - alert: CPU使用率
      expr: sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[6m]))) by (instance) * 100 > 80
      for: 1m
      labels:
        status: 一般
      annotations:
        summary: "group:{{$labels.group}},instance:{{$labels.instance}}:CPU使用率大于80%"
        value: "{{$value}}"

报警规则可以根据自己的需求进行添加修改。

告警信息生命周期的3种状态

inactive：表示当前报警信息即不是firing状态也不是pending状态。
pending：表示在设置的阈值时间范围内被激活的。
firing：表示超过设置的阈值时间被激活的。

修改prometheus配置文件

$ vim prometheus.yml

alerting:
  alertmanagers:
  - static_configs:
    - targets:
       - localhost:9093
rule_files:
   - "rules.yml"

创建systemd服务

$ vim /lib/systemd/system/alertmanager.service

[Unit]
Description=alertmanager
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/alertmanager/alertmanager --config.file=/usr/local/alertmanager/alertmanager.yml
Restart=on-failure
[Install]
WantedBy=multi-user.target

启动alertmanager

$ systemctl daemon-reload
$ systemctl start alertmanager

验证是否启动成功
alertmanager默认监听端口为9093

$ systemct status alertmanager
$ netstat -lnpt|grep 9093

重新加载prometheus配置

$ systemctl reload prometheus
或
$ curl -X POST http://localhost:9090/-/reload  (启用了--web.enable-lifecycle选项)

查看报警
访问web页面 http://127.0.0.1:9090/alerts，http://127.0.0.1:9090/rules 查看添加的报警规则。

当监控的指标数值到达规定的阈值，且满足定义的报警时间后就会发送警报，在web界面也可以看到相应状态的变化。

参考文档

https://www.hi-linux.com/posts/25047.html#%E5%AE%89%E8%A3%85prometheus
https://www.qikqiak.com/post/prometheus-delete-metrics/
https://www.cnblogs.com/longcnblogs/p/9620733.html

JavaScript的函数拦截技术详解天天进步2015 前端开发 javascript 开发语言 ecmascript
引言在JavaScript的世界里，函数是一等公民。它们可以被赋值给变量，作为参数传递，甚至可以被动态修改。函数拦截（FunctionInterception）是一种强大的技术，允许开发者在不修改原始函数代码的情况下，拦截、监控和修改函数的行为。本文将深入探讨JavaScript函数拦截的各种技术、应用场景以及最佳实践。什么是函数拦截？函数拦截是指在函数执行前、执行中或执行后插入自定义逻辑的过程。
如何使用LangChain流式处理工具事件 fgayif langchain java 前端 python
在AI开发中，实时处理和监听事件是一项关键能力，特别是在处理复杂的模型和工具链时。本文将向您展示如何使用LangChain框架流式处理自定义工具中的事件，以便更好地监控和调试模型的内部状态。技术背景介绍LangChain是一个用于构建和操作语言模型的工具库，其中astream_events()方法能帮助我们监听和处理来自模型的事件流。了解如何正确地配置这些事件对于调试和高级应用至关重要，尤其是在运
华为基于IPD如何做需求管理？！从解读96页【华为IPD如何做需求管理】PPT开始智慧化智能化数字化方案华为学习专栏项目经理售前工程师技能提升华为华为IPD流程 IPD流程体系
该文档全面介绍了华为的IPD需求管理体系，包括概论、体系构建、跨部门协作、需求收集、分析、分发、文档编写与评审、确认、变更管理、跟踪与监控、效果评估以及常见问题解答等内容，旨在为企业提供一套系统的需求管理方法，以提高产品开发的成功率和客户满意度。需求管理概论1.需求管理的定义与流程-需求从客户中来，通过市场管理、需求管理流程提取，经IPD流程实现后回到客户中，形成端到端需求管理。IPD流程总体框架
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
使用 Argilla 进行大语言模型数据管理与监控 qahaj 语言模型 python 人工智能
技术背景介绍Argilla是一个开源的数据管理平台，专为大语言模型（LLMs）设计。它旨在通过快速的数据管理以及结合人类和机器的反馈，帮助开发者构建更强大的语言模型。同时，Argilla支持整个MLOps周期的每个步骤，从数据标注到模型监控。核心原理解析Argilla的核心优势在于其灵活的数据管理流程和强大的反馈机制。通过Argilla，开发者可以实时监控模型性能，并根据需要调整数据标注策略。这种
5（五）Jmeter监控服务器性能夜晚打字声工具 jmeter 服务器运维
下载安装插件需要安装插件：ServerAgent-2.2.1（链接：https://pan.baidu.com/s/1Tr63aKbzLuldBoRB5IR7Dg提取码：nyfk）JMeterPlugins-Standard-1.4.0（链接：https://pan.baidu.com/s/13af9OS4JDagg4RFhqxVVbg提取码：51ev）JMeterPlugins-Extras-1
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
“三分钟”带你看懂批次管理!（一） wms系统
一、批次管理的定义与重要性1.批次管理的定义：批次管理是一种针对产品或物料的管理方法，它将同一生产周期或相同条件下生产、具有一致质量特征、生产信息和使用属性的产品组作为一个批次，进行分类、标识、追踪和管理。2.批次管理的重要性：提高可追溯性：精准追踪物料和产品的来源、去向及生命周期，在质量问题或召回需求出现时，能快速锁定问题批次，降低损失。增强质量控制：监控不同批次产品的质量指标，及时发现和分析质
K8S之POD调度〰振振 ༽ K8S kubernetes docker 容器
K8S-Pod调度1、Deployment/RC:全自动调度简述Deployment或RC的主要功能就是自动部署一个容器应用的多份副本，及持续监控副本的数量并维持该值。创建Deploymentkubectlcreate-fnginx-deployment.yaml#nginx-deployment.yamlapiVersion:apps/v1kind:Deploymentmetadata:name
K8S遇到过的比较深刻的Pod问题 Gold Steps. 技术博文分享 kubernetes 容器云原生故障处理
第一案：Pod集体自杀凌晨12点的告警总是格外刺眼。值班群里突然炸出一连串消息："支付服务全部下线！但Pod日志显示一切正常！"运维组赶到战场时，发现大量Pod像多米诺骨牌般接连消失，监控面板上却全是绿色对勾。错误排查：#查看案发时间线kubectlgetevents--sort-by='.lastTimestamp'|grep-ikilled#查看Pod详细信息kubectldescribepo
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
服务器虚拟化相关的面试题努力的搬砖人. java 面试服务器其他
以下是服务器虚拟化相关的面试题，涵盖了服务器虚拟化的基础概念、技术原理、应用场景、性能优化、容错与高可用性、网络与存储、管理与监控、安全与备份、与其他技术的结合等方面，希望对你有所帮助。服务器虚拟化基础概念1.什么是服务器虚拟化？它的主要目的是什么？•服务器虚拟化是指通过虚拟化技术将一台物理服务器虚拟成多台虚拟机，每台虚拟机可以独立运行操作系统和应用程序。其主要目的是提高服务器的资源利用率，降低硬
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
Modbus最全最简单讲解道传科技上位机网络
一、什么是ModbusModbus是一种串行通信协议，最初由Modicon公司（现为施耐德电气的一部分）在1979年为使用其PLC（可编程逻辑控制器）而开发。Modbus已成为工业领域内广泛使用的一种通信协议，特别是对于监控和控制系统。Modbus协议支持多种通信方式，包括RTU（RemoteTerminalUnit，远程终端单元模式）、TCP/IP和ASCII（美国标准信息交换码）等。备注：C#
存储系统怎么选？分布式存储vs.集中式存储的区别在哪？东方念分布式
在当今的数字化时代，安防监控已成为维护社会秩序和公共安全的重要手段。随着监控设备的普及和监控数据的不断增加，如何高效、安全地存储和管理这些视频数据，成为了安防行业面临的重要挑战。EasyCVR视频存储系统凭借其卓越的性能和灵活的架构，为安防行业提供了一个理想的解决方案。一、EasyCVR视频监控存核心优势EasyCVR视频汇聚平台是一个具备高度集成化、智能化的视频监控汇聚管理平台，拥有远程视频监控
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混一个处女座的程序猿 NLP/LLMs CaseCode transformer minimind 预训练
LLMs之minimind：minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/分布式预训练/自动混合精度优化/梯度累积/梯度裁剪/定期保存模型目录minimind源码解读(pretrain.py)——实现基于Transformer架构的大规模语言模型预训练及wandb监控—支持余弦退火学习率调度/
IPv6网络的可操作安全考虑——RFC9099解析（四）黑带架构湿 IPv6安全网络安全安全
2.6记录和监控为了在发生安全事件或检测到异常行为的情况下进行取证（forensic）研究，网络运营商应记录多个信息片段。在某些情况下，这需要通过网络管理站对设备进行频繁的轮询。日志包括但不限于：在可用时，使用网络的所有应用程序（包括用户空间和内核空间）的日志(例如，网络运营商管理的web服务器；IPFIX数据【RFC7011】；SNMPMIBs或来自RESTCONF/NETCONF的YANG数据
prometheus使用alertmanager实现报警功能平凡似水的人生监控系列运维 linux 监控类
前言在运维工作中，最重要的事情就是监控，监控中最重要的就是报警功能，这样可以使我们收到告警之后及时处理，以免事态发展到无可挽回的地步，下面就给大家分享一下prometheus中的告警如何实现吧。一、安装altermanager1、解压安装包tarzxfalertmanager-0.21.0.linux-amd64.tar.gz-C/data/#查看是否安装成功cd/data/alertmanage
服务器监控 Prometheus、AlertManager、Grafana、钉钉机器人通知懒熊猫运维
监控系统简介Prometheus是一套开源的系统监控报警框架。需要指出的是，由于数据采集可能会有丢失，所以Prometheus不适用对采集数据要100%准确的情形。但如果用于记录时间序列数据，Prometheus具有很大的查询优势，此外，Prometheus适用于微服务的体系架构。prometheus可以理解为一个数据库+数据抓取工具，工具从各处抓来统一的数据，放入prometheus这一个时间序
Java直通车系列46【Spring Cloud】（服务监控与追踪Spring Cloud Sleuth 和 Zipkin）浪九天 Java直通车 java spring 开发语言后端 spring cloud
目录服务监控与追踪（SpringCloudSleuth和Zipkin）一、为什么需要服务监控与追踪？二、核心工具：SpringCloudSleuth+Zipkin三、场景示例：电商下单调用链追踪场景描述：使用Sleuth+Zipkin的追踪流程：四、高级功能与优化五、适用场景六、总结服务监控与追踪（SpringCloudSleuth和Zipkin）一、为什么需要服务监控与追踪？在微服务架构中，一个
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
QEMU 中 x86_cpu_realizefn 到 ept_emulation_fault 的调用流程解析（macos） inquisiter 数据库服务器 linux
QEMU中x86_cpu_realizefn到ept_emulation_fault的调用流程解析在QEMU的x86虚拟化实现中，CPU的初始化与执行流程涉及多个关键函数，从CPU设备的最终初始化（x86_cpu_realizefn）到虚拟机监控程序（HVF）中处理EPT（扩展页表）缺页异常（ept_emulation_fault），以下是完整调用链的详细分析：1.x86_cpu_realizef
使用LangSmith追踪LLM令牌使用情况的指南 dgay_hua java 服务器前端 python
在将应用程序投入生产时，追踪令牌使用情况以计算成本是一个重要的步骤。本文将深入探讨如何从LangChain模型调用中获取这些信息。技术背景介绍在大语言模型（LLM）的应用中，令牌使用计数是估算模型调用成本的基础。LangSmith提供了一种有效的方式来帮助跟踪应用程序中的令牌使用。此外，使用回调机制可以在不同的API调用中进行监控，这对于复杂的应用程序尤其重要。核心原理解析通过在API调用中使用回
Calico与eBPF知多少：高性能网络与可观测性实践指南磐基Stack专业服务团队 Calico 网络 php 开发语言
#作者：邓伟文章目录摘要1.引言1.1背景1.2目的2.Calico简介2.1功能概述2.2架构概览3.理解eBPF3.1定义3.2应用场景系统监控：内核级可观测性革命网络过滤：高性能流量治理性能分析：函数级瓶颈定位4.Calico与eBPF的融合4.1集成方式4.2优势分析5.实践指南5.1部署步骤5.1.1准备环境5.1.2安装Calico并启用eBPF模式5.1.3配置要点5.2配置示例6.
便民服务一体化的智慧园区开源了 AI服务老曹音视频人工智能自动化运维能源开源
智慧园区场景视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。充分利用现有的摄像头设备，无需大规模更换，降低成本同时提升系统的实施效率。用户只需在界面上进行简单的操作，就可以实现全视频的接入及布控。项目搭建地址基础项目搭建地址：yihecode
实现物流行业数字化、智能化管理的新型模式的智慧物流开源了 AI服务老曹开源能源人工智能云计算安全
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
全流程数字化管理的智慧物流开源了 AI服务老曹开源科技生活人工智能自动化
智慧物流视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，从而大大减少企业级应用约95%的开发成本。构建基于Ai技术的安全监管平台，可逐步实现智能化巡检，针对安全事故隐患进行有效监控预警，降低安全违规行为发生率，节省人工监管成本。用户只需在界面上进行简单的操作，就可以实现全视频的接入及
降低成本、提高效率的智慧能源开源了。 ai产品老杨 vue.js 前端 javascript 人工智能安全
一、简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，在强大视频算法加持下的AR使得远程培训和远程操作指导不仅仅能够实现前后场的简单互动，而且能够实现人机结合，最终实现整个巡检流程的标准化。用户仅需在界面上简单操作，即可实现全视频的接入及布控。通
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

项目组	报警项	实例	报警阀值	开始时间	详情
{{ index $alert.Labels "group" }}	{{ index $alert.Labels "alertname" }}	{{ index $alert.Labels "instance" }}	{{ index $alert.Annotations "value" }}	{{ $alert.StartsAt }}	{{ index $alert.Annotations "summary" }}

prometheus+grafana+node_exporter+alertmanager监控主机及报警