dengxiafubi

Prometheus源码系列：通知管理(notifierManager)

Prometheus会在配置文件定义一些告警规则表达式, 当采集的metrics经过聚合, 满足告警表达式条件, 将触发告警, 发送给告警服务Alertmanager. 所以，本文主要分析与Alertmanager交互的通知管理(notifierManager), 但会先梳理下规则管理(ruleManager)的部分内容. 因为告警规则的最终判断是由规则管理(ruleManager)完成.

一: 规则管理(ruleManager)把告警信息发送给通知管理(notifierManager)

(1) 规则管理(ruleManager)调用方法NewManager完成实例化, 其中，参数是结构体ManagerOptions, 我们需要关注的是该结构体中类型为NotifyFunc的方法sendAlerts．


prometheus/cmd/prometheus/main.go

ruleManager = rules.NewManager(&rules.ManagerOptions{
    Appendable:      fanoutStorage,
    TSDB:            localStorage,
    QueryFunc:       rules.EngineQueryFunc(queryEngine, fanoutStorage),
    // 若触发告警规则,则通过sendAlerts发送告警信息
    NotifyFunc:      sendAlerts(notifierManager, cfg.web.ExternalURL.String()),
    Context:         ctxRule,
    ExternalURL:     cfg.web.ExternalURL,
    Registerer:      prometheus.DefaultRegisterer,
    Logger:          log.With(logger, "component", "rule manager"),
    OutageTolerance: time.Duration(cfg.outageTolerance),
    ForGracePeriod:  time.Duration(cfg.forGracePeriod),
    ResendDelay:     time.Duration(cfg.resendDelay),
})

prometheus/rules/manager.go
type ManagerOptions struct {
	ExternalURL     *url.URL
	QueryFunc       QueryFunc
	NotifyFunc      NotifyFunc
	Context         context.Context
	Appendable      Appendable
	TSDB            storage.Storage
	Logger          log.Logger
	Registerer      prometheus.Registerer
	OutageTolerance time.Duration
	ForGracePeriod  time.Duration
	ResendDelay     time.Duration

	Metrics *Metrics
}

(2) sendAlerts方法主要作用是把规则管理(ruleManager)把告警信息转换成notifier.Alert类型.

prometheus/cmd/prometheus/main.go

//遍历告警信息,构造告警,告警信息大于0, 则发送告警
// sendAlerts implements the rules.NotifyFunc for a Notifier.
func sendAlerts(s sender, externalURL string) rules.NotifyFunc {
	return func(ctx context.Context, expr string, alerts ...*rules.Alert) {
		var res []*notifier.Alert
        // 遍历告警信息
		for _, alert := range alerts {
			a := ¬ifier.Alert{
				StartsAt:     alert.FiredAt,
				Labels:       alert.Labels,
				Annotations:  alert.Annotations,
				GeneratorURL: externalURL + strutil.TableLinkForExpression(expr),
			}
            // 若告警结束,设置告警结束时间为ResolverdAt时间
			if !alert.ResolvedAt.IsZero() {
				a.EndsAt = alert.ResolvedAt
			} else {
            // 若告警还是active转台,设置告警结束时间为当前时间
				a.EndsAt = alert.ValidUntil
			}
			res = append(res, a)
		}

        // 若是有告警信息, 则发送告警
		if len(alerts) > 0 {
			s.Send(res...)
		}
	}
}

(3) 接着由Send方法把notifier.Alert类型的告警信息添加到告警队列中n.queue，其中会涉及到一些队列大小限制，通过先进先出保存最新的告警信息．最后等待通知管理(notifierManager)从队列中取走．

prometheus/notifier/notifier.go

// Send queues the given notification requests for processing.
// Panics if called on a handler that is not running.
func (n *Manager) Send(alerts ...*Alert) {
    // 锁管理这里不多介绍
	n.mtx.Lock()
	defer n.mtx.Unlock()

	// Attach external labels before relabelling and sending.
    // 根据配置文件prometheus.yml的alert_relabel_configs下的relabel_config对告警的label进行重置
	for _, a := range alerts {
		lb := labels.NewBuilder(a.Labels)

		for ln, lv := range n.opts.ExternalLabels {
			if a.Labels.Get(string(ln)) == "" {
				lb.Set(string(ln), string(lv))
			}
		}

		a.Labels = lb.Labels()
	}

	alerts = n.relabelAlerts(alerts)

    // 若待告警信息的数量大于队列总容量,则移除待告警信息中最早的告警信息, 依据的规则是先进先移除
	// Queue capacity should be significantly larger than a single alert
	// batch could be.
	if d := len(alerts) - n.opts.QueueCapacity; d > 0 {
        // 和python的列表相似
		alerts = alerts[d:]

		level.Warn(n.logger).Log("msg", "Alert batch larger than queue capacity, dropping alerts", "num_dropped", d)
		n.metrics.dropped.Add(float64(d))
	}
    // 若队列中已有的告警信息和待发送的告警信息大于队列的总容量,则从队列中移除最早的告警信息, 依据是先进先移除
	// If the queue is full, remove the oldest alerts in favor
	// of newer ones.
	if d := (len(n.queue) + len(alerts)) - n.opts.QueueCapacity; d > 0 {
		n.queue = n.queue[d:]

		level.Warn(n.logger).Log("msg", "Alert notification queue full, dropping alerts", "num_dropped", d)
		n.metrics.dropped.Add(float64(d))
	}
    // 把待发送的告警信息加入队列
	n.queue = append(n.queue, alerts...)

    // 告知通知管理(notifierManager)有告警信息需要处理
	// Notify sending goroutine that there are alerts to be processed.
	n.setMore()
}

(4) 其中，setMore方法相当于一个触发器，向管道n.more发送触发信息, 告知通知管理(notifierManager)有告警信息需要处理，是连接规则管理(ruleManager)和通知管理(notifierManager)的桥梁.

prometheus/notifier/notifier.go

// setMore signals that the alert queue has items.
func (n *Manager) setMore() {
	// If we cannot send on the channel, it means the signal already exists
	// and has not been consumed yet.
	select {
	case n.more <- struct{}{}:
	default:
	}
}

(5) 再分析通知管理(notifierManager)的Run方法可知，在for循环中，监听的管道正是n.more

prometheus/notifier/notifier.go

// Run dispatches notifications continuously.
func (n *Manager) Run(tsets <-chan map[string][]*targetgroup.Group) {

	for {
		select {
		case <-n.ctx.Done():
			return
		case ts := <-tsets:
			n.reload(ts)
        // 监听管道n.more
		case <-n.more:
		}
		alerts := n.nextBatch()

		if !n.sendAll(alerts...) {
			n.metrics.dropped.Add(float64(len(alerts)))
		}
		// If the queue still has items left, kick off the next iteration.
		if n.queueLen() > 0 {
			n.setMore()
		}
	}
}

以上即规则管理(ruleManager)和通知管理(notifierManager)之间的连接关系分析，接下来详细分析通知管理(notifierManager)

二: 启动通知管理(notifierManager)

(1) 通知管理(notifierManager)实例化结构体Manager是在方法NewManagern中完成，Prometheus源码系列：启动过程分析中给出里实例化的入口，这里不再介绍．

prometheus/notifier/notifier.go

// NewManager is the manager constructor.
func NewManager(o *Options, logger log.Logger) *Manager {
	ctx, cancel := context.WithCancel(context.Background())

    // 初始化http请求客户端
	if o.Do == nil {
		o.Do = do
	}
	if logger == nil {
		logger = log.NewNopLogger()
	}

    // 构建notifier的Manager结构体实例
	n := &Manager{
		queue:  make([]*Alert, 0, o.QueueCapacity), // 初始化告警队列
		ctx:    ctx, // 利用context协同处理
		cancel: cancel, // 级联式cancel ctx相关的协程
		more:   make(chan struct{}, 1), more是是否有告警信息的标记信号
		opts:   o,  // 其他一些参数,包含告警队列总容量, 告警label重置等
		logger: logger, // 日志相关
	}

    // 返回告警队列的长度
	queueLenFunc := func() float64 { return float64(n.queueLen()) }
     
    // 获取处于active的alertmanager地址个数, 用于notifier发送告警信息
	alertmanagersDiscoveredFunc := func() float64 { return float64(len(n.Alertmanagers())) }

    // 生成notifier相关的一些metric, 注册到prometheus
	n.metrics = newAlertMetrics(
		o.Registerer, // 注册的机制是: prometheus.Registerer
		o.QueueCapacity, //队列容量
		queueLenFunc, // 队列当前长度
		alertmanagersDiscoveredFunc, //处于active的alertmanager地址个数
	)

	return n
}


// Manager is responsible for dispatching alert notifications to an
// alert manager service.
type Manager struct {
	queue []*Alert
	opts  *Options

	metrics *alertMetrics

	more   chan struct{}
	mtx    sync.RWMutex
	ctx    context.Context
	cancel func()

	alertmanagers map[string]*alertmanagerSet
	logger        log.Logger
}

(2) 从配置文件中加载告警相关的配置信息，构建结构体alertmanagerSet

prometheus/notifier/notifier.go

// ApplyConfig updates the status state as the new config requires.
func (n *Manager) ApplyConfig(conf *config.Config) error {
    // 锁相关操作
	n.mtx.Lock()
	defer n.mtx.Unlock()

    // 配置文件prometheus.yml中global下的external_labels, 用于外部系统标签的，不是用于metrics数据
	n.opts.ExternalLabels = conf.GlobalConfig.ExternalLabels
    // 配置文件prometheus.yml中alertingl下alert_relabel_configs, 动态修改 alert 属性的规则配置
	n.opts.RelabelConfigs = conf.AlertingConfig.AlertRelabelConfigs

	amSets := make(map[string]*alertmanagerSet)

    // 遍历告警相关的配置,即配置文件prometheus.yml的alerting
	for _, cfg := range conf.AlertingConfig.AlertmanagerConfigs {
        把alerting下每个配置项, 转换成结构实例:alertmanagerSet
		ams, err := newAlertmanagerSet(cfg, n.logger)
		if err != nil {
			return err
		}
        //更新告警指标(metrics),即notifier注册到prometheus的指标(metrics), 参照方法newAlertMetrics
		ams.metrics = n.metrics

		// The config hash is used for the map lookup identifier.
        // 编码成json字符串
		b, err := json.Marshal(cfg)
		if err != nil {
			return err
		}
        // key为该配置项的md5值,可作为唯一识别码, value是该配置的实例化的alertmanagerSet
		amSets[fmt.Sprintf("%x", md5.Sum(b))] = ams
	}

	n.alertmanagers = amSets

	return nil
}

其中结构体alertmanagerSet定义如下，保存告警服务信息

prometheus/notifier/notifier.go

// alertmanagerSet contains a set of Alertmanagers discovered via a group of service
// discovery definitions that have a common configuration on how alerts should be sent.
type alertmanagerSet struct {
	cfg    *config.AlertmanagerConfig // prometheus.yml中告警相关的配置
	client *http.Client  // http客户端

	metrics *alertMetrics // 告警服务注册到prometheus的指标,参照方法: newAlertMetrics

	mtx        sync.RWMutex // 同步锁
	ams        []alertmanager // 处于active的alertmanager的地址
	droppedAms []alertmanager // 处于dropped状态的alertmanager, 下面给个示例
	logger     log.Logger    // 日志
}

active和dropped alertmanager的地址示例:

{
  "status": "success",
  "data": {
    "activeAlertmanagers": [
      {
        "url": "http://127.0.0.1:9094/api/v1/alerts"
      }
    ],
    "droppedAlertmanagers": [
      {
        "url": "http://127.0.0.1:9093/api/v1/alerts"
      }
    ]
  }

(3) 在本文的第一部分，已经作了简单介绍，启动notifier服务的Run方法, 监听n.more管道. 若规则管理(ruleManager)向管道n.more发送信号, 告知通知管理(notifierManager)有告警信息需要发送，则触发接下来的告警信息处理

prometheus/notifier/notifier.go

// Run dispatches notifications continuously.
func (n *Manager) Run(tsets <-chan map[string][]*targetgroup.Group) {

	for {
		select {
        // 退出
		case <-n.ctx.Done():
			return
       // 发现告警服务有更新,重新加载配置. 参考服务发现(discoveryManager)
		case ts := <-tsets:
			n.reload(ts)
       // 告警信号
		case <-n.more:
		}
        // 利用告警队列, 获取告警信息
		alerts := n.nextBatch()
        // 根据active的alertmanager地址, 发送告警,并判断是否发送成功
		if !n.sendAll(alerts...) {
			n.metrics.dropped.Add(float64(len(alerts)))
		}
        // 若告警队列中还有告警信息,则再次想n.more传入信号,发送告警信息
		// If the queue still has items left, kick off the next iteration.
		if n.queueLen() > 0 {
			n.setMore()
		}
	}
}

. 此外, 以上的Run方法和的指标采集(scrapeManager)的Run方法共用服务发现 (serviceDiscover)的处理逻辑, 检测目标(targets)是否有变动, 不同的是通知管理(notifierManager)只监听告警服务的变动.

prometheus/cmd/prometheus/main.go

g.Add(
    func() error {
        // When the notifier manager receives a new targets list
        // it needs to read a valid config for each job.
        // It depends on the config being in sync with the discovery manager
        // so we wait until the config is fully loaded.
        <-reloadReady.C
        // 入口
        notifierManager.Run(discoveryManagerNotify.SyncCh())
        level.Info(logger).Log("msg", "Notifier manager stopped")
        return nil
    },
    func(err error) {
        notifierManager.Stop()
    },
)

　　(3)若大家对上篇文章 Prometheus源码系列：指标采集(scrapeManager)还有印象, 应该还能记得，指标采集(scrapeManager)的tset为map类型, key为job_name, value为targetgroup.Group．而通知管理(notifierManager)的tset也为map类型，不同的是key为AlertmanagerConfig, value为targetgroup.Group．其中，AlertmanagerConfig对应prometheus.yml中的alertmanagers对应的配置, 可参考Prometheus.yml配置文件示例

若检测到发现告警服务有变动,则会调用reload方法，同步告警服务

prometheus/notifier/notifier.go

func (n *Manager) reload(tgs map[string][]*targetgroup.Group) {
    // 锁操作, 不做解释
	n.mtx.Lock()
	defer n.mtx.Unlock()

    // 遍历发现的告警服务
	for id, tgroup := range tgs {
        // 判断每个告警服务的md5sum值是否已经在prometheus注册过, 可参考本文前面分析的ApplyConfig方法
		am, ok := n.alertmanagers[id]
		if !ok {
			level.Error(n.logger).Log("msg", "couldn't sync alert manager set", "err", fmt.Sprintf("invalid id:%v", id))
			continue
		}
        // 把告警信息同步给该告警服务
		am.sync(tgroup)
	}
}

(4) sync方法实现具体的同步操作，先遍历服务发现的告警服务，结合配置文件中alerting中relabel_configs信息，为每个激活状态的alertmanager构建实例，并根据得到的告警服务，再利用url进行去重处理．

　　其中sync方法中的alertmanagerFromGroup处理逻辑比较简单，对配置文件中的每个告警服务的label整理成如下示例：

(dlv) p lset
github.com/prometheus/prometheus/pkg/labels.Labels len: 3, cap: 3, [
	{
		Name: "__address__",
		Value: "alertmanager:9093",},
	{
		Name: "__alerts_path__",
		Value: "/api/v1/alerts",},
	{
		Name: "__scheme__",
		Value: "http",},
]

然后根据配置文件中alerting中relabel_configs的SourceLabels和Action，每个告警服务中进行匹配，若匹配成功，则标记该告警服务为Active，否则标记为Dropped．

prometheus/notifier/notifier.go

// sync extracts a deduplicated set of Alertmanager endpoints from a list
// of target groups definitions.
func (s *alertmanagerSet) sync(tgs []*targetgroup.Group) {
    // 处于激活状态的告警服务
	allAms := []alertmanager{}
    // 处于已丢弃状态的告警服务, 该部分是后加的保存项
	allDroppedAms := []alertmanager{}

    // 遍历服务发现的告警服务
	for _, tg := range tgs {
		ams, droppedAms, err := alertmanagerFromGroup(tg, s.cfg)
		if err != nil {
			level.Error(s.logger).Log("msg", "Creating discovered Alertmanagers failed", "err", err)
			continue
		}
		allAms = append(allAms, ams...)
		allDroppedAms = append(allDroppedAms, droppedAms...)
	}

	s.mtx.Lock()
	defer s.mtx.Unlock()
　　// 清空之前保存的告警服务，并通过每个告警的URL, 实现去重
	// Set new Alertmanagers and deduplicate them along their unique URL.
	s.ams = []alertmanager{}
	s.droppedAms = []alertmanager{}
	s.droppedAms = append(s.droppedAms, allDroppedAms...)
	seen := map[string]struct{}{}7
　　//进行去重处理
	for _, am := range allAms {
		us := am.url().String()
		if _, ok := seen[us]; ok {
			continue
		}

		// This will initialize the Counters for the AM to 0.
		s.metrics.sent.WithLabelValues(us)
		s.metrics.errors.WithLabelValues(us)

		seen[us] = struct{}{}
		s.ams = append(s.ams, am)
	}
}

　　(3) 获得了最新的告警服务列表，再回到之前的方法Run()，把待发送的告警信息信息，通过方法sendAll发送个最新的告警服务列表．若至少成功发送个一个告警服务，则返回true．

// sendAll sends the alerts to all configured Alertmanagers concurrently.
// It returns true if the alerts could be sent successfully to at least one Alertmanager.
func (n *Manager) sendAll(alerts ...*Alert) bool {
	begin := time.Now()
　　// 转换告警信息为json格式
	b, err := json.Marshal(alerts)
	if err != nil {
		level.Error(n.logger).Log("msg", "Encoding alerts failed", "err", err)
		return false
	}

	n.mtx.RLock()
　　// 获取当前最新的告警服务列表
	amSets := n.alertmanagers
	n.mtx.RUnlock()

	var (
		wg         sync.WaitGroup
		numSuccess uint64
	)
　　// 遍历告警服务列表
	for _, ams := range amSets {
		ams.mtx.RLock()

		for _, am := range ams.ams {
			wg.Add(1)

			ctx, cancel := context.WithTimeout(n.ctx, time.Duration(ams.cfg.Timeout))
			defer cancel()

　　　　　　　// 起一个协程发送告警信息
			go func(ams *alertmanagerSet, am alertmanager) {
				u := am.url().String()

				if err := n.sendOne(ctx, ams.client, u, b); err != nil {
					level.Error(n.logger).Log("alertmanager", u, "count", len(alerts), "msg", "Error sending alert", "err", err)
					n.metrics.errors.WithLabelValues(u).Inc()
				} else {
					atomic.AddUint64(&numSuccess, 1)
				}
				n.metrics.latency.WithLabelValues(u).Observe(time.Since(begin).Seconds())
				n.metrics.sent.WithLabelValues(u).Add(float64(len(alerts)))

				wg.Done()
			}(ams, am)
		}
		ams.mtx.RUnlock()
	}
	wg.Wait()

　　// 若至少成功发送给一个告警服务，则返回true
	return numSuccess > 0
}

至此，通知管理(notifierManager)分析完成

K8S学习之基础三十六：node-exporter部署云上艺旅 K8S学习 kubernetes 学习贪心算法 prometheus 云原生
Prometheusv2.2.1编写yaml文件，包含创建ns、configmap、deployment、service#创建monitoring空间viprometheus-ns.yamlapiVersion:v1kind:Namespacemetadata:name:monitoring#创建SA并绑定权限kubectlcreateserviceaccountmonitor-nmonitori
给我的 IM 系统加上监控两件套：【Prometheus + Grafana】蝎子莱莱爱打怪 prometheus grafana
监控是一个系统必不可少的组成部分，实时，准确的监控，将会大大有助于我们排查问题。而当今微服务系统的话有一个监控组合很火那就是Prometheus+Grafana，嘿你别说这俩兄弟配合的相当完美，Prometheus负责数据采集，Grafana负责可视化展示,各就其位，各司其职一起来完成监控这个活儿。紧接着我们简单对这两工具做个介绍~1、Prometheus与Grafana简介Prometheus作
微服务监控prometheus+Grafana chen2017sheng 经验总结微服务 prometheus grafana
目录Prometheus概述核心组件特点使用场景Grafana概述功能特点使用场景Prometheus+Grafana组合部署和配置一、准备工作二、部署Prometheus三、部署Grafana四、创建监控仪表盘五、验证和调优总结微服务监控是确保微服务架构稳定运行的关键环节，其中Prometheus与Grafana的组合是业界广泛采用的监控解决方案。以下是对这一组合的详细介绍：Prometheus
Prometheus+Grafana监控平台搭建_grafana专业监控项 2401_89828619 prometheus grafana
Prometheus提供多种类型的Exporter用于采集各种不同服务的运行状态。目前支持的有数据库、硬件、消息中间件、存储系统、HTTP服务器、JMX等。·alertmanager警告管理器，用来进行报警。·其他辅助性工具Prometheus系统架构图：它的服务过程是这样的Prometheusdaemon负责定时去目标上抓取metrics(指标)数据，每个抓取目标需要暴露一个http服务的接口给
使用 Docker 部署 Prometheus + Grafana 监控平台 2401_84048398 程序员 docker prometheus grafana
一、Prometheus简介==================================================================================Prometheus（普罗米修斯）是一套开源的监控&报警&时间序列数据库的组合，由SoundCloud公司开发。Prometheus基本原理是通过HTTP协议周期性抓取被监控组件的状态，这样做的好处是任意组件
K8S学习之基础三十四：K8S之监控Prometheus部署pod版云上艺旅 K8S学习 kubernetes 学习 prometheus 云原生
使用KubernetesPod的方式部署Prometheus是一种常见的方法，尤其是在容器化和微服务架构中。以下是详细的步骤：1.创建命名空间（可选）为了方便管理，可以为Prometheus创建一个单独的命名空间。yaml复制apiVersion:v1kind:Namespacemetadata:name:monitoring将上述内容保存为namespace.yaml，然后应用：bash复制ku
K8S学习之基础三十五：k8s之Prometheus部署模式云上艺旅 K8S学习 kubernetes 学习 prometheus 云原生容器
Prometheus有多种部署模式，适用于不同的场景和需求。以下是几种常见的部署模式：1.单节点部署这是最简单的部署模式，适用于小型环境或测试环境。特点：单个Prometheus实例负责所有的数据采集、存储和查询。配置简单，易于维护。不具备高可用性和扩展性。适用场景：小型项目或测试环境。对高可用性要求不高的场景。部署步骤：下载并解压Prometheus。配置prometheus.yml。启动Pro
Prometheus架构详解 HeZephyr 工具 prometheus 架构
1Prometheus简介Prometheus是一个开源的系统监控报警工具套件，它最初由SoundCloud开发，并于2016年成为CNCF（云原生计算基金会）托管的第二个项目（第一个是kubernetes）。Prometheus以其简单高效的方式收集指标而闻名，能更好地与容器平台、云平台配合，这使得它在现代云原生环境中非常受欢迎。Prometheus被广泛应用于各种场景中，包括但不限于：应用性能
kubernetes集群监控 Kube-Prometheus-Stack xiaojinran k8s prometheus docker 运维 kubernetes prometheus 容器 grafana
kubernetes集群监控概述Kubernetes（K8s）集群监控是指对Kubernetes集群中的各个组件和资源进行实时监测和数据收集，以获取对集群健康状态、性能指标和事件的可视化和告警。Kubernetes集群监控的内容通常包括以下几个方面：基础设施监控：监控物理服务器、虚拟机或云实例的资源使用情况，包括CPU、内存、磁盘和网络等指标。这可以帮助确保集群的底层基础设施正常运行，并及时发现资
kube-prometheus-stack部署prometheus全栈监控k8s 时空无限 Kubernetes kubernetes
添加源helmrepoaddprometheus-communityhttps://prometheus-community.github.io/helm-charts更新源helmrepoupdate成功输出Hangtightwhilewegrabthelatestfromyourchartrepositories......Successfullygotanupdatefromthe"prom
k8s-06-prometheus-stack 多懂一些 kubernetes 实战 nginx linux centos prometheus
安装#下载yaml#[下载](https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack)#镜像下载dockerlogin--username=xxxx registry.cn-shanghai.aliyuncs.comdockerpullregistry.cn-shangha
prometheus-helm的使用 weixin_43806846 prometheus
1、部署Prometheus监控平台1、下载安装Prometheus（当前集群版本1.26.3）gitclonehttps://github.com/prometheus-operator/kube-prometheus.git-brelease-0.12安装：cdkube-prometheus/创建命名空间和crd：kubectlapply--server-side-fmanifests/set
springboot集成钉钉_钉钉通知机器人与SpringBoot的集成 weixin_39622643 springboot集成钉钉
SpringBootAdmin集成自定义监控告警(2.0.1版本)------钉钉机器人-yuancao24的博客-CSDN博客https://blog.csdn.net/yuancao24/article/details/83576194prometheus-spring-boot-starter:一个管理异常通知的神奇starter，实现了钉钉消息提醒与邮件提醒https://gitee.co
K8s 集群监控：从指标采集到可视化展示的完整方案花笺墨韵 kubernetes
目录一、引言二、指标采集（一）K8s内置指标（二）Prometheus指标采集三、数据存储（一）Prometheus本地存储（二）远程存储四、可视化展示（一）Grafana基础（二）K8s相关仪表盘模板五、总结一、引言Kubernetes（K8s）集群环境复杂且动态变化，应用程序的运行状况、资源的使用情况时刻都在改变。为了保障K8s集群高效、稳定地运行，及时发现潜在问题并做出响应，一套完善的监控体
Prometheus + Grafana 配置监控指标笑远 prometheus grafana 运维数据库
Prometheus+Grafana配置监控指标在前一篇指南中，我们详细介绍了如何安装和配置Prometheus与Grafana。接下来，我们将深入探讨如何配置Prometheus来采集具体的监控指标，并使用Grafana将这些指标可视化。本指南将涵盖以下内容：选择和配置Exporters（除了NodeExporter之外）配置Prometheus以采集相关指标在Grafana中创建和配置仪表板高
DevOps工具链 zhangpeng455547940 devops 运维
DevOps工具链的核心组成部分包括：代码编辑和版本控制工具svn、git自动化构建工具Jenkins、GitLabCI/CD、TravisCI持续集成和持续部署工具Jenkins、Ansible容器编排工具K8S、DockerSwarm持续监控工具Prometheus，Grafana，InfluxDB服务配置管理工具Ansible，Chef，PuppetGit：代码管理Maven：依赖管理、项目
K8S日常问题优化沉默的八哥运维运维 kubernetes
在实际工作中，优化Kubernetes的性能和成本通常需要结合资源利用率分析、集群配置调整以及自动化工具的整合。以下是我在项目中实践过的一些典型优化场景和解决方案：一、资源利用率优化1.合理配置Requests/Limits问题：许多团队未准确设置Pod的requests和limits，导致资源浪费或频繁OOM。优化方法：使用Prometheus+Grafana监控Pod的实际CPU/内存使用量。
【Prometheus】prometheus 架构介绍 Learn Forever Prometheus 架构运维 docker
1.组件说明prometheusserver是Prometheus组件中的核心部分，负责实现对监控数据的获取，存储以及查询。exporter简单说是采集端，通过http服务的形式保留一个url地址，prometheusserver通过访问该exporter提供的endpoint端点，即可获取到需要采集的监控数据。AlertManager在prometheus中，支持基于PromQL创建告警规则，如
物联网实时数据存储方案选择动亦定 MySQL 物联网数据库物联网时序数据库数据库
存储物联网设备发出的实时数据时，需考虑数据量、速度、类型和访问需求。以下是几种常见的存储方案：1.时序数据库适用场景:适合处理时间序列数据，如传感器数据。优点:高效存储和查询时间序列数据，支持高写入和查询吞吐量。常见选择:InfluxDB、TimescaleDB、Prometheus。2.NoSQL数据库适用场景:适合非结构化或半结构化数据，如JSON、XML。优点:灵活的数据模型，易于扩展，适合
k8s集群中部署dcgm-exporter收集GPU指标 thinkerCoder kubernetes 容器运维 GPU
总体步骤：部署dcgm-exporter的DaemonSet和Service，确保Service有正确的标签和端口。创建ServiceMonitor，选择dcgm-exporter的Service，并指定端口。检查Prometheus的targets页面，确认dcgm-exporter是否被正确发现和抓取。可能需要调整Prometheus的RBAC或网络策略，确保访问权限。1，部署dcgm-exp
在线监控+日志分析方案徐福记c 运维运维
1.在线监控系统设计技术选型：Prometheus+Grafana+各ExporterPrometheus：负责定时拉取各服务指标数据并存储。Grafana：可视化仪表盘，支持多数据源（Prometheus、Loki等）。Exporter：SpringBoot应用：通过Micrometer暴露/actuator/prometheus端点。MySQL：部署mysqld_exporter采集数据库性能
ansbile 批量部署 node-exporter BUG弄潮儿 java
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
k8s下部署ansible进行node-export二安装 BUG弄潮儿 kubernetes ansible 容器云原生
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
是时候解决告警事件数据孤岛问题了监控告警告警风暴
大家有没有发现，随着公司发展，慢慢引入了越来越多的监控、可观测性的系统，云上的、云下的，开源的、商业的，通用的、特定产品的，导致告警事件分散在非常多的地方，形成一个一个的数据孤岛。比如下面这些监控系统，你们应该不止用了一个吧：上图中有些系统你可能会困惑，比如OceanBase，明明是个数据库，为啥出现在这里。因为OceanBase自己内置有自己的监控能力，没有复用Prometheus之类的通用监控
Mysql性能监控及优化，基于Prometheus+grafana 士多啤莉娜 mysql prometheus grafana docker
本篇不详写prometheus、grafana的搭建，需要可以翻阅linux监控篇一、mysql监控1、运行mysql-exporter注：mysql的搭建在文章尾部，这里直接进入主题Prometheus对Mysql进行数据采集需要在被mysql所在服务器安装mysql-exporter注意修改命令中数据库连接信息dockerrun-d-p9104:9104-eDATA_SOURCE_NAME="
非容器化部署prometheus+grafana 罗sir 99 devops prometheus grafana
容器部署和非容器部署（直接在物理机或虚拟机上安装）Prometheus和Grafana各有优缺点，主要区别如下：1.部署和管理的便利性容器部署：使用容器技术（如Docker）可以简化应用的部署和配置。只需拉取镜像并执行dockerrun或docker-compose文件即可部署，且不依赖底层系统的配置，便于快速部署和迁移。非容器部署：需要手动下载二进制文件、解压、配置和管理，步骤相对繁琐。系统环境
Java重要面试名词整理（二十二）：云原生正在绘制中 Java面试 java 面试 gateway
文章目录DockerDocker架构Dockerfile常用指令DockerComposePrometheus架构数据&指标NodeExporterPromQLGrafanaK8SK8S核心特性核心架构快速实战NamespacePodDeploymentService存储配置Ingress核心原理K8S的网络模型容器探针重启策略Pod调度定向调度亲和性调度污点和容忍调度全链路灰度什么是蓝绿发布什么
使用第三方工具监控 SpringBoot 接口超时，简单几步搞定！程序员蜗牛g springboot spring boot 后端 java
点击上方“程序员蜗牛g”，选择“设为星标”跟蜗牛哥一起，每天进步一点点程序员蜗牛g大厂程序员一枚跟蜗牛一起每天进步一点点31篇原创内容公众号为了实现SpringBoot项目的接口超时监控并触发邮件告警，以下是一些常用的第三方工具和解决方案，可根据项目规模和需求灵活选择。一、开源方案1.Prometheus+Alertmanager+Grafana功能特点：Prometheus：时序数据库，实时采集
SpringBoot 项目集成 Prometheus 和 Grafana 百里自来卷 spring boot prometheus grafana
下面是一个完整的SpringBoot项目示例，集成Prometheus和Grafana进行性能监控，包括：Prometheus作为监控数据收集工具Micrometer作为指标采集库Grafana作为可视化展示工具步骤概览引入依赖：在pom.xml中添加Prometheus和Actuator相关依赖。配置SpringBoot：启用Actuator并暴露Prometheus端点。编写示例代码：使用Mi
Prometheus+Grafana监控畅云客 Prometheus 监控服务器运维 linux 运维开发 grafana prometheus 云计算
目录资源列表一、基础环境关闭防火墙关闭selinux修改主机名节点添加主机名与IP对应关系二、部署Prometheus下载安装包解压创建用于运行Prometheus的组和用户创建Prometheus数据存储目录给Prometheus主目录赋用户Prometheus权限修改配置文件启动三、部署Grafana下载安装包创建grafana用户及数据存放目录修改配置文件启动四、node节点部署node_e
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

Prometheus源码系列：通知管理(notifierManager)

一: 规则管理(ruleManager)把告警信息发送给通知管理(notifierManager)

二: 启动通知管理(notifierManager)

你可能感兴趣的:(Prometheus)