集群可靠性和可扩展性

alertmanager集群

  • 容错性

    Alertmanager包含由HashiCorp Memberlist库[1]提供的集群功能。Memberlist是一个Go语言库,使用基于gossip的协议来管理集群成员和成员故障检测,其也是SWIM协议[2]的扩展.
    此处的8001是alertmanager集群地址,区别于9093
    在这里插入图片描述
    集群可靠性和可扩展性_第1张图片
    配置Prometheus配置Alertmanager集群:
    集群可靠性和可扩展性_第2张图片
    可扩展性

  • 功能扩展

    将特定功能的监控内容分布到特定的prometheus服务器上,比如 为多个团队搭建多个.

  • 水平扩展
    集群可靠性和可扩展性_第3张图片

    配置工作节点
    a) external_labels块包含一个标签worker,它的值为0。我们将使用worker:1、worker:2的方式来标识后面的节点
    b) 设定模数modulus为3,即抓取指标的工作节点数量。如果添加工作节点,则需要更新该值; worker0将从模数为0的
    目标中获取时间序列,worker1从模数为1的目标中获取等,这使得目标在工作节点之间均匀分布.集群可靠性和可扩展性_第4张图片
    工作节点的文件服务发现:
    集群可靠性和可扩展性_第5张图片

    配置主节点:
    a) honor_labels: 防止prometheus处理标签的冲突,确保上游主节点不会覆盖下游工作节点标签.
    集群可靠性和可扩展性_第6张图片

你可能感兴趣的:(#,prometheus)