云原生架构系列之监控

云原生应用架构下,原有单体系统变成了众多微服务的协作,一个微服务的中断会造成整个系统的中断或使系统处于故障状态。因此,对这些微服务进行监控就成了必要的工作。这也是DevOps文化的元素之一。

云原生应用架构下的监控分成两部分,其中一个分支是EFK(或者ELK),而另外一个分支是GPE。本文主要使用GPE(Grafana+Prometheus+Exporter)来讲述如何监控Drupal系统的可用状态。

Drupal 准备

Drupal本身有一个模块health_check,它可以提供一个/health,返回10位数字的时间戳,以此来证明Drupal系统正常。

cd $DRUPAL_ROOT
drush -y en health_check

其中 $DRUPAL_ROOT 为站点根目录

准备镜像

docker pull prom/prometheus
docker pull grafana/grafana
docker pull prom/blackbox-exporter

准备stack文件

准备目录

mkdir grafana
# 复制prometheus.yml 到本地
docker run --entrypoint='' -it prom/prometheus:latest /bin/cat /etc/prometheus/prometheus.yml > prometheus.yml
# 复制grafana.ini 到本地
docker run --entrypoint='' -it grafana/grafana:latest /bin/cat /etc/grafana/grafana.ini > ./grafana/grafana.ini

配置 blackbox-exporter

创建 blackbox.yml 文件

modules:
  http_2xx:
    prober: http
    timeout: 5s
    http:
      valid_http_versions: ["HTTP/1.1", "HTTP/2"]
      valid_status_codes: []  # Defaults to 2xx
      method: GET
      no_follow_redirects: false
      fail_if_ssl: false
      fail_if_not_ssl: false
      fail_if_body_matches_regexp:
        - "Failed to connect"
      fail_if_body_not_matches_regexp:
        - '\d{10}'      # 对应/health的10位数字时间戳
      tls_config:
        insecure_skip_verify: false
      preferred_ip_protocol: "ip4" # defaults to "ip6"

修改prometheus.yml 文件

在prometheus.yml 文件末尾追加以下内容:

  - job_name: 'blackbox'
    metrics_path: /probe
    params:
      module: [http_2xx]
    static_configs:
      - targets:
        - http://ilse.shmtu.edu.cn/health
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: blackbox:9115

撰写 stack.yml 文件

version: "3"

networks:
  prometheus-network:
    driver: bridge

services:
  prometheus:
    image: prom/prometheus:latest
    ports:
      - 9090:9090
    volumes:
      - $PWD/prometheus.yml:/etc/prometheus/prometheus.yml

  blackbox:
    image: prom/blackbox-exporter:latest
    privileged: true
    volumes:
      - $PWD/blackbox.yml:/etc/blackbox_exporter/config.yml
    ports:
      - '9115:9115'    

  grafana:
    image: grafana/grafana:latest
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=smu.P@ssw0rd
      - GF_PATHS_CONFIG=/var/lib/grafana/grafana.ini
      # - GF_SERVER_ROOT_URL=http://monitor.shmtu.edu.cn
    depends_on:
      - prometheus
    ports:
      - 3000:3000
    volumes:
      - $PWD/grafana:/var/lib/grafana

部署GPE

docker stack up prometheus -c stack.yml

等待一会,访问http://localhost:3000即可进入Grafana进行设置了

设置Grafana

配置数据源

选择Prometheus数据源,按照图示进行设置。

image.png

0:http://prometheus:9090
1: GET

image.png

0: 导入Dashboard

image.png

0:输入Query: probe_success{instance='http://ilse.shmtu.edu.cn/health'}

配置报警

本例中设置了每15秒钟检查一次,持续1分钟,如果最后出现不正常的情况下,即发送邮件通知我。

image.png

0:名称 ilse alert
1: last() 最后一次
2:query(A,15s, now)
3: 1
4: If no data or all values are null SET STATE TO No Data

image.png

5: Send to wyp
6: Message: Error occured

邮件列表需要在通知的channel中预先定义,这儿就不详细展开了。

最终我们可以得到界面:

image.png

Grafana很漂亮,很炫,具体这儿就不赘述了。

经过这样设置后,只要ilse.shmtu.edu.cn出现故障,wyp就可以立刻收到邮件通知了。当然,Grafana也支持钉钉,可惜目前官方还不支持微信,但已经有第三方实现,也可以撰写webhook来实现。

您知道EFK是什么吗?这个就又跟前面提过的sidecar模式有关了,这个也是后续再讲吧。

(写了很多篇了,大体框架出了一半多了,给自己加油)

你可能感兴趣的:(云原生架构系列之监控)