云原生应用架构下，原有单体系统变成了众多微服务的协作，一个微服务的中断会造成整个系统的中断或使系统处于故障状态。因此，对这些微服务进行监控就成了必要的工作。这也是DevOps文化的元素之一。

云原生应用架构下的监控分成两部分，其中一个分支是EFK（或者ELK），而另外一个分支是GPE。本文主要使用GPE（Grafana+Prometheus+Exporter）来讲述如何监控Drupal系统的可用状态。

Drupal 准备

Drupal本身有一个模块health_check，它可以提供一个/health，返回10位数字的时间戳，以此来证明Drupal系统正常。

cd $DRUPAL_ROOT
drush -y en health_check

其中 $DRUPAL_ROOT 为站点根目录

准备镜像

docker pull prom/prometheus
docker pull grafana/grafana
docker pull prom/blackbox-exporter

准备stack文件

准备目录

mkdir grafana
# 复制prometheus.yml 到本地
docker run --entrypoint='' -it prom/prometheus:latest /bin/cat /etc/prometheus/prometheus.yml > prometheus.yml
# 复制grafana.ini 到本地
docker run --entrypoint='' -it grafana/grafana:latest /bin/cat /etc/grafana/grafana.ini > ./grafana/grafana.ini

配置 blackbox-exporter

创建 blackbox.yml 文件

modules:
  http_2xx:
    prober: http
    timeout: 5s
    http:
      valid_http_versions: ["HTTP/1.1", "HTTP/2"]
      valid_status_codes: []  # Defaults to 2xx
      method: GET
      no_follow_redirects: false
      fail_if_ssl: false
      fail_if_not_ssl: false
      fail_if_body_matches_regexp:
        - "Failed to connect"
      fail_if_body_not_matches_regexp:
        - '\d{10}'      # 对应/health的10位数字时间戳
      tls_config:
        insecure_skip_verify: false
      preferred_ip_protocol: "ip4" # defaults to "ip6"

修改prometheus.yml 文件

在prometheus.yml 文件末尾追加以下内容：

  - job_name: 'blackbox'
    metrics_path: /probe
    params:
      module: [http_2xx]
    static_configs:
      - targets:
        - http://ilse.shmtu.edu.cn/health
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: blackbox:9115

撰写 stack.yml 文件

version: "3"

networks:
  prometheus-network:
    driver: bridge

services:
  prometheus:
    image: prom/prometheus:latest
    ports:
      - 9090:9090
    volumes:
      - $PWD/prometheus.yml:/etc/prometheus/prometheus.yml

  blackbox:
    image: prom/blackbox-exporter:latest
    privileged: true
    volumes:
      - $PWD/blackbox.yml:/etc/blackbox_exporter/config.yml
    ports:
      - '9115:9115'    

  grafana:
    image: grafana/grafana:latest
    environment:
      - GF_SECURITY_ADMIN_PASSWORD=smu.P@ssw0rd
      - GF_PATHS_CONFIG=/var/lib/grafana/grafana.ini
      # - GF_SERVER_ROOT_URL=http://monitor.shmtu.edu.cn
    depends_on:
      - prometheus
    ports:
      - 3000:3000
    volumes:
      - $PWD/grafana:/var/lib/grafana

部署GPE

docker stack up prometheus -c stack.yml

等待一会，访问http://localhost:3000即可进入Grafana进行设置了

设置Grafana

配置数据源

选择Prometheus数据源，按照图示进行设置。

image.png

0：http://prometheus:9090
1: GET

image.png

0: 导入Dashboard

image.png

0：输入Query： probe_success{instance='http://ilse.shmtu.edu.cn/health'}

配置报警

本例中设置了每15秒钟检查一次，持续1分钟，如果最后出现不正常的情况下，即发送邮件通知我。

image.png

0：名称 ilse alert
1: last() 最后一次
2：query(A,15s, now)
3: 1
4: If no data or all values are null SET STATE TO No Data

image.png

5: Send to wyp
6: Message: Error occured

邮件列表需要在通知的channel中预先定义，这儿就不详细展开了。

最终我们可以得到界面：

image.png

Grafana很漂亮，很炫，具体这儿就不赘述了。

经过这样设置后，只要ilse.shmtu.edu.cn出现故障，wyp就可以立刻收到邮件通知了。当然，Grafana也支持钉钉，可惜目前官方还不支持微信，但已经有第三方实现，也可以撰写webhook来实现。

您知道EFK是什么吗？这个就又跟前面提过的sidecar模式有关了，这个也是后续再讲吧。

（写了很多篇了，大体框架出了一半多了，给自己加油）

云原生架构系列之监控

Drupal 准备

准备镜像

准备stack文件

准备目录

配置 blackbox-exporter

修改prometheus.yml 文件

撰写 stack.yml 文件

部署GPE

设置Grafana

配置数据源

配置报警

你可能感兴趣的:(云原生架构系列之监控)