Operations Service提供监控管理服务，主要包括：

日志等级管理（/logspec）：动态获取和设置peer和orderer的日志等级。
健康检查（/healthz ）：检查peer和orderer是否存活以及健康状态。
运维信息监控（/metrics ）：提供运维指标数据，支持Prometheus和StatsD统计数据。

适用场景

日志等级管理：适用于联盟链管理人员或者开发人员对Fabric的日志等级进行实时变更以定位问题。
健康检查：可以获知节点的健康状况，兼容Kubernetes的容器检测探针liveness probe等。
运维信息监控：主要对外提供运维信息数据，适用于联盟链管理人员对Fabric的运行情况进行实时监控；可以支持第三方运维工具的集成，对Fabric运行状况和性能进行分析。

技术实现

Operation Service在peer或orderer启动的过程中，创建了一个http服务器处理日志等级管理、健康检查和运维信息获取三类请求。

1）日志等级管理

日志管理主体功能模块位于common/flogging，主要基于高性能的zap日志库，对zapcore进行了定制开发。通过重写zapcore的Check函数（common/flogging/core.go，在Write之前调用），对将要写入的日志进行等级判断，实现日志等级的实时变更。

2）健康检查

健康检查通过查询Docker服务的状态来确定peer和orderer是否仍处于健康状态。只要结构体实现HealthCheck(context.Context) error（位于github.com/hyperledger/fabric-lib-go/healthz/checker.go）的健康检查接口，并且通过RegisterChecker函数进行注册，则可以实现对应功能的健康检查。官网上说暂时只支持对docker容器的检查，目前本文调研时使用的版本（commitID为334a66f17e91666d583ec1e5720419de38153ebd）可以支持如下检查：

peer：couchdb是否可以正常连接；docker容器是否可以连接；
orderer：是否可以向kafka发送消息。

3）运维信息监控

运维信息监控包括Prometheus和StatsD两种第三方组件的接入：

A. Prometheus

Prometheus是开源的监控框架。Fabric支持Prometheus接入，主要使用go-kit库和Prometheus库。
Prometheus记载的时序数据分为四种：Counter, Gauge, Histogram, Summary。Fabric仅使用了前三种，这三种类型的简介如下：

Counter：单调递增的计数器，常用于记录服务请求总量、任务完成数目、错误总数等。
Gauge：一个单独的数值，可以增加或减少，常用于记录内存使用率、磁盘使用率、并发请求数等。
Histogram：直方图采样数据，对一段时间范围内的数据进行采样，按照指定区间和总数进行统计，会生成三个记录数据_bucket，_count和_sum。其中bucket形式为_bucket{le=""}；count是bucket数目，即_bucket{le="+Inf"}的值；sum是总数。
Fabric在需要记录信息的模块，创建相应的结构体，比如peer endorser模块的EndorserMetrics：

var (
    proposalDurationHistogramOpts = metrics.HistogramOpts{
        Namespace:    "endorser",
        Name:         "propsal_duration",
        Help:         "The time to complete a proposal.",
        LabelNames:   []string{"channel", "chaincode", "success"},
        StatsdFormat: "%{#fqname}.%{channel}.%{chaincode}.%{success}",
    }

    receivedProposalsCounterOpts = metrics.CounterOpts{
        Namespace: "endorser",
        Name:      "proposals_received",
        Help:      "The number of proposals received.",
    }

    successfulProposalsCounterOpts = metrics.CounterOpts{
        Namespace: "endorser",
        Name:      "successful_proposals",
        Help:      "The number of successful proposals.",
    }
    ……
)
func NewEndorserMetrics(p metrics.Provider) *EndorserMetrics {
    return &EndorserMetrics{
        ProposalDuration:         p.NewHistogram(proposalDurationHistogramOpts),
        ProposalsReceived:        p.NewCounter(receivedProposalsCounterOpts),
        SuccessfulProposals:      p.NewCounter(successfulProposalsCounterOpts),
        ProposalValidationFailed: p.NewCounter(proposalValidationFailureCounterOpts),
        ProposalACLCheckFailed:   p.NewCounter(proposalChannelACLFailureOpts),
        InitFailed:               p.NewCounter(initFailureCounterOpts),
        EndorsementsFailed:       p.NewCounter(endorsementFailureCounterOpts),
        DuplicateTxsFailure:      p.NewCounter(duplicateTxsFailureCounterOpts),
    }
}

Fabric将需要记录的信息写入相应的指标记录器中，代码如下：

// ProcessProposal process the Proposal
func (e *Endorser) ProcessProposal(ctx context.Context, signedProp *pb.SignedProposal) (*pb.ProposalResponse, error) {
    // start time for computing elapsed time metric for successfully endorsed proposals
    startTime := time.Now()
    // 请求接收数目加1
    e.Metrics.ProposalsReceived.Add(1)
……
            meterLabels := []string{
                "channel", chainID,
                "chaincode", hdrExt.ChaincodeId.Name + ":" + hdrExt.ChaincodeId.Version,
                "success", strconv.FormatBool(success),
            }
            // 添加请求时长值
            e.Metrics.ProposalDuration.With(meterLabels...).Observe(time.Since(startTime).Seconds())

目前Fabric统计的指标具体参见：https://hyperledger-fabric.readthedocs.io/en/release-1.4/metrics_reference.html。

B. StatsD

StatsD是一个简单的网络守护进程，基于 Node.js，通过 UDP 或者 TCP 方式侦听各种统计信息，并发送聚合信息到后端服务，如 Graphite。Fabric支持StatsD接入，主要使用go-kit库，记载的时序数据也是分为Counter, Gauge, Histogram（实际上是StatsD中的Timer）三种，使用逻辑和Prometheus类似，但是读取数据的方式上看，Prometheus是从Fabric拉取数据，而StatsD是Fabric向StatsD推送数据。

实际操作

Operations Service可以配置监听地址和TLS，配置内容如下：

operations:    # host and port for the operations server    listenAddress: 127.0.0.1:9443    # TLS configuration for the operations endpoint    tls:        # TLS enabled        enabled: false        # path to PEM encoded server certificate for the operations server        cert:            file:        # path to PEM encoded server key for the operations server        key:            file:        # most operations service endpoints require client authentication when TLS        # is enabled. clientAuthRequired requires client certificate authentication        # at the TLS layer to access all resources.        clientAuthRequired: false        # paths to PEM encoded ca certificates to trust for client authentication        clientRootCAs:            files: []

1）日志等级管理

查看日志等级可以使用如下命令：

curl http://127.0.0.1:9443/logspec

其中地址和端口为peer或orderer映射出的地址和端口（默认端口是9443），获得信息示例如下：

{"spec":"info"}

设置日志等级可以使用如下命令：

curl -i -X PUT -H "Content-Type: application/json" -d "{\"spec\":\"debug\"}" http://127.0.0.1:9443/logspec

设置以后可以查看log，实时生效。
设置日志等级时传入参数的格式如下，可以支持多模块不同日志等级。

[[,...]=][:[[,...]=]...]

目前，不同模块设置不同日志等级的情况，只有官网提供的修改合约日志等级的参数，如下所示：

{"spec":"chaincode=debug:info"}

2）健康检查

查看健康情况可以使用如下命令：

curl http://127.0.0.1:9443/healthz

其中地址和端口为peer或orderer映射出的地址和端口（默认端口是9443），正常情况下获得信息示例如下：

{"status":"OK","time":"2019-06-04T09:31:39.2034071Z"}

目前peer可以检查docker容器和couchdb是否可以正常连接；orderer可以检查kafka是否可以向其发送消息。如果peer的couchdb容器宕机了，获得信息如下：

{
    "status": "Service Unavailable",
    "time": "2019-06-05T03:33:58.4322205Z",
    "failed_checks": [
        {
            "component": "couchdb",
            "reason": "failed to connect to couch db [Head http://couchdb0:5984: dial tcp: lookup couchdb0 on 127.0.0.11:53: no such host]"
        }
    ]
}

3）运维信息监控

Prometheus

A. 安装Prometheus

首先，从官网（https://prometheus.io/download/）下载Prometheus的软件包，直接解压到相应目录即可，命令如下：

tar xvfz prometheus-*.tar.gz
cd prometheus-*

B. 修改Prometheus相关配置文件

【此处使用fabric-sample中提供的first-network示例】
修改Fabric的docker-compose.yaml文件，在peer的环境变量中添加：

- CORE_METRICS_PROVIDER=prometheus

在orderer的环境变量中添加：

- CORE_METRICS_PROVIDER=prometheus

需要修改prometheus.yml文件，添加Fabric环境中的peer和orderer参数，具体参照如下内容：

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

  # Attach these labels to any time series or alerts when communicating with
  # external systems (federation, remote storage, Alertmanager).
  external_labels:
    monitor: 'codelab-monitor'

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
scrape_configs:
  - job_name:       'fabric'

    # Override the global default and scrape targets from this job every 5 seconds.
    scrape_interval: 5s

    static_configs:
      - targets: ['localhost:9443']
        labels:
          group: 'peer0_org1'

      - targets: ['localhost:10443']
        labels:
          group: 'peer1_org1'

      - targets: ['localhost:11443']
        labels:
          group: 'peer0_org2'

      - targets: ['localhost:12443']
        labels:
          group: 'peer1_org2'

      - targets: ['localhost:8443']
        labels:
          group: 'orderer'

主要关注scrape_configs，其中添加了名字为fabric的job，其中static_configs中添加需要监控的节点，targets中填写operations服务的地址和监听端口（默认是9443），labels.group中填写分组的名称。以上示例把peer分成不同的组，也可以根据组织合并为一个组，如下所示：

static_configs:
      - targets: ['localhost:9443', 'localhost:10443']
        labels:
          group: 'peers_org1'

      - targets: ['localhost:11443', 'localhost:12443']
        labels:
          group: 'peers_org2'

C. 启动Prometheus

首先启动Fabric环境，待Fabric环境启动完成后，运行如下命令启动Prometheus：

./prometheus --config.file=prometheus.yml

使用浏览器访问http://localhost:9090即可查看Prometheus监控面板，可以选择指标或者写入查询语句，点击execute查看图表，如下图所示：

image.png

D. 可以配置Grafana可视化工具

参照官网说明（https://grafana.com/grafana/download）下载Grafana软件后，使用浏览器访问http://localhost:3000（默认用户名admin，密码admin），配置数据源为Prometheus，即可定制可视化监控界面。具体流程可参照https://prometheus.io/docs/visualization/grafana/。界面如下图所示：

image.png

StatsD

A. 下载StatsD + Graphite + Grafana的docker镜像

Graphite主要由监听器carbon，时序数据库whisper和图形展示django-webapp三个组件构成。一般使用StatsD + Graphite + Grafana这三个框架搭建运维可视化界面。该镜像集成了StatsD + Graphite + Grafana 4 + Kamon（https://hub.docker.com/r/kamon/grafana_graphite）。使用如下命令拉取镜像：

docker pull kamon/grafana_graphite

B. 启动docker容器

使用如下命令启动容器：

docker run -d\
 --name graphite\
 --restart=always\
 -p 80:80\
 -p 81:81\
 -p 2003:2003\
 -p 8125:8125/udp\
 -p 8126:8126\
 kamon/grafana_graphite

C. 修改Fabric配置文件

【此处使用fabric-sample中提供的first-network示例】
修改Fabric的docker-compose.yaml文件，在peer的环境变量中添加：

- CORE_METRICS_PROVIDER= statsd
- CORE_METRICS_STATSD_PREFIX=peer0_org1
- CORE_METRICS_STATSD_ADDRESS=192.168.101.76:8125

在orderer的环境变量中添加：

- ORDERER_METRICS_PROVIDER=statsd
- ORDERER_METRICS_STATSD_PREFIX=orderer
- ORDERER_METRICS_STATSD_ADDRESS=192.168.101.76:8125

如上所示，需要配置prefix用于区分节点，配置address是StatsD的地址和端口，即docker容器映射的地址和端口。

D. 查看界面

访问http://localhost:81可以查看Graphite界面，如下：

image.png

访问http://localhost可以查看Grafana界面，具体配置方法见前面Prometheus的描述。界面如下：

image.png

Hyperledger Fabric 1.4 特性调研之Operations Service（二）

适用场景

技术实现

1）日志等级管理

2）健康检查

3）运维信息监控

A. Prometheus

B. StatsD

实际操作

1）日志等级管理

2）健康检查

3）运维信息监控

Prometheus

A. 安装Prometheus

B. 修改Prometheus相关配置文件

C. 启动Prometheus

D. 可以配置Grafana可视化工具

StatsD

A. 下载StatsD + Graphite + Grafana的docker镜像

B. 启动docker容器

C. 修改Fabric配置文件

D. 查看界面

你可能感兴趣的:(Hyperledger Fabric 1.4 特性调研之Operations Service（二）)