wx5c1cfd6e22842

Kubernetes运维之使用Prometheus全方位监控K8S

Prometheus架构
K8S监控指标及实现思路
在K8S平台部署Prometheus
基于K8S服务发现的配置解析
在K8S平台部署Grafana
监控K8S集群中Pod、Node、资源对象
使用Grafana可视化展示Prometheus监控数据
告警规则与告警通知

说在前面的话，现在监控首选的话，肯定是Prometheus+Grafana,也就是很多大型公司也都在用，像RBM，360，网易，基本都是使用这一套监控系统。

一、Prometheus 是什么？
Prometheus（普罗米修斯）是一个最初在SoundCloud上构建的监控系统。SoundCloud是搞云计算的一家国外的公司，也是由一个谷歌的一位工程师来到这家公司之后开发的这个系统，自2012年成为社区开源项目，拥有非常活跃的开发人员和用户社区。为强调开源及独立维护，Prometheus于2016年加入云原生云计算基金会
（CNCF），成为继Kubernetes之后的第二个托管项目，这个项目发展的还是比较快的，随着k8s的发展，它也起来了。
https://prometheus.io 官方网站
https://github.com/prometheus GitHub地址

Prometheus组成及架构
接下来看一下它这个官方给出的架构图，我们来研究一下

最左边这块就是采集的，采集谁监控谁，一般是一些短周期的任务，比如cronjob这样的任务,也可以是一些持久性的任务，其实主要就是一些持久性的任务，比如web服务，也就是持续运行的，暴露一些指标，像短期任务呢，处理一下就关了，分为这两个类型，短期任务会用到Pushgateway,专门收集这些短期任务的。

中间这块就是Prometheus它本身，内部是有一个TSDB的数据库的，从内部的采集和展示Prometheus它都可以完成，展示这块自己的这块UI比较lou，所以借助于这个开源的Grafana来展示，所有的被监控端暴露完指标之后，Prometheus会主动的抓取这些指标，存储到自己TSDB数据库里面，提供给Web UI,或者Grafana，或者API clients通过PromQL来调用这些数据，PromQL相当于Mysql的SQL，主要是查询这些数据的。

中间上面这块是做服务发现的，也就是你有很多的被监控端时，手动的去写这些被监控端是不现实的，所以需要自动的去发现新加入的节点，或者以批量的节点，加入到这个监控中，像k8s它内置了k8s服务发现的机制，也就是它会连接k8s的API，去发现你部署的哪些应用，哪些pod，通通的都给你暴露出去，监控出来，也就是为什么K8S对prometheus特别友好的地方，也就是它内置了做这种相关的支持了。

右上角是Prometheus的告警，它告警实现是有一个组件的，Alertmanager,这个组件是接收prometheus发来的告警就是触发了一些预值，会通知Alertmanager,而Alertmanager来处理告警相关的处理，然后发送给接收人，可以是email,也可以是企业微信，或者钉钉，也就是它整个的这个框架，分为这5块。

小结：
• Prometheus Server：收集指标和存储时间序列数据，并提供查询接口
• ClientLibrary：客户端库，这些可以集成一些很多的语言中，比如使用JAVA开发的一个Web网站，那么可以集成JAVA的客户端，去暴露相关的指标，暴露自身的指标，但很多的业务指标需要开发去写的，
• Push Gateway：短期存储指标数据。主要用于临时性的任务
• Exporters：采集已有的第三方服务监控指标并暴露metrics，相当于一个采集端的agent,
• Alertmanager：告警
• Web UI：简单的Web控制台

数据模型
Prometheus将所有数据存储为时间序列；具有相同度量名称以及标签属于同一个指标。
每个时间序列都由度量标准名称和一组键值对（也成为标签）唯一标识。也就是查询时
也会依据这些标签来查询和过滤，就是写PromQL时
时间序列格式：
{=, ...}
指标的名字+花括号里面有很多的值

示例：api_http_requests_total{method="POST", handler="/messages"}
（名称）（里面包含的POST请求，GET请求，请求里面还包含了请求的资源，比如messages或者API）里面可以还有很多的指标，比如请求的协议，或者携带了其他HTTP头的字段，都可以进行标记出来，就是想监控的都可以通过这种方式监控出来。

作业和实例
实例：可以抓取的目标称为实例（Instances），用过zabbix的都知道被监控端是称为什么，一般就是称为主机，被监控端，而在prometheus称为一个实例。
作业：具有相同目标的实例集合称为作业（Job），也就是将你的被监控端作为你个集合，比如做一个分组，web 服务有几台，比如有3台，写一个job下，这个job下就是3台，就是做一个逻辑上的分组，

二、K8S监控指标
Kubernetes本身监控

• Node资源利用率：一般生产环境几十个node，几百个node去监控
• Node数量：一般能监控到node，就能监控到它的数量了，因为它是一个实例，一个node能跑多少个项目，也是需要去评估的，整体资源率在一个什么样的状态，什么样的值，所以需要根据项目，跑的资源利用率，还有值做一个评估的，比如再跑一个项目，需要多少资源。
• Pods数量（Node）：其实也是一样的，每个node上都跑多少pod,不过默认一个node上能跑110个pod，但大多数情况下不可能跑这么多，比如一个128G的内存，32核cpu,一个java的项目，一个分配2G,也就是能跑50-60个，一般机器，pod也就跑几十个，很少很少超过100个。
• 资源对象状态：比如pod，service,deployment,job这些资源状态，做一个统计。

Pod监控
• Pod数量（项目）：你的项目跑了多少个pod的数量，大概的利益率是多少，好评估一下这个项目跑了多少个资源占有多少资源，每个pod占了多少资源。
• 容器资源利用率：每个容器消耗了多少资源，用了多少CPU，用了多少内存
• 应用程序：这个就是偏应用程序本身的指标了，这个一般在我们运维很难拿到的，所以在监控之前呢，需要开发去给你暴露出来，这里有很多客户端的集成，客户端库就是支持很多语言的，需要让开发做一些开发量将它集成进去，暴露这个应用程序的想知道的指标，然后纳入监控，如果开发部配合，基本运维很难做到这一块，除非自己写一个客户端程序，通过shell/python能不能从外部获取内部的工作情况，如果这个程序提供API的话，这个很容易做到。

Prometheus监控K8S架构

如果想监控node的资源，就可以放一个node_exporter,这是监控node资源的，node_exporter是Linux上的采集器，你放上去你就能采集到当前节点的CPU、内存、网络IO，等待都可以采集的。

如果想监控容器，k8s内部提供cAdvisor采集器，pod呀，容器都可以采集到这些指标，都是内置的，不需要单独部署，只知道怎么去访问这个Cadvisor就可以了。

如果想监控k8s资源对象，会部署一个kube-state-metrics这个服务，它会定时的API中获取到这些指标，帮你存取到Prometheus里，要是告警的话，通过Alertmanager发送给一些接收方，通过Grafana可视化展示。

服务发现：
https://prometheus.io/docs/prometheus/latest/configuration/configuration/#kubernetes_sd_config
三、在K8S中部署Prometheus+Grafana

yaml文件地址：
https://github.com/kubernetes/kubernetes/tree/master/cluster/addons/prometheus
https://grafana.com/grafana/download
这里我已经当下来了，并做了一些修改

[root@k8s-master prometheus-k8s]# ls
alertmanager-configmap.yaml         OWNERS
alertmanager-deployment.yaml        prometheus-configmap.yaml
alertmanager-pvc.yaml               prometheus-rbac.yaml
alertmanager-service.yaml           prometheus-rules.yaml
grafana.yaml                        prometheus-service.yaml
kube-state-metrics-deployment.yaml  prometheus-statefulset-static-pv.yaml
kube-state-metrics-rbac.yaml        prometheus-statefulset.yaml
kube-state-metrics-service.yaml     README.md
node_exporter.sh

现在先来创建rbac，因为部署它的主服务主进程要引用这几个服务
因为prometheus来连接你的API，从API中获取很多的指标
并且设置了绑定集群角色的权限，只能查看，不能修改

[root@k8s-master prometheus-k8s]# cat prometheus-rbac.yaml 
apiVersion: v1
kind: ServiceAccount
metadata:
  name: prometheus
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
---
apiVersion: rbac.authorization.k8s.io/v1beta1
kind: ClusterRole
metadata:
  name: prometheus
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile 
rules:
  - apiGroups:
      - ""
    resources:
      - nodes
      - nodes/metrics
      - services
      - endpoints
      - pods
    verbs:
      - get
      - list
      - watch
  - apiGroups:
      - ""
    resources:
      - configmaps
    verbs:
      - get
  - nonResourceURLs:
      - "/metrics"
    verbs:
      - get
---
apiVersion: rbac.authorization.k8s.io/v1beta1
kind: ClusterRoleBinding
metadata:
  name: prometheus
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus
subjects:
- kind: ServiceAccount
  name: prometheus
  namespace: kube-system

[root@k8s-master prometheus-k8s]# kubectl create -f prometheus-rbac.yaml

现在创建一下configmap，

rule_files:
- /etc/config/rules/*.rules

这是写入告警规则的目录，也就是这个configmap会挂载到普罗米修斯里面，让主进程读取这些配置

 scrape_configs:
    - job_name: prometheus
      static_configs:
      - targets:
        - localhost:9090

下面这些都是来配置监控端的，job_name是分组，这是是监控它本身，下面还有监控node,我们会在node上起一个nodeport,这里修改要监控node节点

scrape_interval: 30s：这里采集的时间，每多少秒采集一次数据
这里还有一个alerting的服务的名字
    alerting:
      alertmanagers:
      - static_configs:
          - targets: ["alertmanager:80"]

[root@k8s-master prometheus-k8s]# kubectl create -f prometheus-configmap.yaml 
[root@k8s-master prometheus-k8s]# cat prometheus-configmap.yaml 
# Prometheus configuration format https://prometheus.io/docs/prometheus/latest/configuration/configuration/
apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-config
  namespace: kube-system 
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: EnsureExists
data:
  prometheus.yml: |
    rule_files:
    - /etc/config/rules/*.rules

    scrape_configs:
    - job_name: prometheus
      static_configs:
      - targets:
        - localhost:9090

    - job_name: kubernetes-nodes
      scrape_interval: 30s
      static_configs:
      - targets:
        - 192.168.30.22:9100
        - 192.168.30.23:9100

    - job_name: kubernetes-apiservers
      kubernetes_sd_configs:
      - role: endpoints
      relabel_configs:
      - action: keep
        regex: default;kubernetes;https
        source_labels:
        - __meta_kubernetes_namespace
        - __meta_kubernetes_service_name
        - __meta_kubernetes_endpoint_port_name
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        insecure_skip_verify: true
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token

    - job_name: kubernetes-nodes-kubelet
      kubernetes_sd_configs:
      - role: node
      relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        insecure_skip_verify: true
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token

    - job_name: kubernetes-nodes-cadvisor
      kubernetes_sd_configs:
      - role: node
      relabel_configs:
      - action: labelmap
        regex: __meta_kubernetes_node_label_(.+)
      - target_label: __metrics_path__
        replacement: /metrics/cadvisor
      scheme: https
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        insecure_skip_verify: true
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token

    - job_name: kubernetes-service-endpoints
      kubernetes_sd_configs:
      - role: endpoints
      relabel_configs:
      - action: keep
        regex: true
        source_labels:
        - __meta_kubernetes_service_annotation_prometheus_io_scrape
      - action: replace
        regex: (https?)
        source_labels:
        - __meta_kubernetes_service_annotation_prometheus_io_scheme
        target_label: __scheme__
      - action: replace
        regex: (.+)
        source_labels:
        - __meta_kubernetes_service_annotation_prometheus_io_path
        target_label: __metrics_path__
      - action: replace
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
        source_labels:
        - __address__
        - __meta_kubernetes_service_annotation_prometheus_io_port
        target_label: __address__
      - action: labelmap
        regex: __meta_kubernetes_service_label_(.+)
      - action: replace
        source_labels:
        - __meta_kubernetes_namespace
        target_label: kubernetes_namespace
      - action: replace
        source_labels:
        - __meta_kubernetes_service_name
        target_label: kubernetes_name

    - job_name: kubernetes-services
      kubernetes_sd_configs:
      - role: service
      metrics_path: /probe
      params:
        module:
        - http_2xx
      relabel_configs:
      - action: keep
        regex: true
        source_labels:
        - __meta_kubernetes_service_annotation_prometheus_io_probe
      - source_labels:
        - __address__
        target_label: __param_target
      - replacement: blackbox
        target_label: __address__
      - source_labels:
        - __param_target
        target_label: instance
      - action: labelmap
        regex: __meta_kubernetes_service_label_(.+)
      - source_labels:
        - __meta_kubernetes_namespace
        target_label: kubernetes_namespace
      - source_labels:
        - __meta_kubernetes_service_name
        target_label: kubernetes_name

    - job_name: kubernetes-pods
      kubernetes_sd_configs:
      - role: pod
      relabel_configs:
      - action: keep
        regex: true
        source_labels:
        - __meta_kubernetes_pod_annotation_prometheus_io_scrape
      - action: replace
        regex: (.+)
        source_labels:
        - __meta_kubernetes_pod_annotation_prometheus_io_path
        target_label: __metrics_path__
      - action: replace
        regex: ([^:]+)(?::\d+)?;(\d+)
        replacement: $1:$2
        source_labels:
        - __address__
        - __meta_kubernetes_pod_annotation_prometheus_io_port
        target_label: __address__
      - action: labelmap
        regex: __meta_kubernetes_pod_label_(.+)
      - action: replace
        source_labels:
        - __meta_kubernetes_namespace
        target_label: kubernetes_namespace
      - action: replace
        source_labels:
        - __meta_kubernetes_pod_name
        target_label: kubernetes_pod_name
    alerting:
      alertmanagers:
      - static_configs:
          - targets: ["alertmanager:80"]

再配置这个角色，这个就是配置告警规则的，这里分为两块告警规则，一个是通用的告警规则，适用所有的实例，如果实例要是挂了，然后发送告警，实例我们被监控端的agent，还有一个node角色，这个监控每个node的CPU、内存、磁盘利用率，在prometheus写告警值是通过promQL去写的，来查询一个数据来比对，如果符合这个比对的表达式，就是为真的情况下，去触发当前这条告警，比如就是下面这条，然后会将这条告警推送给alertmanager，它来处理这个信息的告警。
expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 80

[root@k8s-master prometheus-k8s]# kubectl create -f prometheus-rules.yaml 
[root@k8s-master prometheus-k8s]# cat prometheus-rules.yaml 
apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-rules
  namespace: kube-system
data:
  general.rules: |
    groups:
    - name: general.rules
      rules:
      - alert: InstanceDown
        expr: up == 0
        for: 1m
        labels:
          severity: error 
        annotations:
          summary: "Instance {{ $labels.instance }} 停止工作"
          description: "{{ $labels.instance }} job {{ $labels.job }} 已经停止5分钟以上."
  node.rules: |
    groups:
    - name: node.rules
      rules:
      - alert: NodeFilesystemUsage
        expr: 100 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"} * 100) > 80 
        for: 1m
        labels:
          severity: warning 
        annotations:
          summary: "Instance {{ $labels.instance }} : {{ $labels.mountpoint }} 分区使用率过高"
          description: "{{ $labels.instance }}: {{ $labels.mountpoint }} 分区使用大于80% (当前值: {{ $value }})"

      - alert: NodeMemoryUsage
        expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 80
        for: 1m
        labels:
          severity: warning
        annotations:
          summary: "Instance {{ $labels.instance }} 内存使用率过高"
          description: "{{ $labels.instance }}内存使用大于80% (当前值: {{ $value }})"

      - alert: NodeCPUUsage    
        expr: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) > 60 
        for: 1m
        labels:
          severity: warning
        annotations:
          summary: "Instance {{ $labels.instance }} CPU使用率过高"       
          description: "{{ $labels.instance }}CPU使用大于60% (当前值: {{ $value }})"

然后再部署一下statefulset

name: prometheus-server-configmap-reload:这条主要是来重新加载prometheus的配置文件，下面就是prometheus的主服务端了，用来启动prometheus的服务，另外就是/data目录做持久化，配置文件使用configmap,告警的规则也从configmap存储，这里使用还是我们的动态创建pv的存储类，名字子managed-nfs-storage

[root@k8s-master prometheus-k8s]# cat prometheus-statefulset.yaml 
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: prometheus 
  namespace: kube-system
  labels:
    k8s-app: prometheus
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
    version: v2.2.1
spec:
  serviceName: "prometheus"
  replicas: 1
  podManagementPolicy: "Parallel"
  updateStrategy:
   type: "RollingUpdate"
  selector:
    matchLabels:
      k8s-app: prometheus
  template:
    metadata:
      labels:
        k8s-app: prometheus
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      priorityClassName: system-cluster-critical
      serviceAccountName: prometheus
      initContainers:
      - name: "init-chown-data"
        image: "busybox:latest"
        imagePullPolicy: "IfNotPresent"
        command: ["chown", "-R", "65534:65534", "/data"]
        volumeMounts:
        - name: prometheus-data
          mountPath: /data
          subPath: ""
      containers:
        - name: prometheus-server-configmap-reload
          image: "jimmidyson/configmap-reload:v0.1"
          imagePullPolicy: "IfNotPresent"
          args:
            - --volume-dir=/etc/config
            - --webhook-url=http://localhost:9090/-/reload
          volumeMounts:
            - name: config-volume
              mountPath: /etc/config
              readOnly: true
          resources:
            limits:
              cpu: 10m
              memory: 10Mi
            requests:
              cpu: 10m
              memory: 10Mi

        - name: prometheus-server
          image: "prom/prometheus:v2.2.1"
          imagePullPolicy: "IfNotPresent"
          args:
            - --config.file=/etc/config/prometheus.yml
            - --storage.tsdb.path=/data
            - --web.console.libraries=/etc/prometheus/console_libraries
            - --web.console.templates=/etc/prometheus/consoles
            - --web.enable-lifecycle
          ports:
            - containerPort: 9090
          readinessProbe:
            httpGet:
              path: /-/ready
              port: 9090
            initialDelaySeconds: 30
            timeoutSeconds: 30
          livenessProbe:
            httpGet:
              path: /-/healthy
              port: 9090
            initialDelaySeconds: 30
            timeoutSeconds: 30
          # based on 10 running nodes with 30 pods each
          resources:
            limits:
              cpu: 200m
              memory: 1000Mi
            requests:
              cpu: 200m
              memory: 1000Mi

          volumeMounts:
            - name: config-volume
              mountPath: /etc/config
            - name: prometheus-data
              mountPath: /data
              subPath: ""
            - name: prometheus-rules
              mountPath: /etc/config/rules

      terminationGracePeriodSeconds: 300
      volumes:
        - name: config-volume
          configMap:
            name: prometheus-config
        - name: prometheus-rules
          configMap:
            name: prometheus-rules

  volumeClaimTemplates:
  - metadata:
      name: prometheus-data
    spec:
      storageClassName: managed-nfs-storage 
      accessModes:
        - ReadWriteOnce
      resources:
        requests:
          storage: "16Gi"

这里呢因为我之前就把nfs动态创建pvc的搭建好了，使用的nfs做的网络存储，所以这里没有演示，可以看我之前的博客，然后这里已经创建好了

[root@k8s-master prometheus-k8s]# kubectl get pod -n kube-system
NAME                                 READY   STATUS    RESTARTS   AGE
coredns-bccdc95cf-kqxwv              1/1     Running   3          2d4h
coredns-bccdc95cf-nwkbp              1/1     Running   3          2d4h
etcd-k8s-master                      1/1     Running   2          2d4h
kube-apiserver-k8s-master            1/1     Running   2          2d4h
kube-controller-manager-k8s-master   1/1     Running   5          2d4h
kube-flannel-ds-amd64-dc5z9          1/1     Running   1          2d4h
kube-flannel-ds-amd64-jm2jz          1/1     Running   1          2d4h
kube-flannel-ds-amd64-z6tt2          1/1     Running   1          2d4h
kube-proxy-9ltx7                     1/1     Running   2          2d4h
kube-proxy-lnzrj                     1/1     Running   1          2d4h
kube-proxy-v7dqm                     1/1     Running   1          2d4h
kube-scheduler-k8s-master            1/1     Running   5          2d4h
prometheus-0                         2/2     Running   0          3m3s

然后看一下service，我们使用Nodeport类型，端口使用9090。当然也可以使用ingress暴露出去

[root@k8s-master prometheus-k8s]# cat prometheus-service.yaml 
kind: Service
apiVersion: v1
metadata: 
  name: prometheus
  namespace: kube-system
  labels: 
    kubernetes.io/name: "Prometheus"
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
spec: 
  type: NodePort
  ports: 
    - name: http 
      port: 9090
      protocol: TCP
      targetPort: 9090
  selector: 
    k8s-app: prometheus

现在可以去访问一下了，访问随机端口32276,我们的prometheus已经部署成功

[root@k8s-master prometheus-k8s]# kubectl create -f prometheus-service.yaml 
[root@k8s-master prometheus-k8s]# kubectl get svc -n kube-system
NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
kube-dns     ClusterIP   10.1.0.10            53/UDP,53/TCP,9153/TCP   2d4h
prometheus   NodePort    10.1.58.1            9090:32276/TCP           22s

一个非常简洁的UI页面，没有什么好的功能，很难满足企业UI的要求的，不过只在这里做一个调试，上面主要写promQL的表达式的，怎么去查这个数据，就好比mysql的SQL,去查询出你的数据，可以在status里面去进行调试，而里面的config配置文件我们增加了告警预值，增加了对nodeport的支持还有指定了alertmanager的地址，然后rules，我们也是规划了两块，一个是通用规则，一个是node节点规则，主要监控三大块，内存、磁盘、CPU

现在查看CPU的利用率，一般都是使用Grafana去展示

五、在K8S平台部署Grafana
这里也是用statefulset去做的，也是自动创建pv，定义的端口是30007

[root@k8s-master prometheus-k8s]# cat grafana.yaml 
apiVersion: apps/v1 
kind: StatefulSet 
metadata:
  name: grafana
  namespace: kube-system
spec:
  serviceName: "grafana"
  replicas: 1
  selector:
    matchLabels:
      app: grafana
  template:
    metadata:
      labels:
        app: grafana
    spec:
      containers:
      - name: grafana
        image: grafana/grafana
        ports:
          - containerPort: 3000
            protocol: TCP
        resources:
          limits:
            cpu: 100m            
            memory: 256Mi          
          requests:
            cpu: 100m            
            memory: 256Mi
        volumeMounts:
          - name: grafana-data
            mountPath: /var/lib/grafana
            subPath: grafana
      securityContext:
        fsGroup: 472
        runAsUser: 472
  volumeClaimTemplates:
  - metadata:
      name: grafana-data
    spec:
      storageClassName: managed-nfs-storage 
      accessModes:
        - ReadWriteOnce
      resources:
        requests:
          storage: "1Gi"

---

apiVersion: v1
kind: Service
metadata:
  name: grafana
  namespace: kube-system
spec:
  type: NodePort
  ports:
  - port : 80
    targetPort: 3000
    nodePort: 30007
  selector:
app: grafana

默认账号密码都是admin

首先我们将prometheus做为数据源，添加一个数据源并选择prometheus

添加一个URL地址，可以写你访问UI页面的地址也可以写service的地址

[root@k8s-master prometheus-k8s]# kubectl get svc -n kube-system
NAME         TYPE        CLUSTER-IP     EXTERNAL-IP   PORT(S)                  AGE
grafana      NodePort    10.1.246.143           80:30007/TCP             11m
kube-dns     ClusterIP   10.1.0.10              53/UDP,53/TCP,9153/TCP   2d5h
prometheus   NodePort    10.1.58.1              9090:32276/TCP           40m

查看数据源已经有一个了

六、监控K8S集群中Pod、Node、资源对象
 Pod
kubelet的节点使用cAdvisor提供的metrics接口获取该节点所有Pod和容器相关的性能指标数据。
也就是kubelet会暴露两个接口地址：
https://NodeIP:10255/metrics/cadvisor 只读
https://NodeIP:10250/metrics/cadvisor kubelet的API,授权没问题的话可以做任何操作
可以在node节点去看一下，这个端口主要用作于访问kubelet的一些API鉴权，和提供一些cAdvisor指标用的，咱们部署prometheus的时候，就已经开始收集cAdvisor数据了，为什么会采集，因为prometheus配置文件就已经去定义怎么去采集数据了

[root@k8s-node1 ~]# netstat -antp |grep 10250
tcp6       0      0 :::10250                :::*                    LISTEN      107557/kubelet      
tcp6       0      0 192.168.30.22:10250     192.168.30.23:58692     ESTABLISHED 107557/kubelet      
tcp6       0      0 192.168.30.22:10250     192.168.30.23:46555     ESTABLISHED 107557/kubelet

 Node
使用node_exporter收集器采集节点资源利用率。
https://github.com/prometheus/node_exporter
使用文档：https://prometheus.io/docs/guides/node-exporter/

 资源对象
kube-state-metrics采集了k8s中各种资源对象的状态信息，
https://github.com/kubernetes/kube-state-metrics

现在导入一个能够查看pod数据的模版，也就是通过模版更能直观去展示这些数据

七、使用Grafana可视化展示Prometheus监控数据

推荐模板：也就是在grafana共享中心里面的，也就是别人写的模版上传到这里库里面的，自己也可以写，写完上传上去，别人也可以访问到，下面是模版的id,只要获取这个ID，就能使用这个模版了，只要这个模版，后端提供执行promeQL,只要有数据就能帮你展示出来
Grafana.com
• 集群资源监控：3119
• 资源状态监控：6417
• Node监控：9276

现在使用这个3319模版，来展示我们的集群的资源，打开添加模版，选择dashboard

选择导入模版

写入3119,它能自动帮你识别这个模版的名字


因为这些都有数据了，所以就直接能查看到所有集群的资源
下面这个是网络IO的图表，一个是接收，一个是发送

下面这个是集群内存的使用情况
这里是4G，只识别了3.84G,使用2.26G，CPU是双核，使用了0.11，右边这个是集群文件系统，但是没有显示出来，我们可以看一下它PromQL怎么写的，把这个写promQL拿到promQL Ui上测试一下有没有数据，一般是没有匹配到数据导致的

来看一下这个怎么解决


拿这个数据去比对，找到数据，一点一点去删除，现在我们找到数据了，这里是匹配的你节点的名称，根据这个我们去找，因为这个模版是别人上传的，我们自己用肯定根据自己的内容去匹配，这里可以去匹配相关的promQL,然后改一下我们grafana的promQL,现在是获取到数据了


另外我们可能还做一些其他的模版的监控，可以在它Grafana的官方去找一些模版，但是有的可能不能用，自己需要去修改，比如输入k8s,这里是监控etcd集群的

Node
使用node_exporter收集器采集节点资源利用率。
https://github.com/prometheus/node_exporter
使用文档：https://prometheus.io/docs/guides/node-exporter/

这个目前没有使用pod去部署，因为没有展示到一个磁盘的使用率，官方给出了一个statfulset的方式，无法展示磁盘，不过也可以以一个守护进程的方式部署在node 节点上，这个部署也比较简单，以二进制的方式去部署，在宿主机上启动一个就可以了

看一下这个脚本，是以systemd去过滤服务启动监控的状态，如果守护进程挂了话，也会被Prometheus采集到也就是下面这个参数
--collector.systemd --collector.systemd.unit-whitelist=(docker|kubelet|kube-proxy|flanneld).service

[root@k8s-node1 ~]# bash node_exporter.sh 
#!/bin/bash

wget https://github.com/prometheus/node_exporter/releases/download/v0.17.0/node_exporter-0.17.0.linux-amd64.tar.gz

tar zxf node_exporter-0.17.0.linux-amd64.tar.gz
mv node_exporter-0.17.0.linux-amd64 /usr/local/node_exporter

cat </usr/lib/systemd/system/node_exporter.service
[Unit]
Description=https://prometheus.io

[Service]
Restart=on-failure
ExecStart=/usr/local/node_exporter/node_exporter --collector.systemd --collector.systemd.unit-whitelist=(docker|kubelet|kube-proxy|flanneld).service

[Install]
WantedBy=multi-user.target
EOF

systemctl daemon-reload
systemctl enable node_exporter
systemctl restart node_exporter

prometheus是主动的去采集资源的指标，而不是被动的被监控端推送这些数据
然后使用的是9276这个模版，我们可以先让这个模版导入进来

[root@k8s-node1 ~]# ps -ef |grep node_ex
root       5275      1  0 21:59 ?        00:00:03 /usr/local/node_exporter/node_exporter --collector.systemd --collector.systemd.unit-whitelist=(docker|kubelet|kube-proxy|flanneld).service
root       7393  81364  0 22:15 pts/1    00:00:00 grep --color=auto node_ex

选择nodes ,这里可以看到两个节点的资源状态

获取网络带宽失败，然后我们可以去测这个promeQL，一般这个情况就是查看网卡的接口名称，有的是eth0，有的是ens32,ens33，这个根据自己的去写


点击这个保存

现在就有了

K8s资源对象的监控
具体实现 kube-state-metrics ,这种类型pod/deployment/service
这个组件是官方开发的，通过API去获取k8s资源的状态，通过metrics来完成数据的采集。比如副本数是多少，当前是什么状态了，是获取这些的
当然github上都有这些，只需要把国外的源换成国外的就可以了，或者换成我的，我已经把镜像上传到docker hub上了。
https://github.com/kubernetes/kubernetes/tree/master/cluster/addons/prometheus

创建rbac授权规则

[root@k8s-master prometheus-k8s]# cat kube-state-metrics-rbac.yaml 
apiVersion: v1
kind: ServiceAccount
metadata:
  name: kube-state-metrics
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: kube-state-metrics
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
rules:
- apiGroups: [""]
  resources:
  - configmaps
  - secrets
  - nodes
  - pods
  - services
  - resourcequotas
  - replicationcontrollers
  - limitranges
  - persistentvolumeclaims
  - persistentvolumes
  - namespaces
  - endpoints
  verbs: ["list", "watch"]
- apiGroups: ["extensions"]
  resources:
  - daemonsets
  - deployments
  - replicasets
  verbs: ["list", "watch"]
- apiGroups: ["apps"]
  resources:
  - statefulsets
  verbs: ["list", "watch"]
- apiGroups: ["batch"]
  resources:
  - cronjobs
  - jobs
  verbs: ["list", "watch"]
- apiGroups: ["autoscaling"]
  resources:
  - horizontalpodautoscalers
  verbs: ["list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: kube-state-metrics-resizer
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
rules:
- apiGroups: [""]
  resources:
  - pods
  verbs: ["get"]
- apiGroups: ["extensions"]
  resources:
  - deployments
  resourceNames: ["kube-state-metrics"]
  verbs: ["get", "update"]
---
apiVersion: rbac.authorization.k8s.io/v1 
kind: ClusterRoleBinding
metadata:
  name: kube-state-metrics
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: kube-state-metrics
subjects:
- kind: ServiceAccount
  name: kube-state-metrics
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: kube-state-metrics
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: kube-state-metrics-resizer
subjects:
- kind: ServiceAccount
  name: kube-state-metrics
  namespace: kube-system

创建deployment

[root@k8s-master prometheus-k8s]# cat kube-state-metrics-deployment.yaml 
apiVersion: apps/v1
kind: Deployment
metadata:
  name: kube-state-metrics
  namespace: kube-system
  labels:
    k8s-app: kube-state-metrics
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
    version: v1.3.0
spec:
  selector:
    matchLabels:
      k8s-app: kube-state-metrics
      version: v1.3.0
  replicas: 1
  template:
    metadata:
      labels:
        k8s-app: kube-state-metrics
        version: v1.3.0
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      priorityClassName: system-cluster-critical
      serviceAccountName: kube-state-metrics
      containers:
      - name: kube-state-metrics
        image: zhaocheng172/kube-state-metrics:v1.3.0
        ports:
        - name: http-metrics
          containerPort: 8080
        - name: telemetry
          containerPort: 8081
        readinessProbe:
          httpGet:
            path: /healthz
            port: 8080
          initialDelaySeconds: 5
          timeoutSeconds: 5
      - name: addon-resizer
        image: zhaocheng172/addon-resizer:1.8.3
        resources:
          limits:
            cpu: 100m
            memory: 30Mi
          requests:
            cpu: 100m
            memory: 30Mi
        env:
          - name: MY_POD_NAME
            valueFrom:
              fieldRef:
                fieldPath: metadata.name
          - name: MY_POD_NAMESPACE
            valueFrom:
              fieldRef:
                fieldPath: metadata.namespace
        volumeMounts:
          - name: config-volume
            mountPath: /etc/config
        command:
          - /pod_nanny
          - --config-dir=/etc/config
          - --container=kube-state-metrics
          - --cpu=100m
          - --extra-cpu=1m
          - --memory=100Mi
          - --extra-memory=2Mi
          - --threshold=5
          - --deployment=kube-state-metrics
      volumes:
        - name: config-volume
          configMap:
            name: kube-state-metrics-config
---
# Config map for resource configuration.
apiVersion: v1
kind: ConfigMap
metadata:
  name: kube-state-metrics-config
  namespace: kube-system
  labels:
    k8s-app: kube-state-metrics
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
data:
  NannyConfiguration: |-
    apiVersion: nannyconfig/v1alpha1
    kind: NannyConfiguration

创建暴露的端口，这里使用的是service

[root@k8s-master prometheus-k8s]# cat kube-state-metrics-service.yaml 
apiVersion: v1
kind: Service
metadata:
  name: kube-state-metrics
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
    kubernetes.io/name: "kube-state-metrics"
  annotations:
    prometheus.io/scrape: 'true'
spec:
  ports:
  - name: http-metrics
    port: 8080
    targetPort: http-metrics
    protocol: TCP
  - name: telemetry
    port: 8081
    targetPort: telemetry
    protocol: TCP
  selector:
k8s-app: kube-state-metrics

部署成功之后，导入模版就能监控到我们的数据

[root@k8s-master prometheus-k8s]# kubectl get pod,svc -n kube-system
NAME                                      READY   STATUS    RESTARTS   AGE
pod/coredns-bccdc95cf-kqxwv               1/1     Running   3          2d9h
pod/coredns-bccdc95cf-nwkbp               1/1     Running   3          2d9h
pod/etcd-k8s-master                       1/1     Running   2          2d9h
pod/grafana-0                             1/1     Running   0          4h50m
pod/kube-apiserver-k8s-master             1/1     Running   2          2d9h
pod/kube-controller-manager-k8s-master    1/1     Running   5          2d9h
pod/kube-flannel-ds-amd64-dc5z9           1/1     Running   1          2d9h
pod/kube-flannel-ds-amd64-jm2jz           1/1     Running   1          2d9h
pod/kube-flannel-ds-amd64-z6tt2           1/1     Running   1          2d9h
pod/kube-proxy-9ltx7                      1/1     Running   2          2d9h
pod/kube-proxy-lnzrj                      1/1     Running   1          2d9h
pod/kube-proxy-v7dqm                      1/1     Running   1          2d9h
pod/kube-scheduler-k8s-master             1/1     Running   5          2d9h
pod/kube-state-metrics-6474469878-6kpxv   1/2     Running   0          4s
pod/kube-state-metrics-854b85d88-zl777    2/2     Running   0          35s
pod/prometheus-0                          2/2     Running   0          5h30m

还是刚才步骤一样，导入一个6417的模版

数据现在已经展示出来了，它会从target里面获取到这些数据，也就是这个来提供的，由prometheus自动的发现了。它这个发现是根据里面的一个注解来获取的，也就是在service里面
annotations:
prometheus.io/scrape: 'true'
也就是声明了部署了哪些应用，可以被prometheus去自动的发现,如果加这条规则，prometheus会自动把这些带注解的监控到，也就是自己部署的应用，并提供相应的指标，也能自动发现这些状态。

磁盘这里需要更改一个因为这里更新了，添加bytes

下面这里是pod的容量，最大可以创建的数量，也就是kubelet去限制的，总共一个节点可以创建330个pod,已经分配24个。

小结：
所以有了这些监控，基本上就能了解k8s的基本资源的使用状态了

八、告警规则与告警通知
在K8S中部署Alertmanager

说在前面的话，在k8s使用告警使用的是Alertmanager，先定义监控预值的规则，比如node的内存到达60%，才能告警，先定义好这些规则，如果prometheus采集的指标，匹配到这个规则，就是为真的话，它会发送告警，会将这个个告警信息推送给 
Alertmanager,Alertmanager经过一系列的处理，最终发送到告警人手上，可以是webhook，email,钉钉，企业微信，目前我们拿email来做以下实例，企业微信需要注册企业的一些相关信息营业执照等，而webhook需要对接第三方的系统调一个接口去传值，email默认都支持，prometheus原生是不支持钉钉的,如果想支持的话，需要找第三方，做这个数据转换的组件。因为promethes传入的数据，它与钉钉传入的数据是不匹配的，所有有中间的程序数据之间进行转换，现在也有开源的可以去实现。

基本流程就行这样的，我们定义的规则都是在prometheus中

在K8S中部署Alertmanager

部署Alertmanager
配置Prometheus与Alertmanager通信
配置告警
prometheus指定rules目录
configmap存储告警规则
configmap挂载到容器rules目录
增加alertmanager告警配置

这里是定义谁发送这个告警信息的，谁接收这个邮件

[root@k8s-master prometheus-k8s]# vim alertmanager-configmap.yaml 
apiVersion: v1
kind: ConfigMap
metadata:
  name: alertmanager-config
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: EnsureExists
data:
  alertmanager.yml: |
    global:
      resolve_timeout: 5m
      smtp_smarthost: 'smtp.163.com:25'
      smtp_from: '[email protected]'
      smtp_auth_username: '[email protected]'
      smtp_auth_password: 'liang123'

    receivers:
    - name: default-receiver
      email_configs:
      - to: "[email protected]"

    route:
      group_interval: 1m
      group_wait: 10s
      receiver: default-receiver
      repeat_interval: 1m

[root@k8s-master prometheus-k8s]# cat alertmanager-deployment.yaml 
apiVersion: apps/v1
kind: Deployment
metadata:
  name: alertmanager
  namespace: kube-system
  labels:
    k8s-app: alertmanager
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
    version: v0.14.0
spec:
  replicas: 1
  selector:
    matchLabels:
      k8s-app: alertmanager
      version: v0.14.0
  template:
    metadata:
      labels:
        k8s-app: alertmanager
        version: v0.14.0
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      priorityClassName: system-cluster-critical
      containers:
        - name: prometheus-alertmanager
          image: "prom/alertmanager:v0.14.0"
          imagePullPolicy: "IfNotPresent"
          args:
            - --config.file=/etc/config/alertmanager.yml
            - --storage.path=/data
            - --web.external-url=/
          ports:
            - containerPort: 9093
          readinessProbe:
            httpGet:
              path: /#/status
              port: 9093
            initialDelaySeconds: 30
            timeoutSeconds: 30
          volumeMounts:
            - name: config-volume
              mountPath: /etc/config
            - name: storage-volume
              mountPath: "/data"
              subPath: ""
          resources:
            limits:
              cpu: 10m
              memory: 50Mi
            requests:
              cpu: 10m
              memory: 50Mi
        - name: prometheus-alertmanager-configmap-reload
          image: "jimmidyson/configmap-reload:v0.1"
          imagePullPolicy: "IfNotPresent"
          args:
            - --volume-dir=/etc/config
            - --webhook-url=http://localhost:9093/-/reload
          volumeMounts:
            - name: config-volume
              mountPath: /etc/config
              readOnly: true
          resources:
            limits:
              cpu: 10m
              memory: 10Mi
            requests:
              cpu: 10m
              memory: 10Mi
      volumes:
        - name: config-volume
          configMap:
            name: alertmanager-config
        - name: storage-volume
          persistentVolumeClaim:
            claimName: alertmanager

查看我们的pvc这里也是使用的我们的自动供给managed-nfs-storage
[root@k8s-master prometheus-k8s]# cat alertmanager-pvc.yaml 
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: alertmanager
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: EnsureExists
spec:
  storageClassName: managed-nfs-storage 
  accessModes:
    - ReadWriteOnce
  resources:
    requests:
      storage: "2Gi"

这里使用的是类型为cluster IP

[root@k8s-master prometheus-k8s]# cat alertmanager-service.yaml 
apiVersion: v1
kind: Service
metadata:
  name: alertmanager
  namespace: kube-system
  labels:
    kubernetes.io/cluster-service: "true"
    addonmanager.kubernetes.io/mode: Reconcile
    kubernetes.io/name: "Alertmanager"
spec:
  ports:
    - name: http
      port: 80
      protocol: TCP
      targetPort: 9093
  selector:
    k8s-app: alertmanager 
  type: "ClusterIP"

然后把我们的资源都创建好

[root@k8s-master prometheus-k8s]# kubectl create -f alertmanager-configmap.yaml 
[root@k8s-master prometheus-k8s]# kubectl create -f alertmanager-deployment.yaml 
[root@k8s-master prometheus-k8s]# kubectl create -f alertmanager-pvc.yaml 
[root@k8s-master prometheus-k8s]# kubectl create -f alertmanager-service.yaml 
[root@k8s-master prometheus-k8s]# kubectl get pod -n kube-system
NAME                                  READY   STATUS    RESTARTS   AGE
alertmanager-5d75d5688f-xw2qg         2/2     Running   0          66s
coredns-bccdc95cf-kqxwv               1/1     Running   2          6d
coredns-bccdc95cf-nwkbp               1/1     Running   2          6d
etcd-k8s-master                       1/1     Running   1          6d
grafana-0                             1/1     Running   0          14h
kube-apiserver-k8s-master             1/1     Running   1          6d
kube-controller-manager-k8s-master    1/1     Running   2          6d
kube-flannel-ds-amd64-dc5z9           1/1     Running   1          5d23h
kube-flannel-ds-amd64-jm2jz           1/1     Running   1          5d23h
kube-flannel-ds-amd64-z6tt2           1/1     Running   1          6d
kube-proxy-9ltx7                      1/1     Running   2          6d
kube-proxy-lnzrj                      1/1     Running   1          5d23h
kube-proxy-v7dqm                      1/1     Running   1          5d23h
kube-scheduler-k8s-master             1/1     Running   2          6d
kube-state-metrics-6474469878-lkphv   2/2     Running   0          98m
prometheus-0                          2/2     Running   0          15h

然后也可以在我们的prometheus上看到我们设置的告警规则

然后我们测试一下我们的告警，修改一下我们的prometheus的rules
把node磁盘资源设置为>20 就报警

[root@k8s-master prometheus-k8s]# vim prometheus-rules.yaml 

- alert: NodeFilesystemUsage
        expr: 100 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"} * 100) > 20

重建一下pod，这里会自动启动，查看prometheus,已经生效，另外上产环境都是去调用api，发送一个信号给rules,这里我是重建的，也可以找一些网上的其他文章
[root@k8s-master prometheus-k8s]# kubectl delete pod prometheus-0 -n kube-system

查看Alerts，这里会变颜色，等会会变成红色，也就是alertmanager它是有一个处理的逻辑的，还是比较复杂的，它会设计到一个静默，就是告警收敛这一块，还有一个分组，还有一个再次等待的的确认，所有不是一触发就发送

粉红色其实已经将告警推送给Alertmanager了，也就是这个状态下才去发送这个告警信息

你可能感兴趣的:(prometheus,kubernets,kubernetes)

Spring Cloud（微服务部署与监控）白仑色 Spring系列 spring cloud 微服务 spring 微服务部署服务监控健康检查
摘要在微服务架构中，随着服务数量的增长和部署复杂度的提升，如何高效部署、持续监控、快速定位问题并实现自动化运维成为保障系统稳定性的关键。本文将围绕SpringCloud微服务的部署与监控展开，深入讲解：微服务打包与部署方式（JAR/Docker/Kubernetes）如何构建CI/CD流水线服务健康检查与自动恢复机制Prometheus+Grafana实现指标可视化监控ELK实现日志集中管理Sky
Kubernetes Pod 调度基础眠修 kubernetes 容器云原生
目录一、ReplicationController和ReplicaSet1、ReplicationController（复制控制器，RC）（1）编辑ReplicationController文件（2）创建ReplicationController（3）删除一个pod并立即查看pod状态（4）删除ReplicationController2、标签与标签选择器（1）标签（2）标签选择器基于等式的选择器
Kubernetes Pod常见的几种调度方式 Seal^_^ 【云原生】容器化与编排技术持续集成 #Kubernetes kubernetes 容器云原生 K8s Pod Pod的几种调度方式面试
KubernetesPod常见的几种调度方式1、Deployment或ReplicationController(RC)2、NodeSelector（定向调度）3、NodeAffinity（亲和性调度）4、Taints和Tolerations（污点和容忍）TheBegin点点关注，收藏不迷路1、Deployment或ReplicationController(RC)功能：自动部署容器应用的多份副本
Kubernetes Pod调度基础别骂我h 个人笔记容器
目录一、ReplicationController和ReplicaSet1.ReplicationControllerReplicationController的使用示例2.标签与标签选择器标签标签选择器标签与标签选择器举例3.ReplicaSet定义ReplicaSet实例二、无状态应用管理Deployment1.什么是无状态2.无状态服务特点3.无状态服务的应用场景4.创建Deployment
Spring Boot + ONNX Runtime模型部署
文章目录前言一、模型导出二、Java推理引擎选型三、SpringBoot实战3.1核心架构3.2分层架构详细实现1.Controller层-请求入口2.Service层-核心业务流程3.关键组件深度优化四、云原生部署：Docker+Kubernetes总结前言在AI浪潮席卷全球的今天，Java工程师如何守住后端主战场？模型部署正是Java工程师融入AI领域的方向。为什么Java工程师必须掌握模型部
多容器应用与编排——AI教你学Docker LuckyLay AI教你学Docker 人工智能 docker 容器
2.2多容器应用与编排现代应用通常由多个服务（如Web、数据库、缓存等）组成，每个服务运行在独立的容器里。如何高效管理、协调、扩展、升级这些多容器应用，成为容器化实践的核心。容器编排工具（如DockerCompose、Swarm、Kubernetes）正是为此而生。一、Compose：本地/开发环境多容器编排1.概述DockerCompose是用于定义和运行多容器Docker应用的工具。通过doc
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
container_memory_working_set_bytes` 与 `container_memory_usage_bytes` 的区别强哥之神 prometheus 容器 docker k8s
在Prometheus中，container_memory_working_set_bytes与container_memory_usage_bytes的区别如下：计算方式及包含内容：container_memory_usage_bytes：表示容器当前使用的总内存，包括所有内存，不管这些内存是否最近被访问过，也不管其是否可以被操作系统回收，即它包含了缓存、工作集等所有内存部分。container
【Kubernetes】ReplicaSet 如何选择要删除的 Pod - 缩容优先级深度解析 showyoui 云原生开源 kubernetes 容器云原生
文章目录概述核心问题：控制器如何在自己的Pod中做选择？ReplicaSet的删除优先级排序特殊情况：StatefulSet决策流程图关键应用：使用`pod-deletion-cost`总结概述当您缩减一个Deployment或ReplicaSet的副本数时，控制器必须从其管理的众多Pod中做出选择：删除哪一个？这是一个在应用更新和弹性伸缩中频繁发生的操作。与因节点资源不足而引发的"被动"驱逐不同
Kubernetes第八章--存储类型运维小贺 kubernetes 容器云计算云原生运维
k8s存储概述在Kubernetes（K8s）中，存储系统是一个关键的组成部分，用于管理容器化应用的数据持久性和共享性。K8s的存储分类可以从多个维度进行理解，但主要分为两大类：临时存储和持久存储。关于元数据和真实数据的分类，虽然这两个概念在存储系统中普遍存在，但在K8s的存储分类中，它们并不是直接用于分类存储类型的标准。不过，可以从K8s存储类型如何管理和使用这些数据的角度来探讨。k8s支持的卷
Zabbix和Prometheus的区别运维小贺 zabbix prometheus 运维
Zabbix监控平台监控概念对服务的管理，不能仅限于可用性。还需要服务可以安全、稳定、高效地运行。监控的目的：早发现、早治疗。被监控的资源类型：公开数据：对外开放的，不需要认证即可获取的数据私有数据：对外不开放，需要认证、权限才能获得的数据Zabbix是什么？Zabbix是个适用于监控硬件服务器的一款开源的分布式监控方案实施监控的几个方面：数据采集：使用agent（可安装软件的系统上）、SNMP（
Kubernetes第七章--Service详解 (纯干货) 运维小贺 kubernetes 容器云原生 docker etcd
Service存在的意义？引入Service主要是解决Pod的动态变化，通过创建Service，可以为一组具有相同功能的容器应用提供一个统一的入口地址，并且将请求负载分发到后端的各个容器应用上。若提供服务的容器应用是分布式，所以存在多个pod副本，而Pod副本数量可能在运行过程中动态改变，比如水平扩缩容，或者服务器发生故障Pod的IP地址也有可能发生变化。当pod的地址端口发生改变后，客户端再想连
Kubernetes Pod 调度基础
目录一、ReplicationController与ReplicaSet：Pod副本数的守护者1.1ReplicationController：确保Pod副本数的基础机制1.1.1ReplicationController实践示例1.2标签与标签选择器：Kubernetes对象管理的核心机制1.2.1标签（Label）的定义与规范1.2.2标签选择器（LabelSelector）的类型与用法1.2
16.6 《3分钟扩容20实例！LanguageMentor容器化部署实战：高并发下的负载均衡与自动扩展方案》少林码僧负载均衡运维人工智能语言模型机器学习 langchain llama
LanguageMentorAgent容器化部署与发布：高并发场景下的负载均衡与自动扩展关键词：KubernetesHPA,AWSAutoScaling,会话亲和性,监控指标,滚动更新1.高并发场景下的架构挑战LanguageMentor作为对话式Agent需要处理多用户同时在线会话，容器化部署需解决两个核心问题：
如何在宝塔面板中配置SSL证书？奔跑吧邓邓子高效运维 ssl 服务器网络协议
提示：“奔跑吧邓邓子”的高效运维专栏聚焦于各类运维场景中的实际操作与问题解决。内容涵盖服务器硬件（如IBMSystem3650M5）、云服务平台（如腾讯云、华为云）、服务器软件（如Nginx、Apache、GitLab、Redis、Elasticsearch、Kubernetes、Docker等）、开发工具（如Git、HBuilder）以及网络安全（如挖矿病毒排查、SSL证书配置）等多个方面。无论
一文读懂Kubernetes：架构、优势与应用 t0_54program 大数据与人工智能 kubernetes 架构容器个人开发
在当今的云原生计算领域，容器和Kubernetes的应用极为广泛。尽管Kubernetes是一项相对较新的技术，但众多全球企业已在生产环境中用它来管理关键业务应用程序。它之所以广受欢迎，得益于其一系列强大的功能，如增强的安全性、更出色的微服务管理能力、更高的可观测性，以及更高效的扩展和资源利用。什么是Kubernetes？Kubernetes，常简称为k8s，是谷歌实验室于2014年开发的开源容器
一文读懂Kubernetes之 K8s 概述野熊佩骑 Linux系统应用运维 kubernetes 容器云原生 docker 微服务 kubelet devops
目录一、Kubernetes集群组件(一)、控制平面组件(ControlPlaneComponents)1、kube-apiserver2、etcd3、kube-scheduler4、kube-controller-manager5、cloud-controller-manager(可选的)(二)、节点组件1、kubelet2、kube-proxy(可选的)3、容器运行时(Containerrun
云上游戏服务器架构全解析你一身傲骨怎能输架构设计游戏服务器架构
文章摘要本文提出了一套现代化、可落地的云上游戏服务器架构方案，针对FPS、MOBA、MMO等游戏类型的高并发、低延迟需求。该架构采用微服务设计，包含全球接入层、API网关、匹配/大厅服务、对局服务器、业务微服务等组件，通过Kubernetes实现弹性伸缩，支持百万级玩家同时在线。关键技术包括：多地域部署降低延迟、WebSocket/UDP实时通信、帧同步/状态同步机制、Saga分布式事务处理以及完
Spring Boot和Spring Cloud微服务架构实战指南 Javen Fang
本文还有配套的精品资源，点击获取简介：本文介绍微服务架构的基本概念及其与SpringBoot和SpringCloud的关系。SpringBoot简化了Spring应用的初始搭建和开发流程，而SpringCloud提供了一系列微服务解决方案，如服务发现、配置中心等。通过实例说明如何搭建和配置微服务，并包含脚本配置的使用，如Docker和Kubernetes来管理微服务部署。文档和具体项目文件如"se
半导体FAB中的服务器硬件故障监控与预防全方案：从预警到零宕机实战爱吃青菜的大力水手服务器运维半导体 FAB运维 IT运维
服务器硬件故障监控与预防全方案：从预警到零宕机实战关键词：SMART监控RAID预警IPMI传感器性能基线PrometheusZabbix高可用架构一、硬件故障前的7大预警信号（附关联工具）故障类型关键指标监控工具预警阈值磁盘故障Reallocated_Sector_Countsmartctl+smartd>0立即告警Current_Pending_SectorPrometheus+NodeExp
K8S必问面试题之：K8S架构中每个组件的作用运维爱背锅 K8S面试题 kubernetes 架构容器 K8S面试题面试 devops 运维
微信关注运维爱背锅，用通俗易懂的方式教你运维K8S面试题：K8S架构中每个组件的作用大家好！今天我们来聊聊Kubernetes（简称K8S）中各个组件的作用，这是一道必问的面试题——各个组件就像一支分工明确的足球队，有人守门、有人射门，还有人负责喊战术。下面咱们就用“人话”拆解一下这些组件的职责。1.etcd：集群的“八卦的小本本”作用：分布式K-V（键值）存储数据库，专门记录集群的所有“秘密”，
容器化与微服务何遇mirror 服务器容器微服务
目录编辑第一节：容器化与微服务第二节：Docker与Kubernetes的介绍第三节：容器与传统虚拟化的对比第四节：微服务架构与虚拟化实际案例分析第一节：容器化与微服务容器化与微服务概述容器化是一种轻量级的虚拟化技术，它允许开发者将应用程序及其依赖项打包成一个可移植的容器。微服务架构则是一种将大型应用程序分解为小的、独立的服务的方法，这些服务可以独立部署、扩展和维护。容器化的优势轻量级：容器使用共
Istio 深度解析与实战：从原理到应用的全面指南阿贾克斯的黎明 java istio 网络云原生
目录Istio深度解析与实战：从原理到应用的全面指南一、Istio原理深度剖析1.数据平面2.控制平面二、Istio的安装与部署1.环境准备2.安装Istio3.注入Sidecar三、Istio实战应用场景1.流量管理（1）简单路由（2）流量镜像2.安全防护（1）服务间双向认证（2）基于角色的访问控制（RBAC）3.监控与可观测性（1）启用Prometheus和Grafana（2）查看监控指标四、
云原生灰度方案对比：服务网格灰度（Istio ）与 K8s Ingress 灰度（Nginx Ingress ）大手你不懂微服务-云原生 Java Java项目实战云原生 istio kubernetes 微服务
服务网格灰度与KubernetesIngress灰度是云原生环境下两种主流的灰度发布方案，它们在架构定位、实现方式和适用场景上存在显著差异。以下从多个维度对比分析，并给出选型建议：一、核心区别对比维度服务网格灰度（以Istio为例）K8sIngress灰度（以NginxIngress为例）架构层级网络层（L7），工作在服务间通信层面边缘网关层，工作在集群入口处流量控制范围服务间的全链路流量集群外部
如何设计一个高并发系统？从哪些方面考虑？真IT布道者架构性能优化分布式
核心观点：高并发系统设计需要从架构分层、资源扩展、性能优化、容错机制四个维度综合考量，通过分布式架构和异步化等手段实现系统弹性。一、架构分层设计1.分层解耦接入层：使用Nginx/LVS实现负载均衡，采用DNS轮询或Anycast进行流量分发服务层：微服务架构（如SpringCloud或Kubernetes），服务按功能垂直拆分数据层：读写分离（MySQL主从）+分库分表（ShardingSphe
Alluxio EnterpriseAI on K8s 部署教程 Alluxio kubernetes 容器云原生
AlluxioEnterpriseAIonK8s部署视频教程视频为AlluxioEnterpriseAIonK8s部署视频教程。下面内容将主要介绍如何通过Operator（Kubernetes管理应用程序的扩展）在Kubernetes上安装Alluxio。1.系统要求Kubernetes至少1.19版本的Kubernetes集群，支持特性门控确保集群的Kubernetes网络策略允许应用程序（Al
AI原生应用微服务监控：Prometheus+Grafana实战 AI原生应用开发 AI-native 微服务 prometheus ai
AI原生应用微服务监控：Prometheus+Grafana实战关键词：微服务监控、Prometheus、Grafana、AI应用、指标收集、可视化告警、云原生摘要：本文将深入探讨如何为AI原生应用构建完整的微服务监控系统。我们将从基础概念出发，详细介绍Prometheus的指标收集机制和Grafana的可视化能力，并通过实际案例展示如何搭建完整的监控解决方案。文章包含详细的配置示例、架构图解和最
Python HTTP服务监控：Prometheus与自定义Exporter开发指南
在微服务架构中，HTTP服务的高效监控对保障系统稳定性至关重要。Prometheus作为云原生监控标杆，通过其Pull模型与灵活的指标体系，结合Python开发的自定义Exporter，可实现HTTP服务性能、可用性及业务指标的全面观测。Prometheus监控核心机制Prometheus采用时间序列数据库存储指标数据，每条数据由指标名称（如http_requests_total）、标签（如met
科伦坡证券交易所（CSE）定制的全栈系统开发报告 Ashlee_guweng22346 python java perl docker 数据结构 emacs 算法
“全自动化交易平台”（CSE主席瓦吉拉·库拉提拉卡评价）的进化——订单处理延迟1Tbps）。容器化微服务：iSulad轻量容器引擎（内存开销6MB）实现Kubernetes秒级扩容，资源利用率提升70%，故障切换时间10ms，错失套利窗口。方案：鲲鹏低延迟引擎+InfiniBand网络。结果：时延降至0.5ms，套利收益年化提升22%。
机器学习模型监控警报系统设计：Prometheus+Evidently 实战教程大熊计算机机器学习 prometheus 人工智能
1.系统架构设计：从数据采集到智能告警（1）监控系统核心组件交互图预测请求监控指标告警规则通知渠道预测结果质量报告时序数据模型服务PrometheusExporterPrometheusServerAlertmanager邮件/Slack/WebhookEvidently服务可视化仪表盘图解：系统采用双引擎架构，Prometheus负责基础监控指标采集与告警触发，Evidently执行深度模型分析
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen