qq_44658961

k8s——健康检查

Health Check

强大的自愈能力是Kubernetes这类容器编排引擎的一个重要特性。自愈的默认实现方式是自动重启发生故障的容器。除此之外,用户还可以利用Liveness和Readiness探测机制设置更精细的健康检查,进而实现如下需求:

(1)零停机部署。
(2)避免部署无效的镜像。
(3)更加安全的滚动升级。

默认的健康检查

我们首先学习Kubernetes默认的健康检查机制:每个容器启动时都会执行一个进程,此进程由Dockerfile的CMD或ENTRYPOINT指定。如果进程退出时返回码非零,则认为容器发生故障,Kubernetes就会根据restartPolicy重启容器

下面我们模拟一个容器发生故障的场景

[k8s@server1 ~]$ cat healthcheck.yml 
apiVersion: v1
kind: Pod
metadata:
 labels:
  test: healthcheck
 name: healthcheck
spec:
 restartPolicy: OnFailure
 containers:
 - name: healthcheck
   image: busybox
   args:
   - /bin/sh
   - -c
   - sleep 10; exit 1

Pod的restartPolicy设置为OnFailure,默认为Always。
sleep 10; exit 1模拟容器启动10秒后发生故障。

可看到容器当前已经重启了

[k8s@server1 ~]$ kubectl apply -f healthcheck.yml 
pod/healthcheck created
[k8s@server1 ~]$ kubectl get pod healthcheck 
NAME          READY   STATUS    RESTARTS   AGE
healthcheck   1/1     Running         0          8s
[k8s@server1 ~]$ kubectl get pod healthcheck
NAME          READY   STATUS             RESTARTS   AGE
healthcheck   0/1     CrashLoopBackOff   4          3m34s  ##重新启动了四次

在上面的例子中,容器进程返回值非零,Kubernetes则认为容器
发生故障,需要重启。
有不少情况是发生了故障,但进程并不会退出。比如访问Web服务器时显示500内部错误,可能是系统超载,也可能是资源死锁,此时httpd进程并没有异常退出,在这种情况下重启容器可能是最直接、最有效的解决方案,那我们如何利用HealthCheck机制来处理这类场景呢?
答案就是Liveness探测。

Liveness探测

Liveness探测让用户可以自定义容器是否健康的条件。如果
探测失败,Kubernetes就会重启容器

[k8s@server1 ~]$ cat liveness.yml 
apiVersion: v1
kind: Pod
metadata:
 labels:
  test: liveness
 name: liveness
spec:
 restartPolicy: OnFailure
 containers:
 - name: liveness
   image: busybox
   args:
   - /bin/sh
   - -c
   - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
   livenessProbe:
     exec:
       command:
       - cat
       - /tmp/healthy
     initiaDelaySeconds: 10
     periodSeconds: 5

启动进程首先创建文件/tmp/healthy,30秒后删除,在我们的设定
中,如果/tmp/healthy文件存在,则认为容器处于正常状态,反之则发生故障

livenessProbe部分定义如何执行Liveness探测:

(1)探测的方法是:通过cat命令检查/tmp/healthy文件是否存
在。如果命令执行成功,返回值为零,Kubernetes则认为本次
Liveness探测成功;如果命令返回值非零,本次Liveness探测失败。
(2)initialDelaySeconds:10指定容器启动10s之后开始执行
Liveness探测,我们一般会根据应用启动的准备时间来设置。比如某
个应用正常启动要花30秒,那么initialDelaySeconds的值就应该大于
30
(3)periodSeconds:5指定每5秒执行一次Liveness探测。
Kubernetes如果连续执行3次Liveness探测均失败,则会杀掉并重启容
器

[k8s@server1 ~]$ kubectl apply -f liveness.yml 
error: error validating "liveness.yml": error validating data: ValidationError(Pod.spec.containers[0].livenessProbe): unknown field "initiaDelaySeconds" in io.k8s.api.core.v1.Probe; if you choose to ignore these errors, turn validation off with --validate=false
[k8s@server1 ~]$ kubectl apply -f liveness.yml --validate=false
pod/liveness created

前30s是好的

[k8s@server1 ~]$ kubectl describe pod liveness 
Events:
  Type    Reason     Age        From               Message
  ----    ------     ----       ----               -------
  Normal  Scheduled  <unknown>  default-scheduler  Successfully assigned default/liveness to server3
  Normal  Pulling    25s        kubelet, server3   Pulling image "busybox"
  Normal  Pulled     20s        kubelet, server3   Successfully pulled image "busybox"
  Normal  Created    20s        kubelet, server3   Created container liveness
  Normal  Started    20s        kubelet, server3   Started container liveness

35s之后通过kubectl describe pod liveness也可以看到liveness探测失败的日志

Events:
  Type     Reason     Age                   From               Message
  ----     ------     ----                  ----               -------
  Normal   Scheduled  <unknown>             default-scheduler  Successfully assigned default/liveness to server3
  Normal   Pulled     110s (x3 over 4m22s)  kubelet, server3   Successfully pulled image "busybox"
  Normal   Created    110s (x3 over 4m22s)  kubelet, server3   Created container liveness
  Normal   Started    110s (x3 over 4m22s)  kubelet, server3   Started container liveness
  Warning  Unhealthy  67s (x9 over 3m52s)   kubelet, server3   Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
  Normal   Killing    67s (x3 over 3m42s)   kubelet, server3   Container liveness failed liveness probe, will be restarted
  Normal   Pulling    36s (x4 over 4m27s)   kubelet, server3   Pulling image "busybox"

[k8s@server1 ~]$ kubectl get pod liveness 
NAME       READY   STATUS    RESTARTS   AGE
liveness   1/1     Running   3          4m25s

Readiness探测

除了Liveness探测,Kubernetes Health Check机制还包括Readiness探测。用户通过Liveness探测可以告诉Kubernetes什么时候重启容器实现自愈;Readiness探测则是告诉Kubernetes什么时候可以将容器加入到Service负载均衡池中,对外提供服务。

Readiness探测的配置语法与Liveness探测完全一样

[k8s@server1 ~]$ cat readiness.yml 
apiVersion: v1
kind: Pod
metadata:
 labels:
  test: readiness
 name: readiness
spec:
 restartPolicy: OnFailure
 containers:
 - name: readiness
   image: busybox
   args:
   - /bin/sh
   - -c
   - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
   readinessProbe:
     exec:
       command:
       - cat
       - /tmp/healthy
     initiaDelaySeconds: 10
     periodSeconds: 5

[k8s@server1 ~]$  kubectl apply -f readiness.yml 
error: error validating "readiness.yml": error validating data: ValidationError(Pod.spec.containers[0].readinessProbe): unknown field "initiaDelaySeconds" in io.k8s.api.core.v1.Probe; if you choose to ignore these errors, turn validation off with --validate=false
[k8s@server1 ~]$  kubectl apply -f readiness.yml --validate=false
pod/readiness created

[k8s@server1 ~]$ kubectl get pod readiness
NAME        READY   STATUS    RESTARTS   AGE
readiness   1/1     Running   0          46s
[k8s@server1 ~]$ kubectl get pod readiness
NAME        READY   STATUS    RESTARTS   AGE
readiness   0/1     Running   0          46s

Pod readiness的READY状态经历了如下变化:

(1)刚被创建时,READY状态为不可用。
(2)15秒后(initialDelaySeconds + periodSeconds),第一次进行Readiness探测并成功返回,设置READY为可用
(3)30秒后,/tmp/healthy被删除,连续3次Readiness探测均失败后,READY被设置为不可用

通过kubectl describe pod readiness也可以看到Readiness探测失败
的日志

Events:
  Type     Reason     Age                From               Message
  ----     ------     ----               ----               -------
  Normal   Scheduled  <unknown>          default-scheduler  Successfully assigned default/readiness to server3
  Normal   Pulling    2m8s               kubelet, server3   Pulling image "busybox"
  Normal   Pulled     2m4s               kubelet, server3   Successfully pulled image "busybox"
  Normal   Created    2m4s               kubelet, server3   Created container readiness
  Normal   Started    2m4s               kubelet, server3   Started container readiness
  Warning  Unhealthy  3s (x19 over 93s)  kubelet, server3   Readiness probe failed: cat: can't open '/tmp/healthy': No such file or directory

下面对Liveness探测和Readiness探测做个比较:

(1)Liveness探测和Readiness探测是两种Health Check机制,如
果不特意配置,Kubernetes将对两种探测采取相同的默认行为,即通
过判断容器启动进程的返回值是否为零来判断探测是否成功。
(2)两种探测的配置方法完全一样,支持的配置参数也一样。
不同之处在于探测失败后的行为:Liveness探测是重启容器;
Readiness探测则是将容器设置为不可用,不接收Service转发的请求。
(3)Liveness探测和Readiness探测是独立执行的,二者之间没
有依赖,所以可以单独使用,也可以同时使用。用Liveness探测判断
容器是否需要重启以实现自愈;用Readiness探测判断容器是否已经准备好对外提供服务

对于多副本应用,当执行Scale Up操作时,新副本会作为backend
被添加到Service的负载均衡中,与已有副本一起处理客户的请求。
考虑到应用启动通常都需要一个准备阶段,比如加载缓存数据、连接数据库等,从容器启动到真正能够提供服务是需要一段时间的。我们可以通过Readiness探测判断容器是否就绪,避免将请求发送到还没有准备好的backend

apiVersion: apps/v1
kind: Deployment
metadata:
 name: web
spec:
 replicas: 3
 selector:
  matchLabels:
   run: web
 template:
  metadata:
   labels:
    run: web
  spec:
   containers:
   - name: web
     image: httpd
     ports:
     - containerPort: 8080
     readinessProbe:
       httpGet:
         scheme: HTTP
         path: /healthy
         port: 8080
     initiaDelaySeconds: 10
     periodSeconds: 5

---
apiVersion: v1
kind: Service
metadata:
 name: httpd2-svc
spec:
   selector:
    run: web
   ports:
     - protocol: TCP
       port: 8080
       targetPort: 80

(1)readinessProbe部分
我们使用了不同于exec的另一种探测方法httpGet。Kubernetes对于该方法探测成功的判断条件是http请求的返回代码在200~400之间。
(2)schema指定协议,支持HTTP(默认值)和HTTPS。
(3)path指定访问路径。
(4)port指定端口。
上面配置的作用是:

(1)容器启动10秒之后开始探测。
(2)如果http://[container_ip]:8080/healthy返回代码不是200~
400,表示容器没有就绪,不接收Service web-svc的请求。
(3)每隔5秒探测一次。
(4)直到返回代码为200~400,表明容器已经就绪,然后将其
加入到web-svc的负载均衡中,开始处理客户请求。
(5)探测会继续以5秒的间隔执行,如果连续发生3次失败,容
器又会从负载均衡中移除,直到下次探测成功重新加入

Health Check 在滚动更新中的应用

Health Check另一个重要的应用场景是Rolling Update。

试想一下,现有一个正常运行的多副本应用,接下来对应用进行更新(比如使用更高版本的image),Kubernetes会启动新副本,然后发生了如下事件:
(1)正常情况下新副本需要10秒钟完成准备工作,在此之前无法响应业务请求
(2)由于人为配置错误,副本始终无法完成准备工作(比如无法连接后端数据库)

如果没有配置Health Check,会出现怎样的情况?

因为新副本本身没有异常退出(程序没有异常退出）,默认的Health Check机制会认为容器已经就绪,进而会逐步用新副本替换现有副本,其结果就是:当所有旧副本都被替换后,整个应用将无法处理请求,无法对外提供服务。如果这是发生在重要的生产系统上,后果会非常严重
如果正确配置了Health Check,新副本只有通过了Readiness探测
才会被添加到Service;如果没有通过探测,现有副本不会被全部替
换,业务仍然正常进行

下面通过例子来实践Health Check在Rolling Update中的应用

使用如下配置文件app.v1.yml模拟一个10副本的应用

[k8s@server1 ~]$ cat app.v1.yml 
apiVersion: apps/v1
kind: Deployment
metadata:
 name: app
spec:
 replicas: 10
 selector:
  matchLabels:
   run: app
 template:
  metadata:
   labels:
    run: app
  spec:
   containers:
   - name: app
     image: busybox
     args:
     - /bin/sh
     - -c
     - sleep 10; touch /tmp/healthy; sleep 30000
     readinessProbe:
       exec:
         command:
         - cat
         - /tmp/healthy
       initialDelaySeconds: 10
       periodSeconds: 5

10秒后副本能够通过Readiness探测

[k8s@server1 ~]$ kubectl get deployment app 
NAME   READY   UP-TO-DATE   AVAILABLE   AGE
app    10/10   10           10          30s

接下来滚动更新应用,配置文件app.v2.yml

[k8s@server1 ~]$ cat app.v2.yml 
apiVersion: apps/v1
kind: Deployment
metadata:
 name: app
spec:
 replicas: 10
 selector:
  matchLabels:
   run: app
 template:
  metadata:
   labels:
    run: app
  spec:
   containers:
   - name: app
     image: busybox
     args:
     - /bin/sh
     - -c
     - sleep 3000
     readinessProbe:
       exec:
         command:
         - cat
         - /tmp/healthy
       initialDelaySeconds: 10
       periodSeconds: 5

很显然,由于新副本中不存在/tmp/healthy,因此是无法通过Readiness探测的

[k8s@server1 ~]$ kubectl apply -f app.v2.yml --record
deployment.apps/app configured
[k8s@server1 ~]$ kubectl get deployment app 
NAME   READY   UP-TO-DATE   AVAILABLE   AGE
app    8/10    5            8           55s
[k8s@server1 ~]$ kubectl get pod
NAME                   READY   STATUS        RESTARTS   AGE
app-5bb6568bb9-5g426   0/1     Running       0          17s
app-5bb6568bb9-75xc2   0/1     Running       0          17s
app-5bb6568bb9-v8lfw   0/1     Running       0          17s
app-5bb6568bb9-wlt74   0/1     Running       0          17s
app-5bb6568bb9-ww2nk   0/1     Running       0          17s
app-6d76c4459d-2pf7z   1/1     Running       0          68s
app-6d76c4459d-62dzv   1/1     Terminating   0          68s
app-6d76c4459d-cft7n   1/1     Running       0          68s
app-6d76c4459d-jxpnc   1/1     Running       0          68s
app-6d76c4459d-sz5mx   1/1     Running       0          68s
app-6d76c4459d-t2f6k   1/1     Running       0          68s
app-6d76c4459d-vl27p   1/1     Terminating   0          68s
app-6d76c4459d-vvn6p   1/1     Running       0          68s
app-6d76c4459d-wvm6b   1/1     Running       0          68s
app-6d76c4459d-xfz8d   1/1     Running       0          68s

先关注kubectl get pod输出:
(1)从Pod的AGE栏可判断,最后5个Pod是新副本,目前处于NOT READY状态
(2)旧副本从最初10个减少到8个

再来看kubectl get deployment app的输出
(1)DESIRED 10表示期望的状态是10个READY的副本
(2)UP-TO-DATE 5表示当前已经完成更新的副本数,即5个新副本
(3)AVAILABLE 8表示当前处于READY状态的副本数,即8个旧副本
(4)CURRENT 13表示当前副本的总数,即8个旧副本+5个新副本

在我们的设定中,新副本始终都无法通过Readiness探测,所以这个状态会一直保持下去

上面我们模拟了一个滚动更新失败的场景。不过幸运的是:
HealthCheck帮我们屏蔽了有缺陷的副本,同时保留了大部分旧副本,业务没有因更新失败受到影响

接下来我们要回答:为什么新创建的副本数是5个,同时只销毁了2个旧副本?
原因是:滚动更新通过参数maxSurge和maxUnavailable来控制副本替换的数量

maxSurge
此参数控制滚动更新过程中副本总数超过DESIRED的上限。
maxSurge可以是具体的整数(比如3),也可以是百分百,向上取
整。maxSurge默认值为25%。
在上面的例子中,DESIRED为10,那么副本总数的最大值为
roundUp(10 + 10 * 25%) =13,所以我们看到CURRENT就是13
maxUnavailable
此参数控制滚动更新过程中,不可用的副本相占DESIRED的最
大比例。maxUnavailable可以是具体的整数(比如3),也可以是百分
百,向下取整。maxUnavailable默认值为25%。
在上面的例子中,DESIRED为10,那么可用的副本数至少要为
10 - roundDown(10 * 25%)= 8,所以我们看到AVAILABLE是8

maxSurge值越大,初始创建的新副本数量就越多;
maxUnavailable值越大,初始销毁的旧副本数量就越多

理想情况下,我们这个案例滚动更新的过程应该是这样的:

(1)创建3个新副本使副本总数达到13个。
(2)销毁2个旧副本使可用的副本数降到8个
(3)当2个旧副本成功销毁后,再创建2个新副本,使副本总数
保持为13个。
(4)当新副本通过Readiness探测后,会使可用副本数
增加,超过8
(5)进而可以继续销毁更多的旧副本,使可用副本数回到8
(6)旧副本的销毁使副本总数低于13,这样就允许创建更多的
新副本
(7)这个过程会持续进行,最终所有的旧副本都会被新副本替
换,滚动更新完成

而我们的实际情况是在第4步就卡住了,新副本无法通过Readiness探测。

这个过程可以在kubectl describe deployment app的日志部分查看

Events:
  Type    Reason             Age    From                   Message
  ----    ------             ----   ----                   -------
  Normal  ScalingReplicaSet  10m    deployment-controller  Scaled up replica set app-6d76c4459d to 10
  Normal  ScalingReplicaSet  9m56s  deployment-controller  Scaled up replica set app-5bb6568bb9 to 3
  Normal  ScalingReplicaSet  9m56s  deployment-controller  Scaled down replica set app-6d76c4459d to 8
  Normal  ScalingReplicaSet  9m56s  deployment-controller  Scaled up replica set app-5bb6568bb9 to 5

如果滚动更新失败,可以通过kubectl rollout undo回滚到上一个版本

[k8s@server1 ~]$ kubectl rollout history deployment app 
deployment.apps/app 
REVISION  CHANGE-CAUSE
1         kubectl apply --filename=app.v1.yml --record=true
2         kubectl apply --filename=app.v2.yml --record=true

[k8s@server1 ~]$ kubectl rollout undo deployment app --to-revision=1
deployment.apps/app rolled back


[k8s@server1 ~]$ kubectl get deployment app 
NAME   READY   UP-TO-DATE   AVAILABLE   AGE
app    10/10   10           10          12m

如果要定制maxSurge和maxUnavailable

[k8s@server1 ~]$ cat app.v2.yml 
apiVersion: apps/v1
kind: Deployment
metadata:
 name: app
spec:
 strategy:
   rollingUpdate:
     maxSurge: 35%
     maxUnavailable: 35%
 replicas: 10
 selector:
  matchLabels:
   run: app
 template:
  metadata:
   labels:
    run: app
  spec:
   containers:
   - name: app
     image: busybox
     args:
     - /bin/sh
     - -c
     - sleep 3000
     readinessProbe:
       exec:
         command:
         - cat
         - /tmp/healthy
       initialDelaySeconds: 10
       periodSeconds: 5

小结:我们讨论了Kubernetes健康检查的两种机制:Liveness探测和Readiness探测,并实践了健康检查在Scale Up和Rolling Update场景中的应用

k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
EMQX 社区版单机和集群部署 pcj_888 MQTT MQTT EMQ
EMQ支持Docker，宿主机，k8s部署；支持单机或集群部署。以下给出EMQX社区版单机和集群部署方法1.Docker单机部署官方推荐最小配置：2核4G下载容器镜像dockerpullemqx/emqx:5.3.2启动容器dockerrun-d--nameemqx\-p1883:1883\-p8083:8083\-p8883:8883\-p8084:8084\-p18083:18083\emqx
【运维实战】解决 K8s 节点无法拉取 pause:3.6 镜像导致 API Server 启动失败的问题 gs80140 各种问题运维 kubernetes 容器
目录【运维实战】解决K8s节点无法拉取pause:3.6镜像导致APIServer启动失败的问题问题分析✅解决方案：替代拉取方式导入pause镜像Step1.从私有仓库拉取pause镜像Step2.重新打tag为Kubernetes默认命名Step3.导出镜像为tar包Step4.拷贝镜像到目标节点Step5.在目标节点导入镜像到containerd的k8s.io命名空间Step6.验证镜像是否导
远程登录docker执行shell报错input is not a terminal问题
背景最近要远程去k8sdocker里面获取信息，于是，写了一个如下的命令，执行完之后，报错了。ssh192.168.100.2sudocrictlexec-itxxx.docker/usr/bin/lscpu--online--extended错误信息如下：time=“2025-07-11T21:00:39+08:00”level=fatalmsg=“execingcommandincontain
在 openEuler 24.03 LTS-SP1 安装 KubeSphere + K8s 集群时 kubelet 默认连接 127.0.0.1 问题分析与解决 gs80140 各种问题 kubernetes kubelet 容器
目录在openEuler24.03LTS-SP1安装KubeSphere+K8s集群时kubelet默认连接127.0.0.1问题分析与解决❗问题现象问题根因分析✅解决方案方案一：修改每个节点的kubelet配置（推荐）方案二：预防性修改安装模板（集群安装前）总结在openEuler24.03LTS-SP1安装KubeSphere+K8s集群时kubelet默认连接127.0.0.1问题分析与解决
K8s 1.24在node节点上手动部署etcd 喝醉酒的小白 K8s kubernetes etcd 容器
目录标题第一次操作一、生成证书并拷贝到新增节点~~~~方案1~~缺少了SAN（SubjectAlternativeNames）~~方案2关键改进：使用说明：二、在已有节点（181）上添加etcd集群成员三、在180上部署静态Pod四、更新旧节点（181）的静态Pod配置-可选五、验证集群状态第一次操作下面给出在节点 172.30.30.180（下简称“180”）上新增etcd成员的完整操作步骤。假
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
20250707-3-Kubernetes 核心概念-有了Docker，为什么还用K8s_笔记 Andy杨 CKA-专栏 kubernetes docker 笔记
一、Kubernetes核心概念1.有了Docker，为什么还用Kubernetes1）企业需求独立性问题：Docker容器本质上是独立存在的，多个容器跨主机提供服务时缺乏统一管理机制负载均衡需求：为提高业务并发和高可用，企业会使用多台服务器部署多个容器实例，但Docker本身不具备负载均衡能力管理复杂度：随着Docker主机和容器数量增加，面临部署、升级、监控等统一管理难题运维效率：单机升
20250707-4-Kubernetes 集群部署、配置和验证-K8s基本资源概念初_笔记
一、kubeconfig配置文件文件作用:kubectl使用kubeconfig认证文件连接K8s集群生成方式:使用kubectlconfig指令生成核心字段:clusters:定义集群信息，包括证书和服务端地址contexts:定义上下文，关联集群和用户users:定义客户端认证信息current-context:指定当前使用的上下文二、Kubernetes弃用Docker1.弃用背景原因:
k8s之configmap 西京刀客云原生(Cloud Native)云计算虚拟化 #Kubernetes(k8s)kubernetes 容器云原生
文章目录k8s之configmap什么是ConfigMap？为什么需要ConfigMap？ConfigMap的创建方式ConfigMap的使用方式实际应用场景ConfigMap最佳实践参考k8s之configmap什么是ConfigMap？ConfigMap是Kubernetes中用于存储非机密配置数据的API对象。它允许你将配置信息与容器镜像解耦，使应用程序更加灵活和可移植。ConfigMap以
Maven 构建性能优化深度剖析：原理、策略与实践越重天 Java Maven实战 maven 性能优化 java
博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
FasterRCNN源码解析（一）-——跑通代码_霹雳巴拉wz的代码看不懂 2401_84140023 2024年程序员学习运维 linux 面试
为了做好运维面试路上的助攻手，特整理了上百道【运维技术栈面试题集锦】，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，小到shell、MySQL，大到K8s等云原生技术栈，不仅适合运维新人入行面试需要，还适用于想提升进阶跳槽加薪的运维朋友。本份面试集锦涵盖了174道运维工程师面试题128道k8s面试题108道shell脚本面试题200道Linux面试题51道docker面试题35道Je
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
43.商城系统（二十四）：kubernate基础架构，集群搭建鹏哥哥啊Aaaa 从头开始做项目 kubernetes 容器
目录一、为什么要用k8s1.不同时代的部署2.k8s的特点二、k8s的基本架构1.整体架构2.主节点架构3.node节点4.整体流程三、K8S集群搭建1.先克隆三个虚拟机2.设置NAT网络3.配置虚拟机前置环境4.安装Docker、kubeadm、kubelet、kubectl（1）安装docker（2）添加阿里云yum源（3）安装kubeadm，kubelet和kubectl5.部署k8s-ma
# 深度解析:k8s技术架构从入门到精通
从零开始，带你玩转Kubernetes！不再是"听说很牛逼，但不知道怎么用"的状态文章目录初识K8s：不只是一个"容器编排工具"K8s核心架构：Master和Node的"君臣关系"ControlPlane：大脑中枢的精密运作WorkerNode：真正干活的"打工人"Pod：K8s世界的最小单位Service：让应用"找得到彼此"实战场景：从单体到微服务的华丽转身进阶之路：从入门到精通的修炼指南总结
3-2-1、k8s学习-k8s介绍向新35° 一 be a K8s God kubernetes 学习容器
1、Kubernetes（K8s）详细介绍一、Kubernetes概述Kubernetes是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。其名称源于希腊语，意为“舵手”或“飞行员”，象征着对容器化应用的精准控制。核心目标：简化微服务架构下的应用部署与管理，解决容器化应用的服务发现、负载均衡、自动扩缩容、故障恢复等问题。起源：由Google开发（基于内部Borg系统），2014年
K8S数据流核心底层逻辑剖析
一、背景之前也在学习使用K8S，但是仅仅停留在Pod控制器的部署使用、Service、Ingress、Pod等等层面，底层的数据流逻辑没去细究。最近花了点时间去详细剖析了一下，和大家做个分享。我查询过很多资料，B站、CSDN各种资料，我发现几乎没人能把底层的逻辑讲清楚，或者说K8S的整个数据流架构思想讲清楚。真的这个思想不复杂，但是确实没人讲得很透一方面可能入门门槛较高，大家觉得会用都已经很不错了
【ubuntu24.04】k8s 部署6：calico容器正常启动等风来不如迎风去网络服务入门与实战 kubernetes 容器云原生
参考大神以及tigera官方的calico教程：拥有一个带有Calico的单主机Kubernetes集群后，【k8s】配置calico1：镜像拉取【k8s】master节点重新安装docker-ce本文进一步解决容器启动问题：非常感谢大神的指点：准备Kubernetes集群环境做好了各种配置以后，kube**的镜像起始
云原生周刊：Istio 1.24.0 正式发布
云原生周刊：Istio1.24.0正式发布开源项目推荐KopfKopf是一个简洁高效的Python框架，只需几行代码即可编写KubernetesOperator。Kubernetes（K8s）作为强大的容器编排系统，虽自带命令行工具（kubectl），但在应对复杂操作时往往力不从心。通过Kopf，您可以使用Python轻松实现Kubernetes的复杂操作，包括条件判断、事件触发等，让自定义操作变
Kubernetes 配置管理伤不起bb kubernetes 容器云原生
目录前言：为什么需要K8s配置管理？一、为什么需要ConfigMap和Secret？二、ConfigMap：非敏感配置的管理工具1.什么是ConfigMap？2.实战：创建ConfigMap的4种方式①基于目录创建（多文件批量导入）②基于单个文件创建（指定key名）③基于ENV文件创建（key=value格式）④基于命令行键值对创建（少量配置）3.实战：在Pod中使用ConfigMap①作为环境变
k8s深度讲解----宏观架构与集群之脑 - API Server 和 etcd weixin_42587823 云原生 kubernetes 架构 etcd
宏观架构与集群之脑-APIServer和etcd宏观架构：数据中心的操作系统在开始之前，让我们先建立一个高层视角。你可以将Kubernetes想象成一个管理整个数据中心的分布式操作系统。在这个操作系统中：控制平面(ControlPlane)就是它的“内核”，负责管理和决策。工作节点(WorkerNodes)就是它的“CPU和内存”，是真正运行应用程序的地方。我们常用的kubectl就是与这个“内核
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
CKA认证 | 使用kubeadm部署K8s集群（v1.26）小安运维日记 Kubernetes CKA 认证培训 kubernetes 容器云原生运维 k8s docker
一、前置知识点1.1生产环境可部署Kubernetes集群的两种方式目前生产部署Kubernetes集群主要有两种方式：①kubeadmKubeadm是一个K8s部署工具，提供kubeadminit和kubeadmjoin，用于快速部署Kubernetes集群。②二进制包从github下载发行版的二进制包，手动部署每个组件，组成Kubernetes集群。这里采用kubeadm搭建集群kubeadm
serviceMesh 学习一切顺势而行 service_mesh 学习 java
根据您已掌握的Docker、Kubernetes及灰度发布等技能，以下是ServiceMesh需要重点掌握的知识体系，分为核心概念、关键技术、实践场景和进阶能力四部分，助您系统化掌握服务网格：一、ServiceMesh核心概念概念说明与K8s的关联数据平面Sidecar代理（如Envoy），拦截服务间流量通过sidecar-injector自动注入到Pod中控制平面管理Sidecar的组件（如Is
八、提升服务高可用性退役小学生呀 K8s企业级深度研修 kubernetes 容器云原生 k8s linux
八、提升服务高可用性文章目录八、提升服务高可用性1、什么是亲和力Affinity2、认识拓扑域和拓扑键3、拓扑域划分4、K8s亲和力实战4.1同一个应用必须部署在不同的宿主机4.2同一个应用尽量部署在不同的宿主机4.3同一个应用分布在不同的机房4.4应用尽量和缓存服务部署在同一个可用域4.5计算服务必须部署至高性能机器4.6计算服务尽量部署至高性能机器4.7应用尽量不部署至低性能机器4.8应用均匀
k8sv1.30安装教程基于docker Esther-Java kubernetes docker 容器运维云原生
一.环境准备基于Ubuntu22.04.5安装每台机器分配4C+8G这里全程使用root用户来操作,可以根据自己的情况使用不同的用户主机名IPkm192.168.31.101kn1192.168.31.102kn2192.168.31.103修改hosts文件vim/etc/hosts192.168.31.101km192.168.31.102kn1192.168.31.103kn2关闭交换分区s
十、K8s集群资源合理化分配退役小学生呀 K8s企业级深度研修 kubernetes 容器云原生 k8s linux
十、K8s集群资源合理化分配文章目录十、K8s集群资源合理化分配1、K8s资源限制ResourceQuota1.1什么是ResourceQuota？1.2ResourceQuota通常用于如下场景：1.3基于租户和团队的资源限制1.4基于命名空间的资源限制2、K8s资源限制LimitRange2.1设置容器默认的资源配置2.2限制容器可以使用的最大和最小资源2.3限制存储使用的大小范围3、K8s资
二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件 Nova_CaoFc 容器云技术专栏 kubernetes 容器云原生
一、前言在云原生技术席卷全球的今天，Kubernetes（K8s）已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时，选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层，直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节，以及各
k8s多集群管理中的联邦和舰队如何理解？ Connie1451 kubernetes 容器云原生
在Kubernetes多集群管理中，联邦（Federation）和舰队（Fleet）是两种不同的方法，用于管理和协调多个Kubernetes集群。下面是对这两种方法的详细解释：联邦（Federation）Kubernetes联邦是一种多集群管理技术，它允许用户通过一个统一的控制平面来管理和调度多个Kubernetes集群中的资源。联邦的主要目标是提供跨多个集群的资源管理和负载均衡。主要特点：统一管
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa