运维个西瓜

k8s技术预研3--使用kubeadm安装、配置Kubernetes集群以及进行故障排查的方法

一、软硬件环境

采用CentOS7.4 minimual，docker 1.12，kubeadm 1.7.5，etcd 3.0， k8s 1.7.6

本章节以下配置内容需要在全部节点上都做配置。我们这里仅选用两个节点搭建一个实验环境。

设置主机节点的主机名，在/etc/hosts中配置好映射关系：

0.2.15   gqtest1.future 
   
0.2.4    gqtest2.future

配置系统防火墙策略，使以上两个主机在同网段间的通信不受限制：

firewall-cmd --permanent --zone=public --add-rich-rule="rule family="ipv4" source address="10.0.2 .0/24" accept"

firewall-cmd --reload

firewall-cmd --list-all

注：对于实验环境，不妨直接永久关停firewalld。

关闭selinux。

配置系统内核参数使流过网桥的流量也进入iptables/netfilter框架中，在/etc/sysctl.conf中添加以下配置：

net.bridge.bridge-nf-call-iptables = 1

net.bridge.bridge-nf-call-ip6tables = 1

sysctl -p

注：如果上面执行sysctl -p时报错，可以先执行一下modprobe br_netfilter，然后再重新执行sysctl -p

二、使用kubeadm工具快速安装Kubernetes集群

Kubeadm到目前为止还是用于初学者快速安装和学习k8s使用，不适合用在生产环境中。

1、安装kubeadm和相关工具

本小节的配置内容需要在所有节点上进行配置。

添加k8s yum 阿里源

cat < /etc/yum.repos.d/kubernetes.repo

[kubernetes]

name=Kubernetes

baseurl= https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64

enabled=1

gpgcheck=0

EOF

yum -y install epel-release

yum clean all

yum makecache

安装kubeadm和相关工具包：

# yum -y install docker kubelet kubeadm kubectl kubernetes-cni

启动Docker与kubelet服务：

systemctl enable docker && systemctl start docker

systemctl enable kubelet && systemctl start kubelet

注：此时kubelet的服务运行状态是异常的，因为缺少主配置文件kubelet.conf。但可以暂不处理，因为在完成Master节点的初始化后才会生成这个配置文件。

2、下载Kubernetes的相关镜像

本小节的配置内容需要在所有节点上进行配置。

（1）因为无法直接访问gcr.io下载镜像，所以需要配置一个国内的容器镜像加速器

配置一个阿里云的加速器：

登录 https://cr.console.aliyun.com/
在页面中找到并点击镜像加速按钮，即可看到属于自己的专属加速链接，选择centos版本后即可看到类似上面的配置方法提示信息

在系统中执行以下命令（mirror的地址需要更新）：

tee /etc/docker/daemon.json <<-'EOF'

{

"registry-mirrors": ["https://jzv3xt7h.mirror.aliyuncs.com"]

}

EOF

重启docker服务：

systemctl daemon-reload

systemctl restart docker

（2）下载k8s相关镜像，下载后将镜像名改为gcr.io/google_container开头的名字，以供kubeadm使用。

下面的shell脚本主要做了3件事，下载各种需要用到的容器镜像、重新打标记为符合google命令规范的版本名称、清除旧的容器镜像：

[root@gqtest1 ~]# more get-images.sh

#!/bin/bash

images=(kube-proxy-amd64:v1.7.6 kube-scheduler-amd64:v1.7.6 kube-controller-manager-amd64:v1.7.6 kube-apiserver-amd64:v1.7.6 etcd-amd64:3.0.17 pause-amd64:3.0 kubernetes-

dashboard-amd64:v1.6.1 k8s-dns-sidecar-amd64:1.14.4 k8s-dns-kube-dns-amd64:1.14.4 k8s-dns-dnsmasq-nanny-amd64:1.14.4)

for imageName in ${images[@]} ; do

docker pull cloudnil/$imageName

docker tag cloudnil/$imageName gcr.io/google_containers/$imageName

docker rmi cloudnil/$imageName

done

执行上述shell脚本，等待下载完成后，查看一下下载容器镜像的结果：

[root@gqtest1 ~]# docker images

REPOSITORY TAG IMAGE ID CREATED SIZE

gcr.io/google_containers/kube-apiserver-amd64 v1.7.6 fd35bbc17508 5 months ago 186.1 MB

gcr.io/google_containers/kube-scheduler-amd64 v1.7.6 15c1d3eed0e7 5 months ago 77.2 MB

gcr.io/google_containers/kube-controller-manager-amd64 v1.7.6 41cbd335ed40 5 months ago 138 MB

gcr.io/google_containers/kube-proxy-amd64 v1.7.6 fbb7fbc5b300 5 months ago 114.7 MB

gcr.io/google_containers/k8s-dns-kube-dns-amd64 1.14.4 2d6a3bea02c4 7 months ago 49.38 MB

gcr.io/google_containers/k8s-dns-dnsmasq-nanny-amd64 1.14.4 13117b1d461f 7 months ago 41.41 MB

gcr.io/google_containers/k8s-dns-sidecar-amd64 1.14.4 c413c7235eb4 7 months ago 41.81 MB

gcr.io/google_containers/etcd-amd64 3.0.17 393e48d05c4e 7 months ago 168.9 MB

gcr.io/google_containers/kubernetes-dashboard-amd64 v1.6.1 c14ffb751676 7 months ago 134.4 MB

gcr.io/google_containers/pause-amd64 3.0 66c684b679d2 7 months ago 746.9 kB

3、运行kubeadm init安装Master

[root@gqtest1 ~]# kubeadm init --kubernetes-version=v1.7.6

[kubeadm] WARNING: kubeadm is in beta, please do not use it for production clusters.

[init] Using Kubernetes version: v1.7.6

[init] Using Authorization modes: [Node RBAC]

[preflight] Running pre-flight checks

[kubeadm] WARNING: starting in 1.8, tokens expire after 24 hours by default (if you require a non-expiring token use --token-ttl 0)

[certificates] Generated CA certificate and key.

[certificates] Generated API server certificate and key.

[certificates] API Server serving cert is signed for DNS names [gqtest1.future kubernetes kubernetes.default kubernetes.default.svc kubernetes.default.svc.cluster.local] and IPs [10.96.0.1 10.0.2.15]

[certificates] Generated API server kubelet client certificate and key.

[certificates] Generated service account token signing key and public key.

[certificates] Generated front-proxy CA certificate and key.

[certificates] Generated front-proxy client certificate and key.

[certificates] Valid certificates and keys now exist in "/etc/kubernetes/pki"

[kubeconfig] Wrote KubeConfig file to disk: "/etc/kubernetes/admin.conf"

[kubeconfig] Wrote KubeConfig file to disk: "/etc/kubernetes/kubelet.conf"

[kubeconfig] Wrote KubeConfig file to disk: "/etc/kubernetes/controller-manager.conf"

[kubeconfig] Wrote KubeConfig file to disk: "/etc/kubernetes/scheduler.conf"

[apiclient] Created API client, waiting for the control plane to become ready

[apiclient] All control plane components are healthy after 37.006294 seconds

[token] Using token: 320116.d14b1964f47178bc

[apiconfig] Created RBAC rules

[addons] Applied essential addon: kube-proxy

[addons] Applied essential addon: kube-dns

Your Kubernetes master has initialized successfully!

To start using your cluster, you need to run (as a regular user):

mkdir -p $HOME/.kube

sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

sudo chown $(id -u):$(id -g) $HOME/.kube/config

You should now deploy a pod network to the cluster.

Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:

http://kubernetes.io/docs/admin/addons/

You can now join any number of machines by running the following on each node

as root:

kubeadm join --token 320116.d14b1964f47178bc 10.0.2.15:6443

注：选项--kubernetes-version=v1.7.6是必须的，否则会因为访问google网站被墙而无法执行命令。这里使用v1.7.6版本，与上面下载的相关容器镜像的版本有关。

上面的命令大约需要1分钟的过程，期间可以观察下tail -f /var/log/message日志文件的输出，掌握该配置过程和进度。

上面的输出信息建议保存一份，后续添加工作节点还要用到。

Kubernetes Master初始化成功后，按提示执行以下操作：

[root@gqtest1 ~]# mkdir -p $HOME/.kube

[root@gqtest1 ~]# cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

[root@gqtest1 ~]# chown $(id -u):$(id -g) $HOME/.kube/config

[root@gqtest1 ~]# kubectl get nodes

NAME STATUS AGE VERSION

gqtest1.future NotReady 32m v1.7.5

[root@gqtest1 ~]# kubectl get pods --all-namespaces

NAMESPACE NAME READY STATUS RESTARTS AGE

kube-system etcd-gqtest1.future 1/1 Running 0 32m

kube-system kube-apiserver-gqtest1.future 1/1 Running 0 32m

kube-system kube-controller-manager-gqtest1.future 1/1 Running 0 32m

kube-system kube-dns-2425271678-gps35 0/3 Pending 0 33m

kube-system kube-proxy-6m2z7 1/1 Running 0 33m

kube-system kube-scheduler-gqtest1.future 1/1 Running 0 32m

[root@gqtest1 ~]# kubectl get nodes

NAME STATUS AGE VERSION

gqtest1.future NotReady 32m v1.7.5

至此完成了Master节点上k8s软件的安装，但集群内还没有可用的工作Node，也缺少容器网络的配置。

查看pods状态信息，可以看到还有一个dns的pod处于Pending状态，这是受缺少容器网络支持的影响而造成的。

查看nodes状态信息，看到gqtest1节点的状态为NotReady 。

4、安装网络插件

再详细看一下Master节点初始化时输出的提示信息，包括了网络插件的安装建议：

You should now deploy a pod network to the cluster.

Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:

http://kubernetes.io/docs/admin/addons/

这里是选择安装weave插件，在Master节点上执行：

     [root@gqtest1 ~]# kubectl apply -f "https://cloud.weave.works/k8s/net?k8s-version=$(kubectl version | base64 | tr -d '\n')" 
   
     serviceaccount "weave-net" created 
   
     clusterrole "weave-net" created 
   
     clusterrolebinding "weave-net" created 
   
     role "weave-net" created 
   
     rolebinding "weave-net" created 
   
     daemonset "weave-net" created

Weave以透明而可靠的方式实现了简单、安全的网络。关于k8s网络插件的介绍详见本文末尾。

等待一会，再观察pods的运行状态，可以看到已经全部处于正常状态了：

     [root@gqtest1 ~]# kubectl get pods --all-namespaces 
   
     NAMESPACE     NAME                                     READY     STATUS    RESTARTS   AGE 
   
     kube-system   etcd-gqtest1.future                      1/1       Running   0          34m 
   
     kube-system   kube-apiserver-gqtest1.future            1/1       Running   0          34m 
   
     kube-system   kube-controller-manager-gqtest1.future   1/1       Running   0          34m 
   
     kube-system   kube-dns-2425271678-gps35                3/3       Running   0          35m 
   
     kube-system   kube-proxy-6m2z7                         1/1       Running   0          35m 
   
     kube-system   kube-scheduler-gqtest1.future            1/1       Running   0          34m 
   
     kube-system   weave-net-hd7k2                          2/2       Running   0          1m

安装一个weave网络管理工具：

     [root@gqtest1 ~]# curl -L git.io/weave -o /usr/local/bin/weave 
   
       % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current 
   
                                      Dload  Upload   Total   Spent    Left  Speed 
   
       0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0 
   
       0     0    0     0    0     0      0      0 --:--:--  0:00:02 --:--:--     0 
   
       0     0    0   595    0     0     93      0 --:--:--  0:00:06 --:--:--   220 
   
     100 50382  100 50382    0     0   5268      0  0:00:09  0:00:09 --:--:-- 17671 
   
     [root@gqtest1 ~]# chmod a+x /usr/local/bin/weave

查看weave网络服务运行状态信息：

     [root@gqtest1 ~]# weave status 
   
             Version: 2.2.0 (failed to check latest version - see logs; next check at 2018/02/23 16:26:07) 
   
             Service: router 
   
            Protocol: weave 1..2 
   
                Name: ea:0f:53:f9:2f:f0(gqtest1.future) 
   
          Encryption: disabled 
   
       PeerDiscovery: enabled 
   
             Targets: 1 
   
         Connections: 1 (1 failed) 
   
               Peers: 1 
   
      TrustedSubnets: none 
   
             Service: ipam 
   
              Status: ready 
   
               Range: 10.32.0.0/12 
   
       DefaultSubnet: 10.32.0.0/12

5、安装Node并加入集群

在工作节点上执行kubeadm join命令，加入集群：

[root@gqtest2 ~]# kubeadm join --token 320116.d14b1964f47178bc 10.0.2.15:6443

[kubeadm] WARNING: kubeadm is in beta, please do not use it for production clusters.

[preflight] Running pre-flight checks

[discovery] Trying to connect to API Server "10.0.2.15:6443"

[discovery] Created cluster-info discovery client, requesting info from "https://10.0.2.15:6443"

[discovery] Cluster info signature and contents are valid, will use API Server "https://10.0.2.15:6443"

[discovery] Successfully established connection with API Server "10.0.2.15:6443"

[bootstrap] Detected server version: v1.7.6

[bootstrap] The server supports the Certificates API (certificates.k8s.io/v1beta1)

[csr] Created API client to obtain unique certificate for this node, generating keys and certificate signing request

[csr] Received signed certificate from the API server, generating KubeConfig...

[kubeconfig] Wrote KubeConfig file to disk: "/etc/kubernetes/kubelet.conf"

Node join complete:

* Certificate signing request sent to master and response

received.

* Kubelet informed of new secure connection details.

Run 'kubectl get nodes' on the master to see this machine join.

默认情况下，Master节点不参与工作负载，但如果希望安装出一个All-In-One的k8s环境，则可以执行以下命令，让Master节点也成为一个Node节点：

# kubectl taint nodes --all node-role.kubernetes.io/master-

注：相当于是删除Node的Label"node-role.kubernetes.io/master"

6、验证k8s集群是否成功安装完成

再观察扩容了一个工作节点后的完整集群的pods运行状态信息：

     [root@gqtest1 ~]# kubectl get pods --all-namespaces 
   
     NAMESPACE     NAME                                     READY     STATUS    RESTARTS   AGE 
   
     kube-system   etcd-gqtest1.future                      1/1       Running   1          1h 
   
     kube-system   kube-apiserver-gqtest1.future            1/1       Running   1          1h 
   
     kube-system   kube-controller-manager-gqtest1.future   1/1       Running   1          1h 
   
     kube-system   kube-dns-2425271678-gps35                3/3       Running   3          1h 
   
     kube-system   kube-proxy-0pc5d                         1/1       Running   0          43m 
   
     kube-system   kube-proxy-6m2z7                         1/1       Running   1          1h 
   
     kube-system   kube-scheduler-gqtest1.future            1/1       Running   1          1h 
   
     kube-system   weave-net-3fh66                          2/2       Running   0          43m 
   
     kube-system   weave-net-hd7k2                          2/2       Running   3          1h

查看nodes信息：

     [root@gqtest1 ~]# kubectl get nodes 
   
     NAME             STATUS    AGE       VERSION 
   
     gqtest1.future   Ready     1h        v1.7.5 
   
     gqtest2.future   Ready     43m       v1.7.5

查看k8s集群状态信息：

     [root@gqtest1 ~]# kubectl get cs 
   
     NAME                 STATUS    MESSAGE              ERROR 
   
     scheduler            Healthy   ok 
   
     controller-manager   Healthy   ok 
   
     etcd-0               Healthy   {"health": "true"}

查看k8s集群中的Services状态信息：

     [root@gqtest1 ~]# kubectl get svc kubernetes 
   
     NAME         CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE 
   
     kubernetes   10.96.0.1            443/TCP   2h 
   
     [root@gqtest1 ~]# kubectl get svc -n kube-system 
   
     NAME       CLUSTER-IP   EXTERNAL-IP   PORT(S)         AGE 
   
     kube-dns   10.96.0.10           53/UDP,53/TCP   2h

或者直接查看全部Services的完整信息：

     [root@gqtest1 ~]# kubectl get svc --all-namespaces -o wide 
   
     NAMESPACE     NAME         CLUSTER-IP   EXTERNAL-IP   PORT(S)         AGE       SELECTOR 
   
     default       kubernetes   10.96.0.1            443/TCP         2h         
   
     kube-system   kube-dns     10.96.0.10           53/UDP,53/TCP   2h        k8s-app=kube-dns

三、k8s部署的故障排错与调试方法

（1）先掌握有哪些命名空间，有哪些pods，确认每个pod的运行状态

     [root@gqtest1 ~]# kubectl get pods --all-namespaces 
   
     NAMESPACE     NAME                                     READY     STATUS    RESTARTS   AGE 
   
     kube-system   etcd-gqtest1.future                      1/1       Running   1          2h 
   
     kube-system   kube-apiserver-gqtest1.future            1/1       Running   1          2h 
   
     kube-system   kube-controller-manager-gqtest1.future   1/1       Running   1          2h 
   
     kube-system   kube-dns-2425271678-gps35                3/3       Running   3          2h 
   
     kube-system   kube-proxy-0pc5d                         1/1       Running   0          54m 
   
     kube-system   kube-proxy-6m2z7                         1/1       Running   1          2h 
   
     kube-system   kube-scheduler-gqtest1.future            1/1       Running   1          2h 
   
     kube-system   weave-net-3fh66                          2/2       Running   0          54m 
   
     kube-system   weave-net-hd7k2                          2/2       Running   3          1h

（2）查看一个指定的pod的详细配置信息

     [root@gqtest1 ~]# kubectl --namespace=kube-system describe pod kube-dns-2425271678-gps35 
   
     Name:        kube-dns-2425271678-gps35 
   
     Namespace:    kube-system 
   
     Node:        gqtest1.future/10.0.2.15 
   
     Start Time:    Fri, 23 Feb 2018 18:27:04 +0800 
   
     Labels:        k8s-app=kube-dns 
   
             pod-template-hash=2425271678 
   
     Annotations:    kubernetes.io/created-by={"kind":"SerializedReference","apiVersion":"v1","reference":{"kind":"ReplicaSet","namespace":"kube-system","name":"kube-dns-2425271678","uid":"386100c7-187f-11e8-9a79-08002770... 
   
             scheduler.alpha.kubernetes.io/critical-pod= 
   
     Status:        Running 
   
     IP:        10.32.0.2 
   
     Created By:    ReplicaSet/kube-dns-2425271678 
   
     Controlled By:    ReplicaSet/kube-dns-2425271678 
   
     Containers: 
   
       kubedns: 
   
         Container ID:    docker://53ba0a56e18ea8130c414f42983d89100e80646b3ee20557bb47e58079a97745 
   
         Image:        gcr.io/google_containers/k8s-dns-kube-dns-amd64:1.14.4 
   
         Image ID:        docker://sha256:2d6a3bea02c4f469c117aaae0ac51668585024a2c9e174403076cc1c5f79860e 
   
         Ports:        10053/UDP, 10053/TCP, 10055/TCP 
   
         Args: 
   
           --domain=cluster.local. 
   
           --dns-port=10053 
   
           --config-dir=/kube-dns-config 
   
           --v=2 
   
         State:        Running 
   
           Started:        Fri, 23 Feb 2018 18:49:12 +0800 
   
         Last State:        Terminated 
   
           Reason:        Error 
   
           Exit Code:    137 
   
           Started:        Fri, 23 Feb 2018 18:27:05 +0800 
   
           Finished:        Fri, 23 Feb 2018 18:43:35 +0800 
   
         Ready:        True 
   
         Restart Count:    1 
   
         Limits: 
   
           memory:    170Mi 
   
         Requests: 
   
           cpu:    100m 
   
           memory:    70Mi 
   
         Liveness:    http-get http://:10054/healthcheck/kubedns delay=60s timeout=5s period=10s #success=1 #failure=5 
   
         Readiness:    http-get http://:8081/readiness delay=3s timeout=5s period=10s #success=1 #failure=3 
   
         Environment: 
   
           PROMETHEUS_PORT:    10055 
   
         Mounts: 
   
           /kube-dns-config from kube-dns-config (rw) 
   
           /var/run/secrets/kubernetes.io/serviceaccount from kube-dns-token-trvkm (ro) 
   
       dnsmasq: 
   
         Container ID:    docker://8baceefac0a5475d932aa77cc2bd2350a28a046ea2a27313cbac42303d96817d 
   
         Image:        gcr.io/google_containers/k8s-dns-dnsmasq-nanny-amd64:1.14.4 
   
         Image ID:        docker://sha256:13117b1d461f84c5ff47adeaff5b016922e1baab83f47de3320cf4a6f3c4e911 
   
         Ports:        53/UDP, 53/TCP 
   
         Args: 
   
           -v=2 
   
           -logtostderr 
   
           -configDir=/etc/k8s/dns/dnsmasq-nanny 
   
           -restartDnsmasq=true 
   
           -- 
   
           -k 
   
           --cache-size=1000 
   
           --log-facility=- 
   
           --server=/cluster.local/127.0.0.1#10053 
   
           --server=/in-addr.arpa/127.0.0.1#10053 
   
           --server=/ip6.arpa/127.0.0.1#10053 
   
         State:        Running 
   
           Started:        Fri, 23 Feb 2018 18:49:13 +0800 
   
         Last State:        Terminated 
   
           Reason:        Error 
   
           Exit Code:    137 
   
           Started:        Fri, 23 Feb 2018 18:27:06 +0800 
   
           Finished:        Fri, 23 Feb 2018 18:43:35 +0800 
   
         Ready:        True 
   
         Restart Count:    1 
   
         Requests: 
   
           cpu:        150m 
   
           memory:        20Mi 
   
         Liveness:        http-get http://:10054/healthcheck/dnsmasq delay=60s timeout=5s period=10s #success=1 #failure=5 
   
         Environment:     
   
         Mounts: 
   
           /etc/k8s/dns/dnsmasq-nanny from kube-dns-config (rw) 
   
           /var/run/secrets/kubernetes.io/serviceaccount from kube-dns-token-trvkm (ro) 
   
       sidecar: 
   
         Container ID:    docker://5284f8602b574560a673e55d5c57ed094344016067c1531c3c803267c6a36b2b 
   
         Image:        gcr.io/google_containers/k8s-dns-sidecar-amd64:1.14.4 
   
         Image ID:        docker://sha256:c413c7235eb4ba8165ec953c0e886e22bd94f72dd360de7ab42ce340fda6550e 
   
         Port:        10054/TCP 
   
         Args: 
   
           --v=2 
   
           --logtostderr 
   
           --probe=kubedns,127.0.0.1:10053,kubernetes.default.svc.cluster.local,5,A 
   
           --probe=dnsmasq,127.0.0.1:53,kubernetes.default.svc.cluster.local,5,A 
   
         State:        Running 
   
           Started:        Fri, 23 Feb 2018 18:49:14 +0800 
   
         Last State:        Terminated 
   
           Reason:        Error 
   
           Exit Code:    2 
   
           Started:        Fri, 23 Feb 2018 18:27:07 +0800 
   
           Finished:        Fri, 23 Feb 2018 18:43:25 +0800 
   
         Ready:        True 
   
         Restart Count:    1 
   
         Requests: 
   
           cpu:        10m 
   
           memory:        20Mi 
   
         Liveness:        http-get http://:10054/metrics delay=60s timeout=5s period=10s #success=1 #failure=5 
   
         Environment:     
   
         Mounts: 
   
           /var/run/secrets/kubernetes.io/serviceaccount from kube-dns-token-trvkm (ro) 
   
     Conditions: 
   
       Type        Status 
   
       Initialized     True 
   
       Ready     True 
   
       PodScheduled     True 
   
     Volumes: 
   
       kube-dns-config: 
   
         Type:    ConfigMap (a volume populated by a ConfigMap) 
   
         Name:    kube-dns 
   
         Optional:    true 
   
       kube-dns-token-trvkm: 
   
         Type:    Secret (a volume populated by a Secret) 
   
         SecretName:    kube-dns-token-trvkm 
   
         Optional:    false 
   
     QoS Class:    Burstable 
   
     Node-Selectors:     
   
     Tolerations:    CriticalAddonsOnly 
   
             node-role.kubernetes.io/master:NoSchedule 
   
             node.alpha.kubernetes.io/notReady:NoExecute for 300s 
   
             node.alpha.kubernetes.io/unreachable:NoExecute for 300s 
   
     Events:

按selector分组，查看service和pod的详细运行状态：

     [root@gqtest1 ~]# kubectl get svc -n kube-system -l k8s-app=kube-dns -o wide 
   
     NAME       CLUSTER-IP   EXTERNAL-IP   PORT(S)         AGE       SELECTOR 
   
     kube-dns   10.96.0.10           53/UDP,53/TCP   2h        k8s-app=kube-dns 
   
     [root@gqtest1 ~]# kubectl get pods -n kube-system -l name=weave-net -o wide 
   
     NAME              READY     STATUS    RESTARTS   AGE       IP          NODE 
   
     weave-net-3fh66   2/2       Running   0          1h        10.0.2.4    gqtest2.future 
   
     weave-net-hd7k2   2/2       Running   3          1h        10.0.2.15   gqtest1.future

这是weave status之外，另一种查看weave网络服务状态的方法：

     [root@gqtest1 ~]# kubectl exec -n kube-system weave-net-hd7k2 -c weave -- /home/weave/weave --local status 
   
             Version: 2.2.0 (failed to check latest version - see logs; next check at 2018/02/23 16:26:07) 
   
             Service: router 
   
            Protocol: weave 1..2 
   
                Name: ea:0f:53:f9:2f:f0(gqtest1.future) 
   
          Encryption: disabled 
   
       PeerDiscovery: enabled 
   
             Targets: 1 
   
         Connections: 2 (1 established, 1 failed) 
   
               Peers: 2 (with 2 established connections) 
   
      TrustedSubnets: none 
   
             Service: ipam 
   
              Status: ready 
   
               Range: 10.32.0.0/12 
   
       DefaultSubnet: 10.32.0.0/12

查看kubelet产生的事件日志信息，在排错时很有用：

    journalctl -xeu kubelet 
  

查看一个主机节点的配置详情：

     [root@gqtest1 ~]# kubectl describe node gqtest2.future 
   
     Name:            gqtest2.future 
   
     Role: 
   
     Labels:            beta.kubernetes.io/arch=amd64 
   
                 beta.kubernetes.io/os=linux 
   
                 kubernetes.io/hostname=gqtest2.future 
   
     Annotations:        node.alpha.kubernetes.io/ttl=0 
   
                 volumes.kubernetes.io/controller-managed-attach-detach=true 
   
     Taints:             
   
     CreationTimestamp:    Fri, 23 Feb 2018 19:08:04 +0800 
   
     Conditions: 
   
       Type            Status    LastHeartbeatTime            LastTransitionTime            Reason                Message 
   
       ----            ------    -----------------            ------------------            ------                ------- 
   
       OutOfDisk         False     Fri, 23 Feb 2018 20:14:03 +0800     Fri, 23 Feb 2018 19:08:05 +0800     KubeletHasSufficientDisk     kubelet has sufficient disk space available 
   
       MemoryPressure     False     Fri, 23 Feb 2018 20:14:03 +0800     Fri, 23 Feb 2018 19:08:05 +0800     KubeletHasSufficientMemory     kubelet has sufficient memory available 
   
       DiskPressure         False     Fri, 23 Feb 2018 20:14:03 +0800     Fri, 23 Feb 2018 19:08:05 +0800     KubeletHasNoDiskPressure     kubelet has no disk pressure 
   
       Ready         True     Fri, 23 Feb 2018 20:14:03 +0800     Fri, 23 Feb 2018 19:50:40 +0800     KubeletReady             kubelet is posting ready status 
   
     Addresses: 
   
       InternalIP:    10.0.2.4 
   
       Hostname:    gqtest2.future 
   
     Capacity: 
   
      cpu:        2 
   
      memory:    1883376Ki 
   
      pods:        110 
   
     Allocatable: 
   
      cpu:        2 
   
      memory:    1780976Ki 
   
      pods:        110 
   
     System Info: 
   
      Machine ID:            53e312c62f2942908f2035d576b42b51 
   
      System UUID:            B7ADF3E2-298A-47BC-86A3-F11038C80119 
   
      Boot ID:            cbecf64b-e172-4b12-b9b4-db9646f49e1d 
   
      Kernel Version:        3.10.0-693.17.1.el7.x86_64 
   
      OS Image:            CentOS Linux 7 (Core) 
   
      Operating System:        linux 
   
      Architecture:            amd64 
   
      Container Runtime Version:    docker://1.12.6 
   
      Kubelet Version:        v1.7.5 
   
      Kube-Proxy Version:        v1.7.5 
   
     ExternalID:            gqtest2.future 
   
     Non-terminated Pods:        (2 in total) 
   
       Namespace            Name                CPU Requests    CPU Limits    Memory Requests    Memory Limits 
   
       ---------            ----                ------------    ----------    ---------------    ------------- 
   
       kube-system            kube-proxy-0pc5d        0 (0%)        0 (0%)        0 (0%)        0 (0%) 
   
       kube-system            weave-net-3fh66            20m (1%)    0 (0%)        0 (0%)        0 (0%) 
   
     Allocated resources: 
   
       (Total limits may be over 100 percent, i.e., overcommitted.) 
   
       CPU Requests    CPU Limits    Memory Requests    Memory Limits 
   
       ------------    ----------    ---------------    ------------- 
   
       20m (1%)    0 (0%)        0 (0%)        0 (0%) 
   
     Events: 
   
       FirstSeen    LastSeen    Count    From                SubObjectPath    Type        Reason        Message 
   
       ---------    --------    -----    ----                -------------    --------    ------        ------- 
   
       24m        24m        1    kube-proxy, gqtest2.future            Normal        Starting    Starting kube-proxy. 
   
       23m        23m        1    kubelet, gqtest2.future                Normal        NodeReady    Node gqtest2.future status is now: NodeReady

查看提供dns服务的pod中3个容器中的应用运行日志信息：

     [root@gqtest1 ~]# kubectl logs -f kube-dns-2425271678-gps35 -n kube-system -c kubedns 
   
     I0223 10:49:12.712082       1 dns.go:48] version: 1.14.3-4-gee838f6 
   
     I0223 10:49:12.726504       1 server.go:70] Using configuration read from directory: /kube-dns-config with period 10s 
   
     I0223 10:49:12.726545       1 server.go:113] FLAG: --alsologtostderr="false" 
   
     I0223 10:49:12.726553       1 server.go:113] FLAG: --config-dir="/kube-dns-config" 
   
     I0223 10:49:12.726559       1 server.go:113] FLAG: --config-map="" 
   
     I0223 10:49:12.726563       1 server.go:113] FLAG: --config-map-namespace="kube-system" 
   
     I0223 10:49:12.726567       1 server.go:113] FLAG: --config-period="10s" 
   
     I0223 10:49:12.726571       1 server.go:113] FLAG: --dns-bind-address="0.0.0.0" 
   
     I0223 10:49:12.726575       1 server.go:113] FLAG: --dns-port="10053" 
   
     I0223 10:49:12.726581       1 server.go:113] FLAG: --domain="cluster.local." 
   
     I0223 10:49:12.726588       1 server.go:113] FLAG: --federations="" 
   
     I0223 10:49:12.726595       1 server.go:113] FLAG: --healthz-port="8081" 
   
     I0223 10:49:12.726599       1 server.go:113] FLAG: --initial-sync-timeout="1m0s" 
   
     I0223 10:49:12.726603       1 server.go:113] FLAG: --kube-master-url="" 
   
     I0223 10:49:12.726608       1 server.go:113] FLAG: --kubecfg-file="" 
   
     I0223 10:49:12.726611       1 server.go:113] FLAG: --log-backtrace-at=":0" 
   
     I0223 10:49:12.726617       1 server.go:113] FLAG: --log-dir="" 
   
     I0223 10:49:12.726622       1 server.go:113] FLAG: --log-flush-frequency="5s" 
   
     I0223 10:49:12.726625       1 server.go:113] FLAG: --logtostderr="true" 
   
     I0223 10:49:12.726629       1 server.go:113] FLAG: --nameservers="" 
   
     I0223 10:49:12.726633       1 server.go:113] FLAG: --stderrthreshold="2" 
   
     I0223 10:49:12.726637       1 server.go:113] FLAG: --v="2" 
   
     I0223 10:49:12.726640       1 server.go:113] FLAG: --version="false" 
   
     I0223 10:49:12.726646       1 server.go:113] FLAG: --vmodule="" 
   
     I0223 10:49:12.726916       1 server.go:176] Starting SkyDNS server (0.0.0.0:10053) 
   
     I0223 10:49:12.727218       1 server.go:198] Skydns metrics enabled (/metrics:10055) 
   
     I0223 10:49:12.727230       1 dns.go:147] Starting endpointsController 
   
     I0223 10:49:12.727234       1 dns.go:150] Starting serviceController 
   
     I0223 10:49:12.727490       1 logs.go:41] skydns: ready for queries on cluster.local. for tcp://0.0.0.0:10053 [rcache 0] 
   
     I0223 10:49:12.727497       1 logs.go:41] skydns: ready for queries on cluster.local. for udp://0.0.0.0:10053 [rcache 0] 
   
     I0223 10:49:13.230199       1 dns.go:171] Initialized services and endpoints from apiserver 
   
     I0223 10:49:13.230215       1 server.go:129] Setting up Healthz Handler (/readiness) 
   
     I0223 10:49:13.230223       1 server.go:134] Setting up cache handler (/cache) 
   
     I0223 10:49:13.230229       1 server.go:120] Status HTTP port 8081 
   
     ^C 
   
     [root@gqtest1 ~]# kubectl logs -f kube-dns-2425271678-gps35 -n kube-system -c sidecar 
   
     ERROR: logging before flag.Parse: I0223 10:49:14.751622       1 main.go:48] Version v1.14.3-4-gee838f6 
   
     ERROR: logging before flag.Parse: I0223 10:49:14.751973       1 server.go:45] Starting server (options {DnsMasqPort:53 DnsMasqAddr:127.0.0.1 DnsMasqPollIntervalMs:5000 Probes:[{Label:kubedns Server:127.0.0.1:10053 Name:kubernetes.default.svc.cluster.local. Interval:5s Type:1} {Label:dnsmasq Server:127.0.0.1:53 Name:kubernetes.default.svc.cluster.local. Interval:5s Type:1}] PrometheusAddr:0.0.0.0 PrometheusPort:10054 PrometheusPath:/metrics PrometheusNamespace:kubedns}) 
   
     ERROR: logging before flag.Parse: I0223 10:49:14.751997       1 dnsprobe.go:75] Starting dnsProbe {Label:kubedns Server:127.0.0.1:10053 Name:kubernetes.default.svc.cluster.local. Interval:5s Type:1} 
   
     ERROR: logging before flag.Parse: I0223 10:49:14.752105       1 dnsprobe.go:75] Starting dnsProbe {Label:dnsmasq Server:127.0.0.1:53 Name:kubernetes.default.svc.cluster.local. Interval:5s Type:1} 
   
     ^C 
   
     [root@gqtest1 ~]# kubectl logs -f kube-dns-2425271678-gps35 -n kube-system -c dnsmasq 
   
     I0223 10:49:13.799678       1 main.go:76] opts: {{/usr/sbin/dnsmasq [-k --cache-size=1000 --log-facility=- --server=/cluster.local/127.0.0.1#10053 --server=/in-addr.arpa/127.0.0.1#10053 --server=/ip6.arpa/127.0.0.1#10053] true} /etc/k8s/dns/dnsmasq-nanny 10000000000} 
   
     I0223 10:49:13.800884       1 nanny.go:86] Starting dnsmasq [-k --cache-size=1000 --log-facility=- --server=/cluster.local/127.0.0.1#10053 --server=/in-addr.arpa/127.0.0.1#10053 --server=/ip6.arpa/127.0.0.1#10053] 
   
     I0223 10:49:14.638909       1 nanny.go:111] 
   
     W0223 10:49:14.639013       1 nanny.go:112] Got EOF from stdout 
   
     I0223 10:49:14.639280       1 nanny.go:108] dnsmasq[10]: started, version 2.76 cachesize 1000 
   
     I0223 10:49:14.639308       1 nanny.go:108] dnsmasq[10]: compile time options: IPv6 GNU-getopt no-DBus no-i18n no-IDN DHCP DHCPv6 no-Lua TFTP no-conntrack ipset auth no-DNSSEC loop-detect inotify 
   
     I0223 10:49:14.639314       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain ip6.arpa 
   
     I0223 10:49:14.639318       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain in-addr.arpa 
   
     I0223 10:49:14.639321       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain cluster.local 
   
     I0223 10:49:14.639328       1 nanny.go:108] dnsmasq[10]: reading /etc/resolv.conf 
   
     I0223 10:49:14.639332       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain ip6.arpa 
   
     I0223 10:49:14.639336       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain in-addr.arpa 
   
     I0223 10:49:14.639339       1 nanny.go:108] dnsmasq[10]: using nameserver 127.0.0.1#10053 for domain cluster.local 
   
     I0223 10:49:14.639343       1 nanny.go:108] dnsmasq[10]: using nameserver 192.168.5.66#53 
   
     I0223 10:49:14.639346       1 nanny.go:108] dnsmasq[10]: read /etc/hosts - 7 addresses 
   
     ^C

注：名为sidecar的容器中应用输出了一些错误日志，据称是功能bug，已经在后续新版本中修复。

进入到kubedns容器系统中做检查的方法：

     [root@gqtest1 ~]# docker exec -it 53ba0a56e18ea8130c414f42983d89100e80646b3ee20557bb47e58079a97745 /bin/sh 
   
     / # ls 
   
     bin              etc              kube-dns         lib              mnt              root             sbin             sys              usr 
   
     dev              home             kube-dns-config  media            proc             run              srv              tmp              var 
   
     / # ip a 
   
     1: lo:  mtu 65536 qdisc noqueue state UNKNOWN qlen 1 
   
         link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 
   
         inet 127.0.0.1/8 scope host lo 
   
            valid_lft forever preferred_lft forever 
   
         inet6 ::1/128 scope host 
   
            valid_lft forever preferred_lft forever 
   
     12: eth0@if13:  mtu 1376 qdisc noqueue state UP 
   
         link/ether d6:25:ca:25:47:ac brd ff:ff:ff:ff:ff:ff 
   
         inet 10.32.0.2/12 brd 10.47.255.255 scope global eth0 
   
            valid_lft forever preferred_lft forever 
   
         inet6 fe80::d425:caff:fe25:47ac/64 scope link tentative flags 08 
   
            valid_lft forever preferred_lft forever

注：这进入的是一个名为kube-dns-2425271678-gps35的pod中的一个名为kubedns的容器。

使用kubeadm搭建k8s集群失败后，怎么重新来过，初始化失败后的清理命令如下：

     kubeadm reset 
   
     ifconfig weave down 
   
     ip link delete weave 
   
     rm -rf /var/lib/cni/ 
   
     iptables -P INPUT ACCEPT 
   
     iptables -P FORWARD ACCEPT 
   
     iptables -P OUTPUT ACCEPT 
   
     iptables -t nat -F 
   
     iptables -t mangle -F 
   
     iptables -F 
   
     iptables -X 
   
     reboot

四、k8s 网络插件知识扫盲

下面列出的插件是专门为Kubernetes开发的。

Kubenet

Kubenet是专门用于单节点环境，它可以通过与设定规则的云平台一起使用来实现节点间的通信。Kubenet是一个非常基本的网络插件，如果你正在寻找跨节点的网络策略，Kubenet没有任何帮助。

Flannel

Flannel是一个被CoreOS开发的，专门为k8s设计的overlay网络方案。Flannel的主要优点是它经过了良好的测试并且成本很低。Flannel 为整个集群的提供分布式处理。k8s 为正确的通信和服务，进行端口映射和分配唯一的ip地址给每个pod。如果你用Google Compute，它将非常兼容。然而，如果你用其他的云服务商，可能会遇到很多困难。Flannel正解决这个问题。

Weave

Weave是由Weavenetwork开发，用于连接，监视，可视化和监控Kubernetes。通过Weave，可以创建网络，更快的部署防火墙，并通过自动化的故障排除，提高网络运维效率。

Weave创建的网络可以连通在不同位置的容器，比如公有云、私有云，虚拟机和裸金属设备，容器网络可以承载二层和三层的流量，并支持多播；内建的加密功能让容器隔离更加容易实现； Weave网络还可以自动选择最快的路径路由容器流量，保证容器的网络速度。每台运行weave的主机都需要运行几个必须的容器，透过这些容器实现跨主机通讯。在一个weave网络中，会有多个运行在不同主机的peer，这些peer起到路由的作用。

在weave routers间会创建TCP或UDP连接，工作的流程是：

先执行handshake
随后交换拓扑信息

如果用户启用了加密(启用加密的方法会在后面说明)，这些全双工的连接会使用UDP协议承载封装好的网包，并且可以透过防火墙。

在实现上，weave会在主机上创建一个网桥，容器会通过veth peer连接到网桥，一般情况下由weave自带的地址分配工具自动分配为容器分配地址，如果用户进行干预，则以用户设置优先。

因为起到路由作用的weave容器也会连接到上述网桥，所以，weave routers会借助pcap，透过设置为混杂模式的接入网桥的接口捕捉以太网包，但是对于直接透过内核转发的本地容器间流量或是宿主机与本地容器间的流量则会被排除。

被捕捉的数据包通过UDP协议转发到其他Host上的weave router peer上，一旦收到这些包，路由会把包通过pcap注入到它的网桥接口或转发到其他的peers。

weave路由会通过mac地址识别不同的peer所在的位置，连同拓扑信息去决定转发路径，避免采取像泛洪般的手段，把每个包都发到每个peer上，以提高网络性能。

用GRE/VXLAN 的 OpenVSwitch

OpenVSwitch 用于跨节点建立网络。隧道类型可以是VxLAN或GRE（通用的路由封装）。GRE用于在IP网络上进行数据帧的隧道化。在VXLAN的一帧数据中，包括了原来的2层数据包头，被封装的一个IP包头，一个UDP包头和一个VXLAN包头。VXLAN更适用于要进行大规模网络隔离的大型数据中心。值得注意的是，OpenVSwitch也是Xen默认的网络方案，同样也适用于像KVM, VIrtualBox, Proxmox VE 或 OpenStack 等平台。

Calico

从k8s 1.0 开始， Calico 为k8s pod提供了三层网络。Calico提供了简单的，可扩展的，安全的虚拟网络。它用边界网关协议（BGP）为每个Pod提供根分布，并可使用IT基础设施集成Kubernetes集群。Calico可以几乎与所有的云平台兼容，在Kubernetes环境下，具有高可扩展性。除了Kubernetes, Calico 还支持 OpenStack, Mesos, and Docker。

参考1：《Kubernetes权威指南——从Docker到Kubernetes实践全接触》第2章。

参考2：Kubernetes中文社区 | 中文文档

参考2：大约上百篇的各类技术博客、github.com issues或stackoverflow.com questions等！

你可能感兴趣的:(k8s)

《Quick Start Kubernetes》读后感 python
一、为什么选择这本书？面试的时候经常被问到kubernetes(下称k8s)，所以打算学习k8s。看到《QuickStartKubernetes》的作者对自己所写的书持续地更新，被这种认真打动了，外加这本书只有100多页，所以选择了这本书作为入门k8s的教材。二、这本书写了什么？这本书介绍了什么是k8s,k8s的组成结构(controlplanenode,workernode)，演示了在Windo
ARM64环境部署EFK8.15.3收集K8S集群容器日志 llody_55 kubernetes 容器云原生运维 es java elasticsearch
环境规划主机IP系统部署方式ES版本CPU架构用户名密码192.168.1.225Ubuntu22.04.4LTSdockerelasticsearch:8.15.3ARM64elasticllodyi4TMmZDES集群部署创建持久化目录(所有节点)mkdir-p/data/es/{data,certs,logs,plugins}mkdir-p/data/es/certs/{ca,es01}服务
docker和kubectl客户端安装Linux yyytucj docker linux 容器
在现代软件开发和运维领域，Docker和Kubernetes已成为不可或缺的工具。Docker是一个开源的应用容器引擎，允许开发者打包应用及其依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器或者Windows机器上。Kubernetes（简称K8s）是一个开源的容器编排工具，用于自动化容器的部署、扩展和管理。在Linux环境中安装Docker和Kubernetes客户端（kubect
CICD系列之k8s john137724 DEV-OPS k8s
k8s安装操作系统配置主机规划hosts配置(所有主机都要配置)防火墙配置(所有主机都要配置)内核配置参数(所有主机都要配置)selinux和swap配置(所有主机都要配置)ipvs配置(所有主机都要配置)安装docker安装k8s组件配置k8s组件安装yum源安装kubelet,kubeadm,kubectl(所有节点都要安装，工作节点不用安装kubectl)设置kubelet开机自启动初始化集
curl不通 k8s_【K8S排错】在集群的POD内不能访问clusterIP和service weixin_39950057 curl不通 k8s
排错背景：在一次生产环境的部署过程中，配置文件中配置的访问地址为集群的Service，配置好后发现服务不能正常访问，遂启动了一个busybox进行测试，测试发现在busybox中，能通过coredns正常的解析到IP，然后去ping了一下service，发现不能ping通，pingclusterIP也不能ping通。排错经历：首先排查了kube-proxy是否正常，发现启动都是正常的，然后也重启了
在K8S中，svc底层是如何实现的？ Dusk_橙子 K8S kubernetes 容器云原生
在Kubernetes中，Service是集群内部的一个抽象层，用于定义一组Pod的逻辑分组，并提供统一的访问入口点，同时还可以对这些Pod提供负载均衡和网络代理功能。Service底层的实现主要包括以下几个关键组件和技术：标签选择器（LabelSelectors）Kubernetes中的Service并不直接指向具体的PodIP地址，而是通过标签选择器（LabelSelectors）关联到具有匹
K8s 1.27.1 实战系列（六）Pod 白昼ron K8s kubernetes 容器 K8s Pod yaml
一、Pod介绍1、Pod的定义与核心设计Pod是Kubernetes的最小调度单元，由一个或多个容器组成，这些容器共享网络、存储、进程命名空间等资源，形成紧密协作的应用单元。Pod的设计灵感来源于“豌豆荚”模型，容器如同豆子，共享同一环境但保持隔离性。其核心设计目标包括：轻量性：Pod本身不负责资源分配，仅作为容器的逻辑封装单元，高效利用集群资源。临时性：Pod生命周期短暂，故障或任务完成后会被销
部署skywalking进行链路跟踪 BUG弄潮儿 skywalking
1.前言本实验文档基于单机es7作为skywalking的后端存储，使用nfs动态卷storageclass，es没有使用账号密码。2.环境k8s集群：v1.20.4版本k8s-master1192.168.110.235k8s-node1192.168.110.236k8s-node2192.168.110.237nfs192.168.110.239elasticsearch：7.12.0sky
使用ansible搭建k8s集群--单节点部署+work节点扩展 chennuan1991 kubernetes
单节点部署：1.基础系统配置准备一台虚机配置内存2G/硬盘30G以上最小化安装Ubuntu16.04server或者CentOS7Minimal配置基础网络、更新源、SSH登录等2.下载文件下载工具脚本easzup，举例使用kubeasz版本2.0.2https://github.com/easzlab/kubeasz/blob/master/docs/setup/quickStart.md如果下
k8s下部署ansible进行node-export二安装 BUG弄潮儿 kubernetes ansible 容器云原生
下载node-exporterhttps://github.com/prometheus/node_exporter/releases下载ansiblehttps://github.com/ansible/ansible/releases启动node-exporterservice文件node-exporter.service[Unit]Description=node_exporterRequi
K8S学习之基础十九：k8s的四层代理Service 云上艺旅 K8S学习 kubernetes 容器云原生
K8S四层代理Service四层负载均衡Service在k8s中，访问pod可以通过ip+端口的方式，但是pod是由生命周期的，pod在重启的时候ip地址往往会发生变化，访问pod就需要新的ip地址，这样就会很麻烦，每次pod地址改变就要修改访问ip。Service的引进解决了这种问题，通过定义Service资源对象，Service定义一个服务访问的入口，客户端可以通过这个入口访问对应的pod，就
Kubernetes/k8s 灰度发布 (deployment分批发布）江南飞羽 k8s kubernetes 运维 java
为何需要灰度发布生产环境从来都需要心存敬畏的，一旦变更失误会严重影响公网顾客的访问和体验，且实践过程中发现，发布和变更是两个重要的故障来源。IDC迁移到K8S后，虽然K8S配置rolling策略可实现maxSurge=1/n，分批升级工作负载deployment，但分批之间是没有停停顿疼点1）缺陷：假设deployment_v1一组有10个pod，内置rolling方式，发布pod_1更新代码为v
K8s 1.18.6版本基于 ingress-nginx 实现金丝雀发布（灰度发布） zerchin kubernetes ingress-nginx kubernetes ingress-nginx
K8s1.18.6版本基于ingress-nginx实现金丝雀发布（灰度发布）环境软件版本kubernetesv1.18.6nginx-ingress-controller0.32.0Rancherv2.4.5本次实验基于Rancher-v2.4.5部署了1.18.6版本的k8s集群，nginx-ingress版本为0.32.0，理论上ingress-nginx>=0.21.0都是可以的。介绍金丝
k8s灰度/金丝雀发布竹浅共春枝 kubernetes 容器云原生 canary
灰度及蓝绿发布是为新版本服务创建一个与老版本服务完全一致的生产环境，在不影响老版本服务的前提下，按照一定的规则把部分流量切换到新版本，当新版本试运行一段时间没有问题后，将用户的全量流量从老版本迁移至新版本。灰度发布的方式通常用于AB测试，是指一部分用户继续使用老版本的服务，将一部分用户的流量切换到新版本，如果新版本运行稳定，则逐步将所有用户迁移到新版本。金丝雀发布是指在生产环境中逐步推出新版本应用
Apache Doris 现行版本 Docker-Compose 运行教程 atbigapp.com 大数据 doris 大数据 mpp
特别注意！DorisOnDocker部署方式仅限于开发环境或者功能测试环境，不建议生产环境部署！如有生产环境或性能测试集群部署诉求，请使用裸机/虚机部署或K8SOperator部署方案！原文阅读：ApacheDoris现行版本Docker-Compose运行教程引言随着ApacheDoris项目的火热，很多想尝鲜或者试用的小伙伴都希望通过Docker来快速拉起一个功能测试或者开发的集群，但由于一些
K8s 1.27.1 实战系列（二）安装集群并初始化白昼ron K8s kubernetes 容器 K8s 部署 containerd kubeadm kubelet
一、安装kubeadm、kubelet和kubectl（所有节点）1、配置k8s的yum源地址cat<
Kubernetes_15_k8s交付jenkins并集成docker/k8s/java/maven环境 hellowordx007 Kubernetes kubernetes 服务器 linux
配置jenkins镜像并集成Docker环境在运维机执行[root@wwwjenkins]#pwd/opt/sortware/jenkins[root@wwwjenkins]#vimDockerfile##配置Dockerfile集成Docker环境FROMjenkins/jenkins:2.287USERrootADDkubectl/usr/bin/kubectlADDget-docker.sh
K8s面试题总结（十一） a_j58 kubernetes 容器云原生
1.如何优化docker镜像的大小？使用多阶段构建（multi-stagebuild）选择更小的基础镜像（如alpine）减少镜像层数，合并RUN命令2.请解释Docker中的网络模式（如bridge,host,none)Bridge：默认模式，容器通过虚拟网络桥接与主机通信Host：容器直接使用主机的网络栈none：容器没有网络接口3.如何将本地开发的Docker容器部署到Kubernetes集
K8S 集群节点扩容小小大胖子3 kubernetes java 容器
环境说明：主机名IP地址CPU/内存角色K8S版本Docker版本k8s231192.168.99.2312C4Gmaster1.23.1720.10.24k8s232192.168.99.2322C4Gwoker1.23.1720.10.24k8s233（需上线）192.168.99.2332C4Gwoker1.23.1720.10.24当现有集群中的节点资源不够用，此时就需要给集群扩容添加机器
大数据运维实战指南：零基础入门与核心技术解析（第一篇） emmm形成中大数据运维
大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN/K8s深度解析第五篇：实时计算框架Flink/Spark运维指南第六篇：大数据监控体系与自动化运维第七篇：云原生时代的大数据运维实践第八篇：数据安全与合规性管理第九篇：性能调优与故障排查案例集第
【K8S问题系列 | 10】在K8S集群怎么查看各个pod占用的资源大小？【已解决】颜淡慕潇 kubernetes 容器云原生后端问题解决
要查看Kubernetes集群中各个Pod占用的资源大小（包括CPU和内存），可以使用以下几种方法：1.使用kubectltop命令kubectltop命令可以快速查看当前Pod的CPU和内存使用情况。需要确保已安装并配置了MetricsServer。查看所有Pod的资源使用情况kubectltoppods--all-namespaces示例输出NAMESPACENAMECPU(cores)MEM
K8s（八）：如何进行 Kubernetes 集群健康检查？ Seal^_^ #Kubernetes 【云原生】容器化与编排技术持续集成 kubernetes 容器云原生 K8s 集群健康检查
K8s（八）：如何进行Kubernetes集群健康检查？1、节点健康检查1.1、使用kubectl查看节点状态1.2、查看节点详细信息1.3、检查节点资源使用情况2、Pod健康检查2.1、使用kubectl查看Pod状态2.2、查看特定Pod的详细信息，包括事件和条件3、服务健康检查3.1、使用kubectl查看服务状态3.2、查看特定服务的详细信息，包括端口和端点4、使用kubectl查看存储状
k8s scheduler源码阅读全是操作 k8s kubernetes 容器云原生
目标通过源码加深对k8sscheduler的了解源码阅读环境准备源码在kubernetes仓库中,如何调试scheduler在我的另一篇文章《kubeadm搭建k8s源码阅读环境》里面有演示。在本篇文章中就不再赘述了。调试命令如下dlv--headless--listen=:8005--api-version=2--accept-multiclientexec/root/kubernetes/_o
玛卡巴卡的k8s知识点问答题（二）小刘爱喇石( ˝ᗢ̈˝ ) kubernetes docker 容器
5.部署安装K8s为什么要关闭swap分区？（1）资源管理失效，k8s无法感知swap的使用情况，因为他只监控物理内存，若启用了swap，pod可能会使用swap空间，导致k8s误判节点的使用情况。（2）性能下降：swap的读写速度远远低于物理内存，使用swap会导致应用性能明显下降。（3）Pod驱逐机制失效：k8s通过内存压力来触发Pod的驱逐机制，如果节点启用了swap，内存不足时系统会优先使
玩转Linux网络命名空间：手把手实现跨命名空间通信冯·诺依曼的操作系统 ➔Linux linux 网络运维容器
一、网络命名空间简介网络命名空间（NetworkNamespace）是Linux内核提供的一种网络隔离机制，它允许不同命名空间拥有独立的：网络设备接口IP地址和路由表防火墙规则（iptables/nftables）端口号范围这种技术被广泛应用于容器化（Docker/K8s）、虚拟化等场景，是实现网络隔离的重要基础。二、实战：跨命名空间通信配置1.环境准备#清空已有测试命名空间（避免冲突）ipnet
docker版本实现MySQL主从架构互联网老辛从零开始学k8s docker
下载MySQL镜像[root@k8s-master~]#dockerpullmysql:5.75.7:Pullingfromlibrary/mysql72a69066d2fe:Pullcomplete93619dbc5b36:Pullcomplete99da31dd6142:Pullcomplete626033c43d70:Pullcomplete37d5d7efb64e:Pullcomplete
k8s--vxlan的使用网络传输协议
在Linux系统中可以使用命令行工具来创建和测试VXLAN网络确定物理网卡首先要明确VXLAN隧道所基于的物理网卡，一般可以使用ipaddr命令查看当前系统的网络接口信息。例如，假设物理网卡名为eth0。创建VXLAN接口iplinkaddvxlan100typevxlanid100deveth0dstport4789vxlan100：这是新创建的VXLAN接口的名称，你可以根据需求自定义。id1
云原生边缘计算：重塑分布式智能的时空边界桂月二二云原生边缘计算分布式
引言：算力向数据源头迁移的革命特斯拉自动驾驶系统每小时产生20TB边缘数据，时延要求低于50ms。中国移动5G边缘云实现ARPU值提升38%，华为云IEF平台将工业质检响应速度提升至15ms以内。ABIResearch预测2026年边缘AI芯片市场规模达520亿美元，KubeEdge管理边缘节点数突破千万级，单节点资源开销仅为K8s的1/8。一、边缘计算架构范式演进1.1技术架构对比矩阵特征维度中
K8s 1.27.1 实战系列（五）Namespace 白昼ron K8s kubernetes 容器 K8s Namespace 命名空间 yaml ns
Kubernetes1.27.1中的Namespace（命名空间）是集群中实现多租户资源隔离的核心机制。以下从功能、操作、配置及实践角度进行详细解析：一、核心功能与特性1、资源隔离Namespace将集群资源划分为逻辑组，实现Pod、Service、Deployment等资源的虚拟隔离。例如，开发环境与生产环境的资源可独立管理，避免相互干扰。非完全隔离性：默认仅逻辑隔离，网络和存储仍互通，需通过N
K8s - 结合实战场景的深度问题小马不敲代码云原生 kubernetes 容器云原生
1:存活探针（LivenessProbe）、就绪探针（ReadinessProbe）、启动探针（StartupProbe）的区别及适用场景？1、存活探针（LivenessProbe）•目的：检测容器是否处于运行状态，若失败则重启容器。•适用场景：•应用程序因死锁或死循环无法响应请求时自动恢复。•例如：Web服务长时间无响应需强制重启。•配置示例livenessProbe:httpGet:path:
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，