StackFlow

kubeproxy和service dns整体原理

iptables知识

五条链

iptables是linux内核集成的IP信息过滤规则，负责将发往主机的网络包进行分发，转换等。当客户端请求服务器的某个服务时，请求信息会先通过网卡进入服务器内核，这时iptables会对包进行过滤，决定这些包是发往用户态的服务进程或是转发出去到别的主机。而决定这些路径的方式在iptables中称为链，刚进入内核的请求流会经过PREROUTING链，根据路由规则判断是是不是发往本机请求，是则走INPUT链进入本机用户态进程，否则会走FORWARD链并匹配对应的规则最后流出本机；如果是本机发出的请求会走OUTPUT链并进一步到POSTROUTINE链流出本机，或转发到其他机器或回复信息给客户端。

总结上述几条链：

PREROUTINE：流入本机路由前
POSTROUTINE：流出本机路由前
FORWARD：转发路径
OUTPUT：由本机用户程序发出的
INPUT：发送至本机用户程序的

两个动作

SNAT

源地址转换，是指将报文发送方的ip地址转换，这样当相应方回复请求时，回复的是发送方的地址。

示例理解

当client发送请求给server时，需要经过gateway，如果gateway不对包进行源地址转换(SNAT)，发往server的网络包携带的源地址依然是client，server会对该源地址响应，但client并不识别server的地址，会导致该条请求出现错误。

DNAT

目标地址转换，是将报文的目标地址转换，起到请求转发到别的目的地的作用。

k8s基础知识

下面了解k8s中的几种IP类型。

虚拟IP

虚IP(下文称VIP)有ClusterIP（即serviceIP），是集群自己生成的，ping不通，并和PodIP不处于同一网段，避免请求发生混乱。当创建一个service时，k8s会为该service指派一个IP地址，并会被集群中的所有kube-proxy观察到，kube-proxy从而会安装一系列的iptables规则到宿主机，kube-dns也会相应的插入一条域名解析IP的规则。请求到来的时候，如果符合规则，iptables会将VIP转化为实际的IP并使用。

实际IP

实IP分别有PodIP等，该IP是由CNI插件分配的，在k8s集群启动时候，需要安装CNI插件，通常是一个DaemonSet控制器控制，保证每台节点都有该进程。他的作用是在集群内部产生一套网络，并给每个pod插上”网线”，保证pod与节点，pod与pod是互通的。

Pod之间通信的方式可以通过实际的PodIP，但是该IP会随着pod的变化而变化，不适合用该方式，也可以通过ClusterIP的方式通信，比较稳定，但是不容易被记住，还可以通过svc.ns这种域名的格式，该方法请求kube-dns域名解析得到域名对应的IP。

在kubernetes中，service其实只是一个保存在etcd里的API对象，并不对应任何具体的实例。service即k8s中的“微服务”，而它的服务注册与发现、健康检查、负载均衡等功能其实是底层watch service、endpoint、pod等资源的DNS、kube-proxy，以及iptables等共同配合实现的。

从集群内部访问ClusterIP服务

在kubernetes网络之DNS 一文中，已经详细说明了从域名到ClusterIP的转换过程。

下面以kubernetes集群中某个Pod访问kubernetes服务（kube-apiserver）为例，分析一下kubernetes是怎么将对ClusterIP的访问转变成对某个后端Pod的访问的。

注：kube-proxy以iptables模式工作

1➜  ~ k get svc | grep kubernetes
2kubernetes                      ClusterIP      192.168.0.1                         443/TCP                                             348d
3
4➜  ~ k get ep kubernetes
5NAME         ENDPOINTS                                                AGE
6kubernetes   10.20.126.169:6443,10.28.116.8:6443,10.28.126.199:6443   348d

首先数据包从容器中被路由到cni网桥，出现在宿主机网络栈中。
Netfilter在PREROUTING链中处理该数据包，最终会将其转到KUBE-SERVICES链上进行处理：

1-A PREROUTING -m comment --comment "kubernetes service portals" -j KUBE-SERVICES

KUBE-SERVICES链将目的地址为192.168.0.1的数据包跳转到KUBE-SVC-NPX46M4PTMTKRN6Y链进行处理：

1-A KUBE-SERVICES -d 192.168.0.1/32 -p tcp -m comment --comment "default/kubernetes:https cluster IP" -m tcp --dport 443 -j KUBE-SVC-NPX46M4PTMTKRN6Y

KUBE-SVC-NPX46M4PTMTKRN6Y链以相等概率将数据包跳转到KUBE-SEP-A66XJ5Q22M6AZV5X、KUBE-SEP-TYGT5TFZZ2W5DK4V或KUBE-SEP-KQD4HGXQYU3ORDNS链进行处理：

1-A KUBE-SVC-NPX46M4PTMTKRN6Y -m statistic --mode random --probability 0.33332999982 -j KUBE-SEP-A66XJ5Q22M6AZV5X
2-A KUBE-SVC-NPX46M4PTMTKRN6Y -m statistic --mode random --probability 0.50000000000 -j KUBE-SEP-TYGT5TFZZ2W5DK4V
3-A KUBE-SVC-NPX46M4PTMTKRN6Y -j KUBE-SEP-KQD4HGXQYU3ORDNS

而这三条链，其实代表了三条 DNAT 规则。DNAT 规则的作用，就是将 IP 包的目的地址和端口，改成 --to-destination 所指定的新的目的地址和端口。可以看到，这个目的地址和端口，正是后端 Pod 的 IP 地址和端口。而这一切发生在Netfilter的PREROUTING链上，接下来Netfilter就会根据这个目的地址，对数据包进行路由。

1-A KUBE-SEP-A66XJ5Q22M6AZV5X -p tcp -m tcp -j DNAT --to-destination 10.20.126.169:6443
2-A KUBE-SEP-TYGT5TFZZ2W5DK4V -p tcp -m tcp -j DNAT --to-destination 10.28.116.8:6443
3-A KUBE-SEP-KQD4HGXQYU3ORDNS -p tcp -m tcp -j DNAT --to-destination 10.28.126.199:6443

如果目的Pod的IP地址就在本节点，则数据包会被路由回cni网桥，由cni网桥进行转发；如果目的Pod的IP地址在其他节点，则要进行一次容器跨节点通信，跨节点通信的过程可以参考kubernetes网络之CNI与跨节点通信原理这篇文章。

从集群外部访问NodePort服务

以下面这个服务(NodePort为31849)为例：

1➜  ~ k get svc webapp
2NAME     TYPE       CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGE
3webapp   NodePort   192.168.15.113           8081:31849/TCP   319d

kube-proxy会在主机上打开31849端口，并配置一系列iptables规则：

1$ sudo lsof -i:31849
2COMMAND      PID USER   FD   TYPE     DEVICE SIZE/OFF NODE NAME
3kube-prox 253942 root   12u  IPv6 1852002168      0t0  TCP *:31849 (LISTEN)

入口链KUBE-NODEPORTS是KUBE-SERVICES中的最后一条规则：

1-A KUBE-SERVICES -m comment --comment "kubernetes service nodeports; NOTE: this must be the last rule in this chain" -m addrtype --dst-type LOCAL -j KUBE-NODEPORTS

先跳到KUBE-MARK-MASQ链打上特殊记号0x4000/0x4000，这个特殊记号后续在POSTROUTING链中进行SNAT时用到。

1-A KUBE-NODEPORTS -p tcp -m comment --comment "default/webapp:" -m tcp --dport 31849 -j KUBE-MARK-MASQ
2
3-A KUBE-MARK-MASQ -j MARK --set-xmark 0x4000/0x4000

然后跳到KUBE-SVC-BL7FHTIPVYJBLWZN链：

1-A KUBE-NODEPORTS -p tcp -m comment --comment "default/webapp:" -m tcp --dport 31849 -j KUBE-SVC-BL7FHTIPVYJBLWZN

后续的处理流程和上一节描述的相同，直到找到了目的Pod IP。
如果目的Pod IP地址就在本节点，则路由给cni网桥转发；如果目的Pod IP在其他节点，则需要进行容器跨节点通信。注意，这种情形下，本节点相当于网关的角色，在将源数据包转发出去之前，需要进行SNAT，将源数据包的源IP地址，转换为网关（本节点）的IP地址，这样，数据包才可能原路返回，即从目的节点经过本节点返回到实际的k8s集群外部的客户端：

1-A KUBE-POSTROUTING -m comment --comment "kubernetes service traffic requiring SNAT" -m mark --mark 0x4000/0x4000 -j MASQUERADE

这条规则的意思就是：带有0x4000/0x4000这个特殊标记的数据包在离开节点之前，在POSTROUTING链上进行一次SNAT，即MASQUERADE。而这个特殊标记，如前所述，是在外部客户端数据流入节点时打上去的。

总结

从上面的分析中，可以看出来，kube-proxy iptables模式中，最重要的是下面这五条链：

KUBE-SERVICES：ClusterIP方式访问的入口链；
KUBE-NODEPORTS：NodePort方式访问的入口链；
KUBE-SVC-*：相当于一个负载均衡器，将数据包平均分发给KUBE-SEP-*链；
KUBE-SEP-*：通过DNAT将Service的目的IP和端口，替换为后端Pod的IP和端口，从而将流量转发到后端Pod。
KUBE-POSTROUTING：通过对路由到其他节点的数据包进行SNAT，使其能够原路返回。

对于NodePort类型的service，如果本节点上没有目的Pod，则本节点起到的是网关的作用，将数据路由到其他节点。在这种情况下，访问Pod IP的链路会多一跳。我们可以通过将externalTrafficPolicy字段设置为local，当这样本节点上不存在Pod时，FORWARD链上的filter表规则会直接把包drop掉，而不会从本节点转发出去：

1-A KUBE-NODEPORTS -p tcp -m comment --comment "default/webapp:" -m tcp --dport 31849 -j KUBE-XLB-BL7FHTIPVYJBLWZN
2
3-A KUBE-XLB-BL7FHTIPVYJBLWZN -m comment --comment "default/webapp: has no local endpoints" -j KUBE-MARK-DROP
4
5-A KUBE-MARK-DROP -j MARK --set-xmark 0x8000/0x8000
6
7-A KUBE-FIREWALL -m comment --comment "kubernetes firewall for dropping marked packets" -m mark --mark 0x8000/0x8000 -j DROP

kube-proxy的IPVS模式

上述流程描述的是kube-proxy的iptables模式的工作流程，这个模式最大的问题在于：

kube-proxy需要为service配置大量的iptables规则，并且刷新这些规则以确保正确性；
iptables的规则是以链表的形式保存的，对iptables的刷新需要遍历链表

解决办法就是使用IPVS模式的kube-proxy。IPVS是Linux内核实现的四层负载均衡，因此相比于通过配置iptables规则进行“投机取巧”式的负载均衡，IPVS更加专业。IPVS 和iptables一样底层也是基于netfilter，但使用更高效的数据结构（散列表），允许几乎无限的规模扩张。

创建一个service时，IPVS模式kube-proxy会创建一块虚拟网卡，并且把service的ClusterIP绑在网卡上，然后设置这个网卡的后端real server，对应的是EndPoints，并设置负载均衡规则。这样，数据包就会先发送到kube-proxy的虚拟网卡上，然后转发到后端Pod。

IPVS没有SNAT的能力，所以在一些场景下，依然需要依赖iptables。但是使用IPVS模式的kube-proxy，不存在上述两个问题，性能要优于iptables模式。

kube dns

默认DNS策略

Pod默认的dns策略是 ClusterFirst，意思是先通过kubernetes的权威DNS服务器（如CoreDNS）直接解析出A记录或CNAME记录；如果解析失败，再根据配置，将其转发给上游DNS服务器。以CoreDNS为例，它的配置文件Corefile如下所示：

 1➜  ~ kubectl get cm -n kube-system coredns -o yaml
 2apiVersion: v1
 3data:
 4  Corefile: |
 5    .:53 {
 6        errors
 7        health {
 8           lameduck 5s
 9        }
10        ready
11        kubernetes cluster.local in-addr.arpa ip6.arpa {
12           pods insecure
13           fallthrough in-addr.arpa ip6.arpa
14           ttl 30
15        }
16        prometheus :9153
17        forward . /etc/resolv.conf
18        cache 30
19        loop
20        reload
21        loadbalance
22    }
23kind: ConfigMap
24...

第17行使用forward插件配置了上游域名服务器为主机的/etc/resolv.conf中指定的nameserver。

Service和DNS

尽管kubelet在启动容器时，会将同namespace下的Service信息注入到容器的环境变量中：

 1➜  ~ kubectl get svc | grep kubernetes
 2kubernetes                      ClusterIP   192.168.0.1               443/TCP                                             347d
 3
 4➜  ~ kubectl exec -it debug-pod -n default -- env | grep KUBERNETES
 5KUBERNETES_SERVICE_PORT=443
 6KUBERNETES_PORT=tcp://192.168.0.1:443
 7KUBERNETES_PORT_443_TCP_ADDR=192.168.0.1
 8KUBERNETES_PORT_443_TCP_PORT=443
 9KUBERNETES_PORT_443_TCP_PROTO=tcp
10KUBERNETES_PORT_443_TCP=tcp://192.168.0.1:443
11KUBERNETES_SERVICE_PORT_HTTPS=443
12KUBERNETES_SERVICE_HOST=192.168.0.1

但是通常情况下我们使用DNS域名解析的方式进行服务注册和发现。

Kubernetes中的DNS应用部署好以后，会对外暴露一个服务，集群内的容器可以通过访问该服务的Cluster IP进行域名解析。DNS服务的Cluster IP由Kubelet的cluster-dns参数指定。并且在创建Pod时，由Kubelet将DNS Server的信息写入容器的/etc/resolv.conf文件中。

查看resolv.conf文件的配置：

1➜  ~ k exec -it debug-pod -n default -- cat /etc/resolv.conf
2nameserver 192.168.0.2
3search default.svc.cluster.local svc.cluster.local cluster.local
4options ndots:5

nameserver 192.168.0.2这一行即表示DNS服务的地址（Cluster IP）为192.168.0.2。
search这一行表示，如果无法直接解析域名，则会尝试加上default.svc.cluster.local, svc.cluster.local, cluster.local后缀进行域名解析。

其中default是namespace，cluster.local是默认的集群域名后缀，kubelet也可以通过--cluster-domain参数进行配置。

也就是说：

同namespace下，可以通过nslookup + kubernetes解析域名
不同namespace下，可以通过nslookup + kubernetes.default、kubernetes.default.svc、kubernetes.default.svc.cluster.local解析域名

因为dns服务器会帮你补齐全域名：kubernetes.default.svc.cluster.local

{svc name}.{svc namespace}.svc.{cluster domain}就是kubernetes的FQDN格式。

Headless Service的域名解析

无论是kube-dns还是CoreDNS，基本原理都是通过watch Service和Pod，生成DNS记录。常规的ClusterIP类型的Service的域名解析如上所述，DNS服务会返回一个A记录，即域名和ClusterIP的对应关系：

1➜  ~ k exec -it debug-pod -n default -- nslookup kubernetes.default
2Server:		192.168.0.2
3Address:	192.168.0.2#53
4
5Name:	kubernetes.default.svc.cluster.local
6Address: 192.168.0.1

Headless Service的域名解析稍微复杂一点。

ClusterIP可以看作是Service的头，而Headless Service，顾名思义也就是指定他的ClusterIP为None的Service。

直接解析

当你直接解析它的域名时，返回的是EndPoints中的Pod IP列表：

这个EndPoints后端的Pod，不仅可以通过在service中指定selector来选择，也可以自己定义，只要名字和service同名即可。

 1➜  ~ k exec -it debug-pod -n default -- nslookup headless
 2Defaulting container name to debug.
 3Use 'kubectl describe pod/debug-pod -n default' to see all of the containers in this pod.
 4Server:		192.168.0.2
 5Address:	192.168.0.2#53
 6
 7Name:	headless.default.svc.cluster.local
 8Address: 1.1.1.1
 9Name:	headless.default.svc.cluster.local
10Address: 2.2.2.2
11Name:	headless.default.svc.cluster.local
12Address: 3.3.3.3

给Pod生成A记录

如果在Pod.spec中指定了hostname和subdomain，并且subdomain和headleass service的名字相同，那么kubernetes DNS会额外给这个Pod的FQDN生成A记录：

1➜  ~ k exec -it debug-pod -n default -- nslookup mywebsite.headless.default.svc.cluster.local
2Server:		192.168.0.2
3Address:	192.168.0.2#53
4
5Name:	mywebsite.headless.default.svc.cluster.local
6Address: 10.189.97.217

Pod的FQDN是：{hostname}.{subdomain}.{pod namespace}.svc.{cluster domain}

ExternalName Service

ExternalName 类型的Service，kubernetes DNS会根据ExternalName字段，为其生成CNAME记录，在DNS层进行重定向。

1apiVersion:  v1  2kind:  Service  3metadata:  4  name:  external  5  namespace:  default  6spec:  7  type:  ExternalName  8  externalName:  my.example.domain.com

1➜  ~ k exec -it debug-pod -n default -- nslookup external
2Server:		192.168.0.2
3Address:	192.168.0.2#53
4
5external.default.svc.cluster.local	canonical name = my.example.domain.com.
6Name:	my.example.domain.com
7Address: 66.96.162.92

Kubernetes 服务发现

原文：Demystifying Kubernetes service discovery

作者：Nigel Poulton

Kubernetes 服务发现是一个经常让我产生困惑的主题之一。本文分为两个部分：

网络方面的背景知识
深入了解 Kubernetes 服务发现

要了解服务发现，首先要了解背后的网络知识。这部分内容相对浅显，如果读者熟知这一部分，完全可以跳过，直接阅读服务发现部分。

开始之前还有一个需要提醒的事情就是，为了详细描述这一过程，本文略长。

Kubernetes 网络基础

要开始服务发现的探索之前，需要理解以下内容：

Kubernetes 应用运行在容器之中，容器处于 Pod 之内。
每个 Pod 都会附着在同一个大的扁平的 IP 网络之中，被称为 Pod 网络（通常是 VXLAN 叠加网络）。
每个 Pod 都有自己的唯一的 IP 地址，这个 IP 地址在 Pod 网络中是可路由的。

上述三个因素结合起来，让每个应用（应用的组件和服务）无需通过 NAT 之类的网络过程，就能够直接通信。

动态网络

在对应用进行横向扩容时，会在 Pod 网络中加入新的 Pod，新 Pod 自然也伴随着新的 IP 地址；如果对应用进行缩容，旧的 Pod 及其 IP 会被删除。这个过程看起来很是混乱。

应用的滚动更新和撤回也存在同样的情形——加入新版本的新 Pod，或者移除旧版本的旧 Pod。新 Pod 会加入新 IP 到 Pod 网络中，被终结的旧 Pod 会删除其现存 IP。

如果没有其它因素，每个应用服务都需要对网络进行监控，并管理一个健康 Pod 的列表。这个过程会非常痛苦，另外在每个应用中编写这个逻辑也是很低效的。幸运的是，Kubernetes 用一个对象完成了这个过程——Service。

把这个对象叫做 Service 是个坏主意，我们已经用这个单词来形容应用的进程或组件了。

还有一个值得注意的事情：Kubernetes 执行 IP 地址管理（IPAM）职责，对 Pod 网络上已使用和可用的 IP 地址进行跟踪。

Service 带来稳定性

Kubernetes Service 对象在一组提供服务的 Pod 之前创建一个稳定的网络端点，并为这些 Pod 进行负载分配。

一般会在一组完成同样工作的 Pod 之前放置一个 Service 对象。例如可以在你的 Web 前端 Pod 前方提供一个 Service，在认证服务 Pod 之前提供另一个。行使不同职责的 Pod 之前就不应该用单一的 Service 了。

客户端和 Service 通信，Service 负责把流量负载均衡给 Pod。

在上图中，底部的 Pod 会因为伸缩、更新、故障等情况发生变化，而 Service 会对这些变化进行跟踪。同时 Service 的名字、IP 和端口都不会发生变化。

Kubernetes Service 解析

可以把 Kubernetes Service 理解为前端和后端两部分：

前端：名称、IP 和端口等不变的部分。
后端：符合特定标签选择条件的 Pod 集合。

前端是稳定可靠的，它的名称、IP 和端口在 Service 的整个生命周期中都不会改变。前端的稳定性意味着无需担心客户端 DNS 缓存超时等问题。

后端是高度动态的，其中包括一组符合标签选择条件的 Pod，会通过负载均衡的方式进行访问。

这里的负载均衡是一个简单的 4 层轮询。它工作在连接层面，所以同一个连接里发起的所有请求都会进入同一个 Pod。因为在 4 层工作，所以对于 7 层的 HTTP 头或者 Cookie 之类的东西是无法感知的。

小结

应用在容器中运行，在 Kubernetes 中体现为 Pod 的形式。Kubernetes 集群中的所有 Pod 都处于同一个平面的 Pod 网络，有自己的 IP 地址。这意味着所有的 Pod 之间都能直接连接。然而 Pod 是不稳定的，可能因为各种因素创建和销毁。Kubernetes 提供了稳定的网络端点，称为 Service，这个对象处于一组相似的 Pod 前方，提供了稳定的名称、IP 和端口。客户端连接到 Service，Service 把流量负载均衡给 Pod。

接下来聊聊服务发现。

深入了解 Kubernetes 服务发现

服务发现实际上包含两个功能点：

服务注册
服务发现

服务注册

服务注册过程指的是在服务注册表中登记一个服务，以便让其它服务发现。

Kubernetes 使用 DNS 作为服务注册表。

为了满足这一需要，每个 Kubernetes 集群都会在 kube-system 命名空间中用 Pod 的形式运行一个 DNS 服务，通常称之为集群 DNS。

每个 Kubernetes 服务都会自动注册到集群 DNS 之中。

注册过程大致如下：

向 API Server 用 POST 方式提交一个新的 Service 定义；
这个请求需要经过认证、鉴权以及其它的准入策略检查过程之后才会放行；
Service 得到一个 ClusterIP（虚拟 IP 地址），并保存到集群数据仓库；
在集群范围内传播 Service 配置；
集群 DNS 服务得知该 Service 的创建，据此创建必要的 DNS A 记录。

上面过程中，第 5 个步骤是关键环节。集群 DNS 使用的是 CoreDNS，以 Kubernetes 原生应用的形式运行。CoreDNS 实现了一个控制器，会对 API Server 进行监听，一旦发现有新建的 Service 对象，就创建一个从 Service 名称映射到 ClusterIP 的域名记录。这样 Service 就不必自行向 DNS 进行注册，CoreDNS 控制器会关注新创建的 Service 对象，并实现后续的 DNS 过程。

DNS 中注册的名称就是 metadata.name，而 ClusterIP 则由 Kubernetes 自行分配。

Service 对象注册到集群 DNS 之中后，就能够被运行在集群中的其它 Pod 发现了。

Endpoint 对象

Service 的前端创建成功并注册到服务注册表（DNS）之后，剩下的就是后端的工作了。后端包含一个 Pod 列表，Service 对象会把流量分发给这些 Pod。

毫无疑问，这个 Pod 列表需要是最新的。

Service 对象有一个 Label Selector 字段，这个字段是一个标签列表，符合列表条件的 Pod 就会被服务纳入到服务的负载均衡范围之中。参见下图：

Kubernetes 自动为每个 Service 创建 Endpoints 对象。Endpoints 对象的职责就是保存一个符合 Service 标签选择器标准的 Pod 列表，这些 Pod 将接收来自 Service 的流量。

下面的图中，Service 会选择两个 Pod，并且还展示了 Service 的 Endpoints 对象，这个对象里包含了两个符合 Service 选择标准的 Pod 的 IP。

在后面我们将解释网络如何把 ClusterIP 流量转发给 Pod IP 的过程，还会引用到 Endpoints 对象。

服务发现

假设我们在一个 Kubernetes 集群中有两个应用，my-app 和 your-app，my-app 的 Pod 的前端是一个名为 my-app-svc 的 Service 对象；your-app Pod 之前的 Service 就是 your-app-svc。

这两个 Service 对象对应的 DNS 记录是：

my-app-svc：10.0.0.10
your-app-svc：10.0.0.20

要使用服务发现功能，每个 Pod 都需要知道集群 DNS 的位置才能使用它。因此每个 Pod 中的每个容器的 /etc/resolv.conf 文件都被配置为使用集群 DNS 进行解析。

如果 my-app 中的 Pod 想要连接到 your-app 中的 Pod，就得向 DNS 服务器发起对域名 your-app-svc 的查询。假设它们本地的 DNS 解析缓存中没有这个记录，则需要把查询提交到集群 DNS 服务器。会得到 you-app-svc 的 ClusterIP（VIP）。

这里有个前提就是 my-app 需要知道目标服务的名称。

至此，my-app 中的 Pod 得到了一个目标 IP 地址，然而这只是个虚拟 IP，在转入目标 Pod 之前，还有些网络工作要做。

网络

一个 Pod 得到了 Service 的 ClusterIP 之后，就尝试向这个 IP 发送流量。然而 ClusterIP 所在的网络被称为 Service Network，这个网络有点特别——没有路由指向它。

因为没有路由，所有容器把发现这种地址的流量都发送到了缺省网关（名为 CBR0 的网桥）。这些流量会被转发给 Pod 所在节点的网卡上。节点的网络栈也同样没有路由能到达 Service Network，所以只能发送到自己的缺省网关。路由到节点缺省网关的数据包会通过 Node 内核——这里有了变化。

回顾一下前面的内容。首先 Service 对象的配置是全集群范围有效的，另外还会再次说到 Endpoints 对象。我们要在回顾中发现他们各自在这一过程中的职责。

每个 Kubernetes 节点上都会运行一个叫做 kube-proxy 的系统服务。这是一个基于 Pod 运行的 Kubernetes 原生应用，它所实现的控制器会监控 API Server 上 Service 的变化，并据此创建 iptables 或者 IPVS 规则，这些规则告知节点，捕获目标为 Service 网络的报文，并转发给 Pod IP。

有趣的是，kube-proxy 并不是一个普遍意义上的代理。它的工作不过是创建和管理 iptables/IPVS 规则。这个命名的原因是它过去使用 unserspace 模式的代理。

每个新 Service 对象的配置，其中包含它的 ClusterIP 以及 Endpoints 对象（其中包含健康 Pod 的列表），都会被发送给每个节点上的 kube-proxy 进程。kube-proxy 会创建 iptables 或者 IPVS 规则，告知节点捕获目标为 Service ClusterIP 的流量，并根据 Endpoints 对象的内容转发给对应的 Pod。

也就是说每次节点内核处理到目标为 Service 网络的数据包时，都会对数据包的 Header 进行改写，把目标 IP 改为 Service Endpoints 对象中的健康 Pod 的 IP。

原本使用的 iptables 正在被 IPVS 取代（Kubernetes 1.11 进入稳定期）。长话短说，iptables 是一个包过滤器，并非为负载均衡设计的。IPVS 是一个 4 层的负载均衡器，其性能和实现方式都比 iptables 更适合这种使用场景。

总结

需要消化的内容很多，简单回顾一下。

创建新的 Service 对象时，会得到一个虚拟 IP，被称为 ClusterIP。服务名及其 ClusterIP 被自动注册到集群 DNS 中，并且会创建相关的 Endpoints 对象用于保存符合标签条件的健康 Pod 的列表，Service 对象会向列表中的 Pod 转发流量。

与此同时集群中所有节点都会配置相应的 iptables/IPVS 规则，监听目标为 ClusterIP 的流量并转发给真实的 Pod IP。这个过程如下图所示：

一个 Pod 需要用 Service 连接其它 Pod。首先向集群 DNS 发出查询，把 Service 名称解析为 ClusterIP，然后把流量发送给位于 Service 网络的 ClusterIP 上。然而没有到 Service 网络的路由，所以 Pod 把流量发送给它的缺省网关。这一行为导致流量被转发给 Pod 所在节点的网卡，然后是节点的缺省网关。这个操作中，节点的内核修改了数据包 Header 中的目标 IP，使其转向健康的 Pod。

最终所有 Pod 都是在同一个可路由的扁平的叠加网络上，剩下的内容就很简单了。

kubeproxy service nodeport 底层链路详解

最近准备开发一款多集群容器网络通信的工具，需要了解网络相关的知识。由于跨k8s集群的容器网络通了之后，还需要解决跨集群网络的服务发现及`Service`到`PodIP`的负载均衡问题。因此，抱着学习的目的，研究了一下kube-proxy的原理。

我们都知道，kube-proxy是k8s用于处理`Service`到`Pod`的负载均衡的组件。目前k8s常用的负载均衡方式有iptables和ipvs两种（usersapce模式已经被弃用），因此我将使用iptables和ipvs两种模式分别部署两套集群，使用iptables，ipvs，ipset等命令观测看到的现象，并分析kube-proxy的实现原理。

首先部署iptables模式的k8s集群，集群版本为1.23，集群有两个节点，并部署nginx的服务。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  selector:
    matchLabels:
      app: nginx
  replicas: 3
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx:latest
        ports:
        - containerPort: 80
---
apiVersion: v1
kind: Service
metadata:
  name: nginx-service
spec:
  selector:
    app: nginx
  ports:
  - name: http
    port: 80
    targetPort: 80
  type: ClusterIP

此时，三个nginx的副本的服务已经起来。

ClusterIP

上面我们部署了三个副本的nginx的工作负载，并通过`ClusterIP`类型的`Service`提供服务。下面我们看下`ClusterIP`类型的`Service`的iptables的实现方式。首先我们部署的`Service`的`ClusterIP`是`10.233.201.203`，这个地址是ping不通的，因为`ClusterIP`是个虚拟ip，虚拟ip关联着后端多个`Endpoint`，也就是pod实际提供服务的地址，我们可以看下这个`Service`对应的`Endpoint`。

可以看到Endpoints为三个pod副本实际提供服务的地址，我们在node1节点上尝试curl 一下上面的ClusterIP,执行 curl 10.233.201.203

下面我们分析curl这个`ClusterIP`的网络包的流转过程。首先看iptables的nat表的`PREROUTING`链，这个链作用于路由表之前。执行`iptables -nvL -t nat`可以看到有`KUBE-SERVICES`这条链

执行iptables -nv -t nat -L KUBE-SERVICES 可以看到这条链的规则

继续执行iptables -nv -t nat -L KUBE-SVC-6IM33IEVEEV7U3GP

可以看到nginx的service具有这样几条iptables规则。第一条规则是Masquerade伪装，即将不在10.222.0.0/16网段的源地址ip转换为经过的路由节点或经过的网卡的ip，由于我们在本地发起curl请求，源地址是宿主机地址，因此会走这条路由规则，KUBE-MARK-MASQ 链用于标记需要进行 Masquerade（即需要将源 IP 地址转换为经过路由的节点的 IP 地址）的数据包。KUBE-MARK-MASQ 链中的 MARK all – * * 0.0.0.0/0 0.0.0.0/0 MARK or 0x4000 这一行会在通过该链的所有数据包上设置防火墙标记。具体来说，它将标记设置为值 0x4000，这是一个比特标志，用于表示该数据包应进行 Masquerade。稍后 POSTROUTING 链将使用该防火墙标记，执行数据包的实际网络地址转换（NAT）和 Masquerade。第二条到第四条规则是利用了iptables的statistic模块的random模式，也就是说当访问ClusterIP时，会根据iptables的规则随机匹配到不同的target。第二条规则是说有0.3333的概率匹配到KUBE-SEP-H2GUZ3BVVZUUMDYH,我们看下这条链的规则iptables -vn -t nat -L KUBE-SEP-H2GUZ3BVVZUUMDYH

可以看到这条链有两条规则，其中第二条DNAT规则就是将目的地址转化为10.222.154.5:80 这个地址，也就是我们上面的Endpoint。第一条规则是一条Masquerade规则，是用于回包的时候做源地址转换的，这里可以先不管。KUBE-SEP的第三条规则类似第二条，当第二条规则有66%的概率没有匹配到时，就有50%的概率匹配到第三条规则到另外一个Endpoint。第四条规则在第二条规则有50%的概率没有匹配到时，会进入这条规则。

总结一下：当发起一个到`ClusterIP`的请求时，`PREROUTING`规则先起作用，然后通过iptables的random模式随机的匹配多条到pod的DNAT规则，从上文也可以看到，这是一个O(n)的算法，也就是工作负载有几个副本，就会创建几个到工作副本的dnat规则和回包时的`Masquerade`规则，当pod数量很多的时候，显然会对k8s集群的压力很大。当`PREROUTING`执行了DNAT之后，后面就是正常的到`PodIP`的通信过程，这个过程是由CNI插件控制面的，这里不再详细描述。我们可以通过抓包看到上面的整个分析过程。执行命令 `tcpdump -i any -n host 10.222.154.5`。其中`10.222.154.5` 是其中一个pod的地址，抓包截图如下：

当 curl service的时候，抓包可以看到上面的内容，说明iptables的DNAT生效之后，发往ClusterIP的包实际到了其中某一个podIP。

NodePort

上面我们分析了`ClusterIP`的原理，现在继续看下`NodePort`的，将`Service`改成`NodePort`类型,暴漏的端口为30254，继续看下iptables链

可以看到，相比于ClusterIP的链规则，多了一条KUBE-NODEPORTS的链，当访问 http://node2:30254的时候，前面的链没有匹配到，会进入最后一条KUBE-NODEPORTS链，继续看下这条链的规则。

这条链的规则很简单，当目的端口是30254的时候，iptables规则走向了KUBE-SVC-6IM33IEVEEV7U3GP，这个跟上面的ClusterIP的链是一致的，继续看下这条链有没有什么变化

可以看到除了增加了一条KUBE-MARK-MASQ其他没有什么变化。而这条链的规则也很简单，只不过是给网络包增加了标记而已，如下图所示。

从上面KUBE-SERVICES这条链的规则可以看到，NodePort的规则是在最下面的，而iptables规则的匹配是按顺序的，这是否也意味了NodePort的Service的性能不如ClusterIP？结果不得而知，至少从现象分析上是这个结果。从上面的分析可以发现，NodePort类型的Service流量直接从本地的NodePort通过iptables规则DNAT到PodIP，没有经过ClusterIP。

IPVS模式实践

从上面iptables的分析来看，集群内iptables规则的数量跟集群内pod的数量成正比。不难想象，当集群内pod数量很大的情况，iptables规则数量很大，而Linux系统不断地刷新成百上千条iptables规则会大量消耗系统的CPU资源，甚至引起宿主机的卡死。而IPVS模式则有效解决了这个问题，在分析IPVS模式前，我们需要先了解下ipset和lvs，这两个工具都是linux系统自带的功能。

ipvs模式也是基于netfilter，对比iptables模式在大规模Kubernetes集群有更好的扩展性和性能，支持更加复杂的负载均衡算法(如：最小负载、最少连接、加权等)，支持Server的健康检查和连接重试等功能。ipvs依赖于iptables，使用iptables进行包过滤、SNAT、masquared。ipvs将使用ipset需要被DROP或MASQUARED的源地址或目标地址，这样就能保证iptables规则数量的固定，我们不需要关心集群中有多少个Service了。

kubernetes中ipvs实现原理图：

为什么每个svc会在ipvs网卡增加vip地址：

由于 IPVS 的 DNAT 钩子挂在 INPUT 链上，因此必须要让内核识别 VIP 是本机的 IP。这样才会过INPUT 链，要不然就通过OUTPUT链出去了。k8s 通过设置将service cluster ip 绑定到虚拟网卡kube-ipvs0。

①因为service cluster ip 绑定到虚拟网卡kube-ipvs0上，内核可以识别访问的 VIP 是本机的 IP.

②数据包到达INPUT链.

③ipvs监听到达input链的数据包，比对数据包请求的服务是为集群服务，修改数据包的目标IP地址为对应pod的IP，然后将数据包发至POSTROUTING链.

④数据包经过POSTROUTING链选路，将数据包通过flannel网卡发送出去。从flannel虚拟网卡获得源IP.

⑤pod接收到请求之后，构建响应报文，改变源地址和目的地址，返回给客户端。

ipset和LVS

ipset: ipset通过一个KUBE-CLUSTER-IP的实例保存了所有的ClusterIP，当处理源地址伪装，给网络包增加标记这种通用操作时，可以用iptables的match-set 参数统一处理，而不是一个Service配置一条规则，将原有的iptables的链表算法o（n）的复杂度降低到o（1），大大减轻了Linux系统的CPU压力。我们可以通过ipset list 查看本地的ipset集合。

LVS：LVS是linux从内核版本2.4之后内置的功能，是linux自带的负载均衡软件，工作在4层，和iptables类似都是基于netfilter，但是lvs更多的是利用它做负载均衡，他的负载均衡主要是利用了netfilter在INPUT链上做DNAT，更多详细的关于LVS的介绍可以参考：https://www.cnblogs.com/wdliu/p/10279091.html 。我们可以使用ipvsadm工具管理系统的lvs实例。使用ipvsadm查看当前系统所有的lvs负载均衡实例：

ClusterIP实践

简单了解了ipset和lvs之后，我们分析了IPVS模式的kube-proxy的实现方式，首先和上面一样，部署了一个ClusterIP的服务。

查看当前的iptables规则 iptables -nv -t nat -L KUBE-SERVICES

可以看到有三条nat规则，第一条和上面一样，给网络包加了标记，并进行MASQUERADE伪装，，第一条的完整的iptables规则可以通过 iptables-save命令看到：

iptables -A KUBE-SERVICES ! -s 10.222.0.0/16 -m comment --comment "Kubernetes service cluster ip + port for masquerade purpose" -m set --match-set KUBE-CLUSTER-IP dst,dst -j KUBE-MARK-MASQ

第三条规则是一条ACCEPT规则，意思是对于目的地址为KUBE-CLUSTER-IP集合中的IP地址和端口的流量，直接接受（ACCEPT）并转发这些流量。可以通过ipset命令查看这个集合中的ip地址。执行ipset list KUBE-CLUSTER-IP可以看到包括我们创建的nginx的Service，所有的这个集群的svc的ClusterIP都在里面

我们知道DNAT只能在PREROUTING和INPUT链上进行，通过查看下面的几个链的规则，发现KUBE-SERVICES里面并没有像iptables一样的ClusterIP 到PodIP的DNAT规则，第一条规则是源地址伪装和加标记，第二条规则是关于NodePort的，先不管，第三条是一条ACCEPT规则。

那ClusterIP到PodIP的负载均衡是如何实现的呢，答案是ipvs。上面说过，我们可以使用ipvsadm这个命令查看当前的负载均衡实例数，可以看到这样的一条规则

它显示了 TCP 服务节点 node2:http 的转发规则，以及这些规则所指向的后端服务器的 IP 地址和端口号。

具体来说，每行输出表示一个后端服务器，包括以下信息：

•IP 地址和端口号：后端服务器的 IP 地址和端口号，这里分别为 10.222.44.2 和 http（一般是 80 端口）。

•Masq：表示使用了 NAT 转发方式（即使用负载均衡器的 IP 地址作为源地址），而非 DR 或 TUN 转发方式。

•1：表示这个后端服务器的权重为 1，即所有请求都会被平均分配到每个服务器上。

•0：表示这个后端服务器当前的连接数为 0。

•0：表示这个后端服务器的状态为 Active。

执行 ipvsadm -S -n 可以看到类似的结果

-A 添加了一个Service，-a则添加了这个Service后面的server。

根据之前的先验知识，ipvs模式的k8s会在每个节点存在一个kube-ipvs0的虚拟网卡，查看 ip a发现确实存在

并且，这个网卡有三个ip地址，并且这三个ip地址是集群内所有的Service的ClusterIP，10.233.63.187就是我们部署的nginx的Service。因为Service的ClusterIP都存在kube-ipvs0这个虚拟网卡里，因此理论上，ipvs模式的ClusterIP是能ping通的，事实上确实是这样的。

这时，就有这样的问题：这个虚拟网卡的作用是什么，如果去掉这个虚拟网卡会发生什么？

带着这样的问题，我们继续看下iptables的nat表，上面我们已经看过了PREROUTING链和INPUT链

INPUT链里面是空的，而PREROUTING链里面的KUBE-SERVICE里也没有实质的DNAT或SNAT规则。由于在iptables中INPUT和OUTPUT是用于本机内的地址转换(也就是通过本机的网卡转发数据包)，所以我们继续看下OUTPUT链。

OUTPUT链里也包含了KUBE-SERVICE这条链，上面已经说过了KUBE-SERVICE里面没有地址转换的规则，这里不再介绍。那kube-ipvs0这个网卡的作用是什么呢，其实很简单，lvs也是基于netfilter的dnat实现的负载均衡，并且挂在INPUT链上，INPUT只能处理转发到本地网卡的网络包，因此本机上必须存在这样的一个虚拟网卡，这样ipvs才能实现DNAT功能，将网络包转发到目的pod，而这个虚拟网卡包含了所有的Service的地址，当访问这个虚拟网卡的时候，由于已经配置了ipvs的规则，所以会被lvs将网络流量转发到负载均衡实例的服务端也就是pod中，跟nginx，haproxy这种能提供负载均衡的组件来相比，lvs的负载均衡处于内核态，不需要指定端口，而处于用户态的nginx，haproxy等都需要提供一个端口去实现负载均衡。

下面我们结合上面看到的各种现象，总结分析下本地curl `ClusterIP`的完整过程：

1.本地发起到ClusterIP请求时，源地址为宿主机ip，目的地址为ClusterIP，因为目的地址为ipset中记录的网络包，所以允许通过（上面说的ACCEPT规则），源地址被伪装成宿主机ip，并且加上了0x4000的标记。

2.网络包到达了kube-ipvs0网卡（网卡里保存着所有的ClusterIP），由于ipvs的底层的netfilter的INPUT规则的作用，根据ipvs的负载均衡策略如轮询，哈希等将目的地址转换成某一个PodIP。

3.经过本地的路由表的作用，网络包经过calico的网卡发往具体的pod，pod开始回包，源地址为PodIP，目的地址为宿主机IP，具体需要经过cni插件涉及的网卡如calixxxx等，不在细说。

4.OUTPUT规则由于源地址不是pod cidr网段，所以不添加标记。

5.POSTROUTING链会判断是否需要进行源地址转换，如果是pod间互访，会将源地址由PodIP转换成网络的出口的网卡的ip，并且POSTROUTING链会判断包是否含有之前的添加的0x4000标记，并做相应的处理，这里不再细说。

上面是宿主机到pod的通信过程，pod到pod的过程更复杂点，但是大同小异，这里不再细说。

NodePort实践

上面我们探讨了`ClusterIP`类型的`Service`在ipvs模式下的实践方式，可以发现，利用ipset让iptables可以处理通用的源地址伪装及添加标记，可以大大减少功能类似的iptables规则。同时，利用一个虚拟网卡，可以使lvs通过`INPUT`链上的规则完成`ClusterIP`到`PodIP`的负载均衡，这种设计大大减轻了iptables规则数量多大导致的k8s的性能瓶颈。下面，基于上一章的内容，我们继续看下`NodePort`的实现方式。

首先将上面部署的Service改成Nodeport模式。查看PREROUTING链上的KUBE-SERVICE链

当通过Nodeport方式访问时，目的地址不在KUBE-CLUSTER-IP这个ipset集合里，因此不会走第一条和第三条规则，会经过第二条规则，看下第二条规则的内容。

当访问KUBE-NODE-PORT-TCP这个ipset集合中的地址时，会进行源地址伪装。继续看下ipset中这个集合的内容，其中32390就是我们的Service的NodePort端口。

`PREROUTING`链的实现就这么多，后面就是跟`ClusterIP`的`Service`一样的流程，lvs在`INPUT`链上进行负载均衡，只不过是直接从宿主机ip到`PodIP`的DNAT，见截图

DNAT之后，POSTROUTING过程跟ClusterIP一样的。

总结

本文介绍了kube-proxy的两种主要的实现方式：iptables和ipvs，并结合案例，分析了`ClusterIP`和`NodePort`类型的`Service`的实现原理。通过上文的分析，大家可以对iptables和ipvs的两种实现方式进行对比并比较优劣。可以肯定的是，ipvs大大提高了k8s的水平扩展能力，相信随着k8s的部署规模越来越大，应用越来越广泛，ipvs必然会取代iptables成为k8s Service负载均衡的默认实现.

参考文章：

kube-proxy原理剖析

Kubernetes 【网络组件】kube-proxy使用详解

k8s学习：kube-proxy实现原理

kubernetes service 和 kube-proxy详解

你可能感兴趣的:(kubernetes)

react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
Kubernetes数据持久化看清所苡看轻 kubernetes(k8s)emptyDir HostPath pv pvc kubernetes
在k8s中，Volume（数据卷）存在明确的生命周期（与包含该数据卷的容器组（pod）相同）。因此Volume的生命周期比同一容器组（pod）中任意容器的生命周期要更长，不管容器重启了多少次，数据都被保留下来。当然，如果pod不存在了，数据卷自然退出了。此时，根据pod所使用的数据卷类型不同，数据可能随着数据卷的退出而删除，也可能被真正持久化，并在下次容器组重启时仍然可以使用。从根本上来说，一个数
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
Kubernetes的3种数据持久化方式 Seal^_^ 【云原生】容器化与编排技术持续集成 #Kubernetes kubernetes 容器云原生 EmptyDir 面试 HostPath
Kubernetes的3种数据持久化方式1.EmptyDir2.HostPath3.PersistentVolume(PV)TheBegin点点关注，收藏不迷路Kubernetes提供了几种数据持久化方式，以满足不同场景的需求：1.EmptyDir用途：临时数据存储，Pod内容器间共享。特点：生命周期与Pod相同，Pod删除时数据也删除。2.HostPath用途：访问宿主机特定文件或目录。特点：增
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
k8s中Service暴露的种类以及用法听说唐僧不吃肉 K8S kubernetes 容器云原生
一、说明在Kubernetes中，有几种不同的方式可以将服务（Service）暴露给外部流量。这些方式通过定义服务的spec.type字段来确定。二、详解1.ClusterIP定义：默认类型，服务只能在集群内部访问。作用：通过集群内部IP地址暴露服务。示例：spec:type:ClusterIPports:-port:80targetPo
Kubernetes 自定义控制器开发 IT回忆录 Kubenetes kubernetes
目录前言一、CRD二、创建数据库表（Mysql）二、控制器开发1.使用kubernetes的examplecontroller模板2.在controller.go中新增数据表监听方法3.修改tools工具生成资源对象结构体定义这里记录开发k8s控制器的一般方式，controller开发主要使用k8s提供的client-go库进行。前言Controller监听集群内部资源对象的变化，编辑资源对象(增
用kubedam搭建的k8s证书过期处理方法我滴鬼鬼呀wks k8s 1024程序员节
kubeadm部署的k8s证书过期1、查看证书过期时间kubeadmalphacertscheck-expiration若证书已经过期无法试用kubectl命令建议修改服务器时间到未过期的时间段2、配置kube-controller-manager.yaml文件cat/etc/kubernetes/manifests/kube-controller-manager.yamlapiVersion:v
k8s证书过期问题处理 olina_qin kubernetes 容器云原生
k8s证书过期问题处理opensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-dateskubeadmcertsrenewallsystemctlrestartkubeleopensslx509-in/etc/kubernetes/pki/apiserver.crt-noout-text|grep"NotAfter"cp/etc/kubernet
Kubernetes Ingress 控制器（Nginx）安装与使用教程农优影
KubernetesIngress控制器（Nginx）安装与使用教程kubernetes-ingressNGINXandNGINXPlusIngressControllersforKubernetes项目地址:https://gitcode.com/gh_mirrors/ku/kubernetes-ingress1.项目目录结构及介绍在nginxinc/kubernetes-ingress仓库中，
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
Cloud Native Weekly | 华为云抢先发布Redis5.0，红帽宣布收购混合云提供商 weixin_34302561 数据库 devops 大数据
1——华为云抢先发布Redis5.02——DigitalOceanK8s服务正式上线3——红帽宣布收购混合云提供商NooBaa4——微软发布多项AzureKubernetes服务更新1华为云抢先发布Redis5.012月17日，华为云在DCS2.0的基础上，快人一步，抢先推出了新的Redis5.0产品，这是一个崭新的突破。目前国内在缓存领域的发展普遍停留在Redis4.0阶段，华为云率先发布了Re
（k8s）Kubernetes 从0到1容器编排之旅道不贱卖，法不轻传 kubernets kubernetes 容器云原生
一、引言在当今数字化的浪潮中，Kubernetes如同一艘强大的航船，引领着容器化应用的部署与管理。它以其卓越的灵活性、可扩展性和可靠性，成为众多企业和开发者的首选。然而，要真正发挥Kubernetes的强大威力，仅仅掌握基本操作是远远不够的。本文将带你深入探索Kubernetes使用过程中的奇技妙法，为你开启一段优雅的容器编排之旅。二、高级资源管理之精妙艺术1.资源配额与限制：雕琢资源之美•Ku
【K8S】kubernetes集群架构与组件奇奇怪怪^ 云 Linux IT 运维服务器 linux
文章目录【K8S】kubernetes集群架构与组件kubernetes组件**master组件**node组件整体流程POD终止过程【K8S】kubernetes集群架构与组件kubernetes组件K8S是属于主从设备模型(Master-slave架构)，即有Master节点负责集群的调度、管理和运维，Slave节点是集群中的运算工作负载节点在K8S中，主节点一般被称为Master节点，而从节
K8S学习笔记02——K8S组件沉淅尘 #Docker #K8S kubernetes
Kubernetes组件一、控制平面组件（ControlPlaneComponents）(1)kube-apiserver(2)etcd(3)kube-scheduler(4)kube-controller-manager(5)cloud-controller-manager二、Node组件1.kubelet2.kube-proxy3.容器运行时（ContainerRuntime）三、插件（Add
Kubernetes——组件窒息う Kubernetes kubernetes 容器
文章目录K8S的优势核心架构角色与功能集群图例K8S的优势能管理大量跨主机容器快速部署应用快速扩展应用无缝对接新的应用节省资源，优化硬件资源的使用核心架构master（管理节点）node（计算节点）images（镜像节点）角色与功能Master功能提供集群的控制对集群进行全局决策检测和响应集群事件Master节点核心组件APIServer是整个系统的对外接口，提供客户端和其他组件调用后端元数据存储
Kubernetes组件汉只只网络 docker 大数据分布式 hadoop
Kubernetes核心组件Kubernetes定义了一组构建块，它们可以共同提供部署、维护和扩展应用程序的机制。组成Kubernetes的组件设计为松耦合和可扩展的，这样可以满足多种不同的工作负载。可扩展性在很大程度上由KubernetesAPI提供——它被作为扩展的内部组件以及Kubernetes上运行的容器等使用。Kubernetes主要由以下几个核心组件组成：etcd保存了整个集群的状态；
【Linux 从基础到进阶】Kubernetes 集群搭建与管理爱技术的小伙子 Linux从基础到进阶 linux kubernetes 运维
Kubernetes集群搭建与管理Kubernetes（简称K8s）是一个用于自动化部署、扩展和管理容器化应用程序的开源平台。它提供了容器编排功能，能够管理大量的容器实例，并支持应用的自动扩展、高可用性和自愈能力。本文将详细介绍如何在CentOS和Ubuntu系统上安装和配置Kubernetes集群，并讲解Kubernetes的基本概念和管理操作。1.Kubernetes基础概念在了解如何搭建Ku
【Kubernetes】常见面试题汇总（十三） summer.335 Kubernetes kubernetes 容器云原生
目录39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？40.简述Kuberneteskubelet的作用？41.简述Kuberneteskubelet监控Worker节点资源是使用什么组件来实现的？39.简述KubernetesScheduler使用哪两种算法将Pod绑定到worker节点？KubernetesScheduler根据如下两种调度算法将Po
Ansible自动化部署kubernetes集群 theo.wu kubernetes ansible 自动化
机器环境介绍1.1.机器信息介绍IPhostnameapplicationCPUMemory192.168.204.129k8s-master01etcd，kube-apiserver，kube-controller-manager，kube-scheduler,kubelet,kube-proxy,containerd2C4G192.168.204.130k8s-worker01etcd，kub
K8S - Emptydir - 取代ELK 使用fluentd 构建logging saidcar nvd11 K8S kubernetes
由于k8s的无状态service通常部署在多个POD中，实现多实例面向高并发。但是k8s本身并没有提供集中查询多个pod的日志的功能其中1个常见方案就是ELK.本文的方案是利用fluentdsidecar和emptydir把多个pod的日志导向到bigquery的table中。Emptydir的简介Kubernetes中的EmptyDir是一种用于容器之间共享临时存储的空目录卷类型。EmptyDi
kubernetes里面那些事————控制器背锅攻城师 kubernetes kubernetes 容器云原生
资源-控制器一，控制器作用二，控制器类型2.1，Deployment：无状态应用部署2.2，DaemonSet：确保所有Node运行同一个pod2.3，StatefulSet：有状态应用部署2.4，Job：一次性任务2.5，CronJob：定时任务2.6，pod2.7，service2.8，replicaset2.9，endpoints三，控制器yaml应用3.1，Deployment3.2，Da
kubernetes里面那些事—————存储背锅攻城师 kubernetes 容器云原生
常用数据卷类型一，emptyDir1.1，emptyDir概念1.2，应用场景1.3，yaml示例二，hostPath2.1，hostPath概念2.2，应用场景2.3，yaml示例三，congfigmap3.1，configmap的作用3.2，注意事项：3.3，使用configmap创建java项目配置文件3.4，subPath应用3.5，configmap作为环境变量四，secret4.1，s
kubernetes-flannel组件的安装方式背锅攻城师 kubernetes kubernetes
使用flannel网络数据转发的过程数据->源容器->宿主机docker0虚拟网卡->flannel0虚拟网卡（UDP封装->etcd->目标容器所在宿主机flannel0->目标容器所在宿主机的docker0虚拟网卡->目标容器文章目录二进制安装flannelyaml文件部署flannel二进制安装flannel一，原有的二进制etcd集群添加配置信息#[Member]ETCD_NAME="et
深入理解Kubernetes：kube-scheduler源码解析 mujingluo kubernetes 容器云原生
Kubernetes的调度器（kube-scheduler）是整个系统中至关重要的组件，它负责将待调度的Pods分配到合适的节点上。本文将深入分析kube-scheduler的源码，揭示其内部工作机制。kube-scheduler的核心功能kube-scheduler的核心功能包括：监听Pod变化：通过KubernetesAPI监听所有未调度的Pods。过滤（Filtering）：根据一系列规则（
开源项目 Kubernetes 源码探索与部署指南邹滢朦
开源项目Kubernetes源码探索与部署指南kubernetesThisistherepothattracksallpatchestotheOpenShiftdistributionofKubernetesonbranchescorrespondingtoOpenShiftreleases.Seehttps://github.com/openshift/kubernetes/blob/maste
【2023年】云计算金砖牛刀小试4 geekgold 云计算 linux 容器 jenkins kubernetes
容器云问题1.Kubernetes集群支持Pod优先级抢占，通过抢占式调度策略来实现同一个Node节点内部的Pod对象抢占。在master节点/root目录下编写YAML文件schedule.yaml创建一个抢占式调度策略，具体要求如下：（1）抢占式调度策略名称：high-scheduling；（2）优先级为1000000；（3）不要将该调度策略设置为默认优先调度策略。vischedule.yam
【Kubernetes】(K8S)彻底卸载详细教程哒哒-blog Kubernetes kubernetes 容器云原生
以下全部操作都是使用root用户进行（非root用户可以使用sudo），并且全部命令都需要在Kubernetes集群的所有节点分别执行：第一步、停止K8S所有节点执行：123systemctlstopkubeletsystemctlstopetcdsystemctlstopdocker第二步、清空K8S集群设置所有节点执行：1kubeadmreset-f第三步、删除K8S相关软件所有节点执行：12
二进制方式部署K8s高可用集群麻辣头马头 kubernetes 容器云原生运维服务器 docker 网络
1二进制方式部署K8s高可用集群1.1kubeadm和二进制安装k8s适用场景分析kubeadm是官方提供的开源工具，是一个开源项目，用于快速搭建kubernetes集群，目前是比较方便和推荐使用的。kubeadminit以及kubeadmjoin这两个命令可以快速创建kubernetes集群。Kubeadm初始化k8s，所有的组件都是以pod形式运行的，具备故障自恢复能力。kubeadm是工具，
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比