kube-dns配置注意及问题排查

基础的k8s集群可以通过flannel的网络ip地址工作，但要扩展addons的service，都要通过域名来连通，因为各个镜像的配置文件中是不可能把ip写死在文件中的，但域名是可以不变的。因此，一个k8s集群中kube-dns的配置是必要的。

下面介绍配置kube-dns，需要注意的地方，验证及问题排查过程。

在/etc/resolv.conf文件中配置短域补齐，比如cluster.local，这里必须要与skydns-rc.yaml.sed文件中的domain参数一致。

1、看kube-dns的pod内3个容器是否全部running

kubectl get pods --namespace=kube-system -l k8s-app=kube-dns

2、如果全部running，看日志是否有异常

可以通过命令，也可以通过kube dashboard。

3、若日志无明显异常，验证healthz是否能够解析完整域和短域

完整域

kubectl exec -n kube-system -ti kube-dns-v20-xxxxx -c healthz -- nslookup kube-dns.kube-system.svc.cluster.local

短域

kubectl exec -n kube-system -ti kube-dns-v20-xxxxx -c healthz -- nslookup kube-dns

4、如果完整域可以解析，短域不可以解析

查看/etc/resolv.conf文件，是否补齐cluster.local

kubectl exec -n kube-system -ti kube-dns-v20-xxxxx -c healthz cat /etc/resolv.conf

一般文件内容为：

search default.svc.cluster.local svc.cluster.local cluster.local

nameserver 172.17.26.52 #kube-dns service clusterIp

options ndots:5

这个是从宿主机的/etc/resolv.conf文件中继承的。

这些都可以通过官网doc可以查看到Troubleshooting Tips

5、在node上的修改

修改/etc/kubernetes/kubelet文件：

KUBELET_ARGS="--cluster-dns=172.17.26.52 --cluster-domain=cluster.local --log_dir=/var/log/kubernetes"

修改之后要重启kubelet

systemctl restart kubelet

修改宿主机的/etc/resolv.conf：

search default.svc.cluster.local svc.cluster.local cluster.local

nameserver 172.17.26.52 #kube-dns service clusterIp

5、遇到的问题，这里也比较关键

<1>、手动指定的clusterIp不能解析

在实际操作中，由于kube-dns的特殊性，需要手动指定kube-dns service的clusterIp（在各种“教程”中全都在说手动指定，他们竟然都没遇到问题），然后创建svc，结果使用healthz的nslookup验证时却不能解析。

幸好suzhen经验丰富，尝试把clusterIp注释掉，让k8s自动为kube-dns分配一个ip。然后再手动指定这个ip，重新创建svc。或者直接拿这个ip用就可以了。

按道理说指定的clusterIp在k8s限定的范围之内都是可以的，但是不知道随机指定了一个ip就不行。。。就这么不巧。。。具体原因目前还不清楚。

<2>、命令可解析，healthz自带的参数不能解析

这个问题也是非常诡异的，把healthz的cmd参数单独拿出来用命令解析可以，但是它自己却不能解析，命令一模一样，完全没道理。。。

命令：

kubectl exec -n kube-system -ti kube-dns-v20-xxxxx -c healthz -- nslookup kubernetes.default.svc.cluster.local 127.0.0.1

日志：

can't resolve "kubernetes.default.svc.cluster.local"

healthz是负责dns的健康的，根据创建rc时的yaml文件，healthz容器定时向kubedns容器查询

kubernetes.default.svc.cluster.local 127.0.0.1及kubernetes.default.svc.cluster.lcoal 127.0.0.1:10053,

即(因为这个奇怪的问题把原args都注释了，暂时这样解决了)：

- name: healthz

image: gcr.io/google_containers/exechealthz-amd64:1.2

...

args:

#- --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1 >/dev/null

- --cmd=ping 127.0.0.1

#- --url=/healthz-dnsmasq

#- --cmd=nslookup kubernetes.default.svc.cluster.lcoal 127.0.0.1:10053 >/dev/null

#- --url=/healthz-kubedns

#- --port=8080

#- --quiet

如果一段时间healthz一直解析不过，就会发送一个terminated信号给kubedns，这时即使kubedns本身正常（可以通过kubedns直接执行nslookup进行解析验证），也会自毁，此时该pod就会变的不正常。

<3>、BTW

官网太简单，网上教程太杂，经验很重要，谨慎。

附skydns-rc.yaml.sed修改的地方：

spec:

#nodeName: k8s-nod5

containers:

- name: kubedns

image: gcr.io/google_containers/kubedns-amd64:1.8

...

args:

# command = "/kube-dns"

- --domain=cluster.local.

- --dns-port=10053

- --kube-master-url=http://100.101.69.252:8080

...

- name: healthz

image: gcr.io/google_containers/exechealthz-amd64:1.2

...

args:

#- --cmd=nslookup kubernetes.default.svc.cluster.local 127.0.0.1 >/dev/null

- --cmd=ping 127.0.0.1

#- --url=/healthz-dnsmasq

#- --cmd=nslookup kubernetes.default.svc.cluster.lcoal 127.0.0.1:10053 >/dev/null

#- --url=/healthz-kubedns

#- --port=8080

#- --quiet

kube-dns配置注意及问题排查

你可能感兴趣的:(kube-dns配置注意及问题排查)