记一次 kubernetes 部署的业务访问量大时出现访问超时

问题表现

当访问并发量比较大时, 请求会频繁超时.

问题原因

由于程序内部实现中会频繁访问日志服务器, 但当时 日志服务器没有部署到 kubernetes 中,所以使用 CoreDNS hosts 插件进行自定义域名解析来实现.
出问题时, CoreDNS CPU 一直在 10-30% 之间波动.由于CPU并没有跑满, 怀疑此处有问题但并没有将此处当做本次的瓶颈.排查完其他问题后最后才排查此处问题.
最终确认确实是此处导致的性能瓶颈问题, 导致浪费了一下午的时间.

整个过程中, CoreDNS 监控均显示一切正常, 只是查询次数有些多, 监控显示有 1.8kpps 左右. 其中绝大多数都被缓存命中, 所以给人感觉压力可能并不大.
但后面实在找不到原因之后将 日志服务器解析方式从 hosts 插件改成 Deployment 配置 hostAliases 之后,问题瞬间解决.

最终确认问题如下(此处需要细查继续确认)


CoreDNS 在大量查询情况下可能存在慢查询的情况
Kubernetes 默认会给 Pod 添加 6 个搜索域, 导致一次外部 DNS 查询最少需要查询 6 次才能获得正确结果,导致DNS访问量巨大.

解决方式

使用 Deployment 配置 hostAliases 替换原来使用 CoreDNS 进行DNS映射.

你可能感兴趣的:(k8s,kubernetes,coredns)