jetcd 连接无法断开问题修复

项目马上要上线了,突然发现预发布环境的 etcd 连不上了。虽然别人催的很紧急,但出于保存现场的目的,还是详查了一下为啥 etcd 连不上。

排查结果

  • 排查过程就不详细列举了,就是一个抽丝剥茧的过程。很艰难,其实最后发现真相才觉得过程都不值一提。
  • 结论是:jetcd 在创建 watcher 之后,如果要关掉它,不管是Client.close()、还是watcher.close(),都无法马上关掉连接,然后连接会越来越多,最后把连接数占满。通过 lsof -i:2379 可以看到答案。
  • 于是乎,我去提了一个 ISSUES,截至发稿时,没有人回复。
  • 但是马上要上线了,必须想办法解决一下这个问题。首先在开发的时候,就已经搭建了 jetcd 的环境,随时可以改源码自己出包。咨询了一下熟悉 grpc 的同事,很明显问题是 ManagedChannel 在 shutdown 之后,关不掉这个连接;同事建议我用 shutdownNow,遂改源码试了一下,果然可以。不过为什么 shutdown 之后关不掉,仍然需要详细排查。

2019-06-01 补充

  • 通过抓包分析,发现使用 shutdown 时,客户端不会主动发起 FIN 请求断开连接,而 shutdownNow 就会。

结束语

  • etcd 的学习还需要继续努力。

你可能感兴趣的:(etcd)