做过爬虫的人应该会知道driver.quit()后有一定几率产生chromdriver的孤儿进程(或者说僵尸进程)。但是这些僵尸是死而不僵,占据着内存让人讨厌,然而如果你随意杀死这些僵尸有可能导致正在运行的爬虫出错。所以说它们是僵尸是冤枉它们,它们实际上是孤儿进程,不过习惯上还是称它们为僵尸。
这个问题存在了很多年,可以说天下苦僵尸久矣。通常清理僵尸的办法就是kill这些僵尸,但是时机不好掌握,它们在刚成为僵尸时还有活动,这时如果kill它们会导致session id失效,或者profile(user data dir)被破坏。我曾经尝试不用quit,直接杀死chromedriver以及子进程,结果的确没有产生僵尸,但是profile被破坏,缓存就没有了,这样得不偿失。如果在杀死它们前先driver.service.stop()来停止服务,情况要好一些,profile没有被破坏,但是有一定几率导致session id失效而出错。
除了清理僵尸,还有一起其他的方法防止僵尸的产生,比如说修改SIG_IGN信号,dumb-init等方法,看了下面的说明就知道这些方法过时了。官方说不生产僵尸了,僵尸就会自然消失,消灭僵尸的方法自然过时了。
这些僵尸的正式名称叫做zygote 受精卵进程,参考下面的官网,它的本意是加快程序运行的时间和节约内存,但是为什么有时会产生,有时又没有,以及这些zygote 什么时候终止,这个没有解释。个人的猜想是chrome中有很多异步的操作,这些异步没有结束前就执行quit,那么在主进程结束前就创建zygote 进程,处理这些异步的后续事宜,如果这个时候贸然杀死它们,就会出错。
https://chromium.googlesource.com/chromium/src/+/master/docs/linux/zygote.md
像下面这样在启动时加上--no-zygote参数,就这么简单。这大概是官方4年前推出的解决办法。
options.add_argument('--no-zygote')
从此你告别了僵尸,你不用再考虑如何杀死这些僵尸,以及什么时候杀死它们,说实话你没有很好的办法来确定这些僵尸不再活动,只能从僵尸产生的时间来判断,比如说僵尸产生后一小时后杀死,这些都非常麻烦。
然而如果你的程序不小心还是有可能产生僵尸,但这些僵尸不是quit产生的,是你退出程序前没有关闭浏览器(没有quit),导致chromedriver失去父亲,只好让进程1来领养。