一个月前在线上发生了内存泄露。但很奇怪的是,那次发布只涉及几行代码,且都不涉及内存的主动分配。
我们都知道,如果发生了内存泄露,那么一定会有内存分配这个动作。
但当前的业务代码里并没有“内存分配”这个操作,所以问题八成是出在框架内部。
所修改的代码如下:
from django.urls import path
from django.http.response import HttpResponse
ALIVE_ECHO = HttpResponse('Alive')
urlpatterns = [
path('/', lambda request: ALIVE_ECHO),
]
因为这个URL只需要返回服务可用这个信息,所以每次返回的Response都是一样的。为了避免每次请求都生成一个Response这种无用开销,所以想预先分配一个Response。但正是这个操作导致了服务的内存泄露。
排查的过程很曲折,从gunicorn、wsgi协议一直排查到了django http请求流程,用了Pympler这个工具帮忙排查。
直接说原因吧,Django、wsgi、gunicorn什么的有空再写一篇。
class BaseHandler:
........
def get_response(self, request):
"""Return an HttpResponse object for the given HttpRequest."""
# Setup default url resolver for this thread
set_urlconf(settings.ROOT_URLCONF)
response = self._middleware_chain(request)
response._closable_objects.append(request)
# If the exception handler returns a TemplateResponse that has not
# been rendered, force it to be rendered.
if not getattr(response, 'is_rendered', True) and callable(getattr(response, 'render', None)):
response = response.render()
if response.status_code >= 400:
log_response(
'%s: %s', response.reason_phrase, request.path,
response=response,
request=request,
)
return response
class HttpResponseBase:
.........
def close(self):
for closable in self._closable_objects:
try:
closable.close()
except Exception:
pass
self.closed = True
signals.request_finished.send(sender=self._handler_class)
简单的说,请求到达Django框架后,Django会把这个request塞到 response._closable_objects 中(见get_response函数)。
wsgi服务器在请求结束时会调用 response.close() 这个函数,但这个函数只是遍历了_closable_objects,调用每个对象的close函数,而没有清空_closable_objects。
因为我们共用了同一个Response,所以Response对象也不会像动态产生的Response那样被gc,导致_closable_objects会被一直塞入request。
这个属于Django的Bug,影响django2.1 2.2
解决方法很简单,在close末尾添加 self._closable_objects.clear() 即可解决问题。
Django3 已经修复了这个问题,本来想给2.1/2.2提个PR的,但他们很快都要退出支持了,还是算了。
终极解决方法,就是不要共用同一个Response【好像等于没说】