tornado AsyncHttpClient 源码分析

虽然tornado到现在,已经4.x版本了,但是由于其编程概念比较难理解以及使用的人不是太多,因此,即使看了文档,以及搜索资料,还是处于一知半解的情况,这时间,就只能硬着头皮看源码了,虽然麻烦,但是弄懂之后,就会发现tornado原来挺好用的,以及为什么高效,以后自己还可以DIY。


首先是一个使用AsyncHttpClient发起http请求的例子(如果不用tornado的异步概念,就可能需要用到多线程或者多进程,当然还可以使用celery切分任务):

tornado AsyncHttpClient 源码分析_第1张图片

1.源码分析,第一步就是简化代码,把对理解整个流程脉络无关的逻辑去掉(异常处理,辅助参数),所以我先把tornado源码(tornado4.3版本)中的相关逻辑提炼出来:

1.1 AsyncHttpClient 的 fetch方法

生成一个future,在http处理response的时候,把future设为完成;future完成,执行回调,让ioloop在下一次循环中执行fetch之后的callback。

tornado AsyncHttpClient 源码分析_第2张图片

1.2 SimpleAsyncHTTPClient 的 fetch_impl 方法

对每个http请求,都生成_HTTPConnection对象。

tornado AsyncHttpClient 源码分析_第3张图片

1.3 _HTTPConnection 类

在构造函数,使用TcpClient执行connect方法; 根据基类httputil.HTTPMessageDelegate的finish方法定义:

"Called after the last chunk of data has been received."

因此,会在收到http response之后,调用回调final_callback。

tornado AsyncHttpClient 源码分析_第4张图片

1.4 TCPClient 的 connect 方法

把_create_stream传递给_Connector的self.connect。

tornado AsyncHttpClient 源码分析_第5张图片

1.5 @gen.coroutine装饰器

可以看到,虽然TcpClient的connect没有callback参数,但是_HTTPConnection却传递了个callback过去,因为TcpClient::connect加了个“@gen.coroutine”装饰器,在装饰器里面会使用到callback参数。

“gen.coroutine”的大致流程就是:生成future,把callback加入future回调,启动函数生成器,让Runner循环执行函数所有的迭代。

tornado AsyncHttpClient 源码分析_第6张图片

1.6 _Connector 的 start 方法

IOStream::connect返回的future如果完成,执行回调把_Connector::future也设置为完成。

tornado AsyncHttpClient 源码分析_第7张图片

1.7 IOStream 的 connect 方法

执行socket.connect,然后往ioloop注册写事件,在事件轮训中,处理新连接,然后把self._connect_future设置为完成。

tornado AsyncHttpClient 源码分析_第8张图片

2. 流程整理

可以看到,其实关键就是各种的future,每个步骤都会返回future,外层调用者在返回的future里面注册回调,这样层层嵌套,类似于一个栈,外层调用者寄希望于内部的调用者通知自己,因此执行完就直接返回不理了。等到最内层的事件发生之后,回调链就会从里而外执行。

因此,我们也可以知道,为什么可以一次性并发很多http请求,因为程序执行每个http请求的时候,只是声明如果发生了就该干嘛(比如,如果TCP连接成功,如果http收到response……)


tornado AsyncHttpClient 源码分析_第9张图片

你可能感兴趣的:(tornado AsyncHttpClient 源码分析)