Node的异步I/O

前端开发中典型的异步应用场景:Ajax和事件。

在操作系统的底层中,异步是通过信号量、消息等方式被广泛使用。

Node的基调:异步I/O,事件驱动,单线程。

在Node中完成整个异步I/O环节的有 事件循环、观察者、请求对象、I/O线程池。

事件循环

下Node自身的 执行模型 是 事件循环,正是它使得回调函数十分普遍。

在进程启动时,Node便会创建一个类似于while(true)的循环,每执行一次循环体的过程我们称为Tick。

每个Tick的过程就是查看是否有事件待处理,如果有,就取出事件及其相关的回调函数。如果存在关联的回调函数,就执行它们。然后进入下个循环,如果不再有事件处理,就退出进程,如下图:
Node的异步I/O_第1张图片

观察者

在每个Tick的过程中,如何判断是否有事件需要处理呢?这里必须要引入的概念是观察者。每个事件循环中有一个或者多个观察者,而判断是否有事件要处理的过程就是向这些观察者询问是否有要处理的事件。

这个过程就如同饭馆的厨房,厨房一轮一轮地制作菜肴,但是要具体制作哪些菜肴取决于收银台收到的客人的下单。厨房每做完一轮菜肴,就去问收银台的小妹,接下来有没有要做的菜,如果没有的话,就下班打烊了。在这个过程中,收银台的小妹就是观察者,她收到的客人点单就是关联的回调函数。当然,如果饭馆经营有方,它可能有多个收银员,就如同事件循环中有多个观察者一样。收到下单就是一个事件,一个观察者里可能有多个事件。

浏览器采用了类似的机制。事件可能来自用户的点击或者加载某些文件时产生,而这些产生的事件都有对应的观察者。

在Node中,事件主要来源于网络请求、文件I/O等,这些事件对应的观察者有文件I/O观察者、网络I/O观察者等。观察者将事件进行了分类。

事件循环是一个典型的生产者/消费者模型。异步I/O、网络请求等则是事件的生产者,源源不断为Node提供不同类型的事件,这些事件被传递到对应的观察者那里,事件循环则从观察者那里取出事件并处理。

在Windows下,这个循环基于IOCP创建,而在*nix下则基于多线程创建。

请求对象

寻从JavaScript代码到系统内核之间都发生了什么。

对于一般的(非异步)回调函数,函数由我们自行调用,如下所示:

var forEach = function (list, callback) {
    for (var i = 0; i < list.length; i++) {
        callback(list[i], i, list);
    }
}

但是,对于Node中的异步I/O调用而言,回调函数却不由开发者来调用。

那么从我们发出调用后,到回调函数被执行,中间发生了什么呢?事实上,从 JavaScript发起调用 到 内核执行完I/O操作 的过渡过程中,存在一种中间产物,它叫做请求对象。

发出调用 ⟶ \longrightarrow 回调函数被执行

我们以最简单的fs.open()
方法来作为例子,探索Node与底层之间是如何执行异步I/O调用以及回调函数究竟是如何被调用执行的:

fs.open = function (path, flags, mode, callback) {
    // ... 
    binding.open(pathModule._makeLong(path),
        stringToFlags(flags),
        mode,
        callback);
}

fs.open()的作用是根据指定路径和参数去打开一个文件,从而得到一个文件描述符,这是后续所有I/O操作的初始操作。

从前面的代码中可以看到,JavaScript层面的代码通过调用C++核心模块进行下层的操作。如下图:
Node的异步I/O_第2张图片
从JavaScript调用Node的核心模块,核心模块调用C++内建模块,内建模块通过libuv进行系统调用,这是Node里经典的调用方式。这里libuv作为封装层,有两个平台的实现,实质上是调用了uv_fs_open()方法。在uv_fs_open()的调用过程中,我们创建了一个FSReqWrap请求对象。从JavaScript层传入的参数和当前方法都被封装在这个请求对象中,其中我们最为关注的回调函数则被设置在这个对象的oncomplete_sym属性上:

req_wrap ⟶ \longrightarrow object_ ⟶ \longrightarrow Set(oncomplete_sym, callback)

对象包装完毕后,在Windows下,则调用QueueUserWorkItem()方法将这个FSReqWrap对象推入线程池中等待执行,该方法的代码如下所示:

QueueUserWorkItem(&uv_fs_thread_proc,                                
                         req,                                        
                         WT_EXECUTEDEFAULT)

QueueUserWorkItem()方法接受3个参数:
第一个参数是将要执行的方法的引用,这里引用的是uv_fs_thread_proc
第二个参数是uv_fs_thread_proc方法运行时所需要的参数;
第三个参数是执行的标志。
当线程池中有可用线程时,我们会调用uv_fs_thread_proc()方法。uv_fs_thread_proc()方法会根据传入参数的类型调用相应的底层函数。以uv_fs_open()为例,实际上调用fs__open()方法。

至此,JavaScript调用立即返回,由JavaScript层面发起的异步调用的第一阶段就此结束。JavaScript线程可以继续执行当前任务的后续操作。当前的I/O操作在线程池中等待执行,不管它是否阻塞I/O,都不会影响到JavaScript线程的后续执行,如此就达到了异步的目的。

请求对象是异步I/O过程中的重要中间产物,所有的状态都保存在这个对象中,包括送入线程池等待执行以及I/O操作完毕后的回调处理。

执行回调

组装好请求对象、送入I/O线程池等待执行,实际上完成了异步I/O的第一部分,回调通知是第二部分。

线程池中的I/O操作调用完毕之后,会将获取的结果储存在req->result属性上,然后调用PostQueuedCompletionStatus()
通知IOCP,告知当前对象操作已经完成:

PostQueuedCompletionStatus((loop)->iocp, 0, 0, &((req)->overlapped)

PoatQueuedCompletionStatus()方法的作用是向IOCP提交执行状态,并将线程归还线程池。通过PostQueuedCompletionStatus()方法提交的状态,可以通过GetQueuedCompletionStatus()提取。

在这个过程中,我们其实还动用了事件循环的I/O观察者。在每次Tick的执行中,它会调用IOCP相关的GetQueuedCompletionStatus()方法检查线程池中是否有执行完的请求,如果存在,会将请求对象加入到I/O观察者的队列中,然后将其当做事件处理。

I/O观察者回调函数的行为就是取出请求对象的result属性作为参数,取出oncomplete_sym属性作为方法,然后调用执行,以此达到调用JavaScript中传入的回调函数的目的。

至此,整个异步I/O的流程完全结束,如下图:

Node的异步I/O_第3张图片

事件循环、观察者、请求对象、I/O线程池这四者共同构成了Node异步I/O模型的基本要素。

Windows下主要通过IOCP来向系统内核发送I/O调用和从内核获取已完成的I/O操作,配以事件循环,以此完成异步I/O的过程。
Linux下通过epoll实现这个过程。
FreeBSD下通过kqueue实现。
Solaris下通过Event ports实现。
不同的是线程池在Windows下由内核(IOCP)直接提供,*nix系列下由libuv自行实现。

小结

从前面实现异步I/O的过程中,我们可以提取出异步I/O的几个关键词:单线程、事件循环、观察者和I/O线程池。
这里单线程与I/O线程池之间看起来有些悖论的样子。由于我们知道JavaScript是单线程的,所以按常识很容易理解为它不能充分利用多核CPU。事实上,在Node中,除了JavaScript是单线程外,Node自身其实是多线程的,只是I/O线程使用的CPU较少。另一个需要重视的观点则是,除了用户代码无法并行执行外,所有的I/O(磁盘I/O和网络I/O等)则是可以并行起来的。

你可能感兴趣的:(node.js,javascript,nodejs,线程池,单线程,异步I/O)