一、概念理解

linux中IO的类型分为四类:同步(sync)和异步(async),阻塞(block)和非阻塞(unblock)

同步:发出一个功能调用时,在没有得到结果前会一直等待,直到返回结果。

异步:当异步过程调用发出后,调用者不能立刻得到结果。在完成后,通过通知机制或回调函数来通知调用者

阻塞:调用结果返回前,当前线程会被挂起(线程进入非可执行状态,在这个状态下,CPU不会给线程分配时间片,即线程暂停运行)。函数只有在得到结果后才返回

注意:同步和阻塞是不同的,对同步调用,线程是激活的,当调用者等待的时候,线程还可以处理其它请求,而阻塞线程是会挂起的,是不会处理其它请求的。

非阻塞:在结果返回前,函数不会阻塞当前线程,而会立刻返回

同步IO和异步IP的区别在于:数据拷贝的时候进程是否阻塞。

阻塞IO和非阻塞IO的区别在于:应用程序的调用是否立即返回

二、linux下的五种I/O模型

1、阻塞I/O (blocking I/O)

2、非阻塞I/O (nonblocking I/O)

3、I/O 复用 (I/O multiplexing)

4、信号驱动I/O (signal driven I/O (SIGIO))

5、异步I/O (asynchronous I/O)

前四种都是同步,只有最后一种才是异步IO

阻塞IO模型:

进程会一直阻塞,直到数据拷贝完成

应用程序调用一个IO函数,导致应用程序阻塞,等待数据准备好。数据准备好后,从内核拷贝到用户空间,IO函数返回成功指示。阻塞IO模型图如下所示:

linux五种IO模型性能分析_第1张图片

非阻塞IO模型

通过进程反复调用IO函数,在数据拷贝过程中,进程是阻塞的。模型图如下所示

linux五种IO模型性能分析_第2张图片

IO复用模型

主要是select和epoll,对一个IO端口,两次调用,两次返回,关键能实现同时对多个IO端口进行监听。模型如下所示

linux五种IO模型性能分析_第3张图片

信号驱动IO

两次调用,再次返回

首先我们允许套接口进行信号驱动IO,并安装一个信号处理函数,进程继续运行并不阻塞。当数据准备好时,进程会收到一个SIGIO信号,可以在信号处理函数中调用IO函数处理数据,模型如下所示

linux五种IO模型性能分析_第4张图片

异步IO模型

数据拷贝时进程无阻塞,模型如下所示

linux五种IO模型性能分析_第5张图片

5个IO模型的比较

linux五种IO模型性能分析_第6张图片

三、select、poll、epoll简介

epoll是linux所特有,而select是POSIX所规定,一般操作系统均有实现。

select:查找

select本质是通过设置或检查存放fd标志位的数据结构来进行下一步处理。缺点是:

1、单个进程可监视的fd数量被限制,即能监听端口的大小有限。

  一般来说和系统内存有关,具体数目可以cat /proc/sys/fs/file-max察看。32位默认是1024个,64位默认为2048个

 2、对socket进行扫描时是线性扫描,即采用轮询方法,效率低。

 当套接字比较多的时候,每次select()都要遍历FD_SETSIZE个socket来完成调度,不管socket是否活跃都遍历一遍。会浪费很多CPU时间。如果能给套接字注册某个回调函数,当他们活跃时,自动完成相关操作,就避免了轮询,这正是epoll与kqueue做的

 3、需要维护一个用来存放大量fd的数据结构,会使得用户空间和内核空间在传递该结构时复制开销大

 poll:

 poll本质和select相同,将用户传入的数据拷贝到内核空间,然后查询每个fd对应的设备状态,如果设备就绪则在设备等待队列中加入一项并继续遍历,如果遍历所有fd后没有发现就绪设备,则挂起当前进程,直到设备就绪或主动超时,被唤醒后又要再次遍历fd

 它没有最大连接数的限制,原因是它是基于链表来存储的,但缺点是:

 1、大量的fd的数组被整体复制到用户态和内核空间之间,不管有无意义。

 2、poll还有一个特点“水平触发”,如果报告了fd后,没有被处理,那么下次poll时再次报告该ffd。

 epoll:

 epoll支持水平触发和边缘触发,最大特点在于边缘触发,只告诉哪些fd刚刚变为就绪态,并且只通知一次。还有一特点是,epoll使用“事件”的就绪通知方式,通过epoll_ctl注册fd,一量该fd就绪,内核就会采用类似callback的回调机制来激活该fd,epoll_wait便可以收到通知。

 epoll的优点:

 1、没有最大并发连接的限制

 2、效率提升,只有活跃可用的FD才会调用callback函数

 3、内存拷贝,利用mmap()文件映射内存加速与内核空间的消息传递。

select、poll、epoll区别总结:

1、支持一个进程打开连接数

select:32位机器1024个,64位2048个

poll:无限制,原因基于链表存储

epoll:有上限,但很大,2G内存20W左右

2、IO效率

select:IO效率低

poll:IO效率低

epoll:只有活跃的socket才调用callback,IO效率高。

3、消息传递方式

select:内核需要将消息传递到用户空间,都需要内核拷贝动作

poll:同上

epoll:通过内核与用户空间共享一块内存来实现。