Linux中网络IO模型详解

网络IO简介

服务器大部分都是运行在Linux下的,Linux中的IO模型跟我们服务器中的网络IO息息相关。

Linux中网络连接中每一个Socket对应着一个文件,一个文件对应着一个文件描述符,File Description 简称FD。FD中记载了Socket的接收状态。

网络IO的read分为两步:
1、等待其他网络将数据发送到当前系统的内核空间中
2、将数据从内核空间复制到用户空间中

网络IO模型

本文主要说下Linux中常用的四种网络IO模型:
1、阻塞 IO

Linux中网络IO模型详解_第1张图片
进程就是由多个线程组成的,线程就能申请获取对应的网络数据。当线程调用recvfrom()获取对应的端口的网络数据的时候,如果数据还没有发送到内核空间中或者数据还未从内核空间中拷贝到用户空间中,就会阻塞阻塞就是将线程挂起,让出CPU资源。等待数据拷贝完成后,就会唤醒线程来接着执行线程对应的程序。

2、非阻塞IO
Linux中网络IO模型详解_第2张图片
非阻塞IO和阻塞IO的区别就是,当数据还未发送到内核空间,或者还未从内核空间拷贝到用户空间的时候,这时不会阻塞,而是返回一个error

这样的话,线程需要采用轮询的方式来不断询问查看数据是否准备好了。

非阻塞IO适用于IO处理时间较短的业务,因为IO处理事件短,线程轮询一小会时间就能等待IO完成,然后就能继续执行对应的代码了。

短时间的轮询是要比线程挂起和唤醒消耗的资源要小。因为线程的挂起和唤醒会牵扯到线程的切换,需要保存线程上下文信息等操作。

如果是常见的轮询的话,还是将线程挂起比较好,因为轮询会一直占用CPU资源,而线程挂起会将CPU资源让出,供其他线程使用。

3、IO复用
IO复用其实就是对阻塞IO的改进。阻塞IO中每个IO都需要一个线程来读取。有两个缺点:
1、每个IO对应一个线程,会大量的消耗内存。
2、线程数量多的话,就导致线程之间的频繁切换,线程的频繁切换也会造成资源浪费。

所以Linux提供了IO复用,也就是通过一个线程来监视一个FD数组状态,也就是一个线程负责多个IO。这样的话,能够处理更多的连接。但是IO复用一般比非阻塞IO的速度慢,毕竟是一个线程处理的,后面的IO肯定延迟高一点。

Linux中提供了select、poll、epoll三种复用方式。
select
select允许传入一个FD数组,FD数组对应着需要监视的Socket数组。工作线程的任务就是遍历FD数组,如果对应的socket有数据写入,就进行处理,如果FD数组没有一个就绪的FD,就将线程挂起,将线程添加到每个FD对应的socket的等待队列中。当某一个FD对应的socket就绪的时候,会将工作线程唤醒,线程会遍历FD数组,挨个检查对应的socket的状态,如果socket写入数据了,就执行其对应的操作。效率为O(n);

因为select传入的是数组,数组要求的是连续空间,所以有数量限制,最大为1024.

poll
poll和select大概一致,只不过传入的是链表,链表不需要连续的空间,所以监视的FD个数要多于select。数量为65535,但是效率仍为O(n).

epoll
epoll做出了重大改进,epoll维护了一个红黑树和一个就绪链表。被监听的socket将其加入到红黑树中,并且为socket注册回调方法。红黑树可以高效的增删改查对应的socket,维护容易。当对应的socket就绪后,会向CPU发出中断,然后CPU会调用其回调方法,将对应的socket指针信息包装成节点加入到就绪链表中,然后唤醒线程来遍历就绪链表,线程通过就绪链表节点中的指针信息来获取对应的socket,然后执行socket对应的操作。

epoll的效率升级为了O(1)

4、异步IO
Linux中网络IO模型详解_第3张图片
当线程调用异步IO的时候,如果数据还未发送到内核空间或者数据还被拷贝到用户空间,就会立即继续执行线程对应的程序。线程在调用异步IO的时候,会传入一个对应的缓冲区地址和对应的回调函数,当IO完成后,内核会自动将数据拷贝到缓冲区中,然后执行对应的回调函数。这时就做到了CPU和IO的并行处理。

Linux中网络IO模型详解_第4张图片

你可能感兴趣的:(操作系统,linux,epoll,IO)