一.概述:

epoll是多路复用的一种,但它比select和poll更加高效。具体体现在以下几个方面:

(1).select能打开的文件描述符是有一定限制的,默认情况下是2048,这对应那些大型服务器来说h是不足的。但 epoll则没有这个限制,它所支持的fd上限是最大可以打开文件的数目,这个数字一般远大于2048,举个例子,在1GB内存的机器上大约是10万左 右,具体数目可以cat  /proc/sys/fs/file-max察看,一般来说这个数目和系统内存关系很大。

(2).因为文件描述符是内核管理的,所以每次调用select或poll,都需要把fd集合从用户态拷贝到内核态,并且每次检查文件描述符的状态时,都要在内核遍历所有文件描述符,这个开销在fd很多时会很大。而epoll采用了nmap(内存映射)(和共享内存一样),内核和用户空间共用一行份fd集。

(3).另一个本质的改进在于epoll采用基于事件的就绪通知方式。在select/poll中,进程只有在调用一定的方法后,内核才对所有监视的文件描述符进行扫描,而epoll事先通过epoll_ctl()来注册一个文件描述符,一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。



其它优化:

(4).epoll会给所有要关注的文件描述符建立一个红黑树,这样在查找某一个文件描述符时效率会有所提升。

(5).epoll会给准备好的文件描述符建立一个链表,这样查找一个已准备好的文件描述符时就不用在以前所有要关注的fd集中查找了。




二.epoll用法篇:

epoll是什么?按照man手册的说法:是为处理大批量句柄而作了改进的poll。当然,这不是2.6内核才有的,它是在2.5.44内核中被引进的(epoll(4) is a new API introduced in Linux kernel2.5.44),它几乎具备了之前所说select和poll的一切优点,被公认为Linux2.6下性能最好的多路I/O就绪通知方法。

epoll有epoll_create,epoll_ctl,epoll_wait 3个系统调用。



(1).epoll_create:

int   epoll_create(int size);

创建一个epoll的句柄(后面会根据这个句柄创建红黑树)。自从linux2.6.8之后,size参数是被忽略的(也就是说,可以为任意值)。需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值,在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。

返回值:成功返回一个epoll句柄,失败返回-1;


(2).epoll_ctl

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

函数描述:epoll的事件注册函数,它不同于select()是在监听事件时告诉内核要监听什么类型的事件,而是在这里先注册要监听的事件类型。(一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。)

返回值:成功返回0,失败返回-1;

epfd参数:epoll_create创建的一个epoll句柄。

op参数:表示要执行的动作,用三个宏来表示:
EPOLL_CTL_ADD:注册新的fd到epfd中;
EPOLL_CTL_MOD:修改已经注册的fd的监听事件;
EPOLL_CTL_DEL:从epfd中删除一个fd;

fd参数:需要监听的文件描述符。

event参数:告诉内核需要监听什么事。struct epoll_event结构如下:

 The event argument describes the object linked to the file descriptor fd.  The struct epoll_event is defined as :

           typedef union epoll_data {
               void        *ptr;
               int          fd;
               uint32_t     u32;
               uint64_t     u64;
           } epoll_data_t;

           struct epoll_event {
               uint32_t     events;      /* Epoll events */
               epoll_data_t data;        /* User data variable */
           };

events有如下值:

EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);

EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET:将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水水平触发(Level
Triggered)来说的。(epoll默认为水平触发)

EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里。



(3).epoll_wait:

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

函数功能:监听在epoll监控的事件中已经发送的事件。

返回值:成功返回监听文件描述符集中已经准备好的文件描述符,返回0代表timeout,失败返回-1。

epoll参数:epoll_create创建的epoll句柄。

events参数:输出型参数,保存监听文件描述符集中已经准备好的文件描述符集。

maxevents参数:events数组的大小。

timeout参数:超时时间。单位为毫秒。




三.LT模式下的阻塞模式。

相关代码:

server.c:

 1 /****************************************                                                                                                 
  2     > File Name:epoll_server.c
  3     > Author:xiaoxiaohui
  4     > mail:[email protected]
  5     > Created Time:2016年05月28日 星期六 15时38分17秒
  6 ****************************************/
  7 
  8 #include
  9 #include
 10 #include
 11 #include
 12 #include
 13 #include
 14 #include
 15 #include
 16 #include
 17 
 18 #define LEN 1024地
 19 const char* IP = "127.0.0.1";
 20 const int PORT = 8080;
 21 const int BACKLOG = 5;
 22 int timeout = 5000;
 23 const int MAXEVENTS = 64;
 24 struct sockaddr_in local;
 25 struct sockaddr_in client;              

 26 int SIZE_CLIENT = sizeof(client);
 27 
 28 typedef struct data_buf     //用于存储epoll_event中的data中的不同元素
 29 {
 30     int fd;
 31     char buf[LEN];
 32 }data_buf_t, *data_buf_p;地
 33 
 34 
 35 int ListenSock()
 36 {
 37     int listenSock = socket(AF_INET, SOCK_STREAM, 0);
 38     if(listenSock < 0)
 39     {
 40         perror("socket");
 41         exit(1);
 42     }
 43 
 44     local.sin_family = AF_INET;
 45     local.sin_port = htons(PORT);
 46     local.sin_addr.s_addr = inet_addr(IP);
 47     if( bind(listenSock, (struct sockaddr*)&local, sizeof(local)) < 0)
 48     {
 49         perror("bind");
 50         exit(2);
 51     }
 52 
 53     if( listen(listenSock, BACKLOG) < 0)
 54     {
 55         perror("listen");
 56         exit(3);
 57     }
 58 
 59     return listenSock;
 60 }
 61 
 62 static int epoll_fd(int listenSock)
 63 {
 64 
 65     int epoll_fd = epoll_create(256);           //size随便选一个值
 66 
 67     struct epoll_event ev;          //把listenSock设置进epoll_fd中
 68     ev.events = EPOLLIN;
 69     ev.data.fd = listenSock;
 70     epoll_ctl(epoll_fd, EPOLL_CTL_ADD, listenSock, &ev);        //系统会维护一个红黑树
 71 
 72     struct epoll_event ev_outs[MAXEVENTS];      //准备好的队列
 73     int max = MAXEVENTS;
 74     
 75     while(1)                                                                                                                              
 76     {
 77         int num = -1;
 78         switch( num = epoll_wait(epoll_fd, ev_outs, max, timeout))
 79         {
 80             case 0:     //timeout                                                                                                         
 81                 printf("timeout.....\n");
 82                 break;
 83             case -1:    //error
 84                 perror("epoll_wait");
 85                 break;
 86             default:
 87                 for(int index = 0; index < num; index++)   
 88                 {
 89                     if(ev_outs[index].data.fd == listenSock && (ev_outs[index].events & EPOLLIN))      //监听套接字准备就绪
 90                     {
 91                         printf("accept is ready\n");
 92                         int linkSock = accept(listenSock, (s地truct sockaddr*)&client, &SIZE_CLIENT);
 93                         if(linkSock < 0)
 94                         {
 95                             perror("accept");
 96                             continue;           //这次可能是一个新客户端的请求,所以后面可能还有文件描述符准备就绪了
 97                         }地
 98 
 99                         ev.events = EPOLLIN;     //把新套接字放到红黑树中
100                         ev.data.fd = linkSock;
101                         epoll_ctl(epoll_fd, EPOLL_CTL_ADD, linkSock, &ev);
102                     }
103                     else         //已链接套接字准备就绪
104                     {
105                         if(ev_outs[index].events & EPOLLIN)      //读事件准备就绪
106                         {
107                             data_buf_p mem = (data_buf_p)malloc(sizeof(data_buf_t));
108                             memset(mem->buf, '\0', sizeof(mem->buf));
109                             mem->fd = ev_outs[index].data.fd;
110 
111                             int ret = read(mem->fd, mem->buf, sizeof(mem->buf));
112                             if(ret > 0)
113                             {
114                                 mem->buf[ret] = '\0';
115                                 printf("client# %s\n", mem->buf);
116                                                                                                                                           
117                                 ev.data.ptr = mem;         //mem中即保持了fd,又保持了buf数据
118                                 ev.events = EPOLLOUT;    //读事件已经完成,现在要关心写事件
119                                 epoll_ctl(epoll_fd, EPOLL_CTL_MOD, mem->fd, &ev);
120                             }
121                             else if(ret == 0 )      //客户端已关闭
122                             {
123                                 printf("client is closed\n");
124                                 epoll_ctl(epoll_fd, EPOLL_CTL_DEL, ev_outs[index].data.fd, NULL);     //把该文件描述符从红黑树中移除
125                                 close(ev_outs[index].data.fd);
126                                 free(mem);
127                             }
128                             else
129                             {
130                                 perror("read");
131                                 continue;
132                             }
133                         }
134                         else if(ev_outs[index].events & EPOLLOUT)   //写事件准备就绪
135                         {
136                             data_buf_p mem = (data_buf_p)ev_outs[index].data.ptr;
137                             int fd = mem->fd;
138                             char* buf = mem->buf;
139 
140                             if( write(fd, buf, strlen(buf)) < 0)
141                             {
142                                 perror("write");
143                                 continue;
144                             }
145 
146                             ev.events = EPOLLIN;       //这个文件描述符的写事件已完成,下次关心读事件
147                             ev.data.fd = mem->fd;
148                             epoll_ctl(epoll_fd, EPOLL_CTL_MOD, fd, &ev);
149                         }
150                         else   //DoNothing
151                         {}
152                     }
153                 }
154                 break;
155         }
156     }
157 }
158 
159 int main()
160 {
161     int listen地Sock = ListenSock();
162     epoll_fd(listenSock);
163     close(listenSock);
164     return 0;
165 }


client.c:

1 /****************************************                                                                                                 
  2     > File Name:client.c
  3     > Author:xiaoxiaohui
  4     > mail:[email protected]
  5     > Created Time:2016年05月23日 星期一 12时30分01秒
  6 ****************************************/
  7 
  8 #include
  9 #include
 10 #include
 11 #include
 12 #include
 13 #include
 14 #include
 15 #include
 16 #include
 17 
 18 #define LEN 1024
 19 const int PORT = 8080;
 20 const char* IP = "127.0.0.1";
 21 struct sockaddr_in server;
 22 int clientSock;
 23 char buf[LEN];
 24 
 25 int main()
 26 {
 27     clientSock = socket(AF_INET, SOCK_STREAM, 0);
 28     if(clientSock < 0)
 29     {
 30         perror("socket");
 31         exit(1);
 32     }
 33 
 34     server.sin_family = AF_INET;
 35     server.sin_addr.s_addr = inet_addr(IP);
 36     server.sin_port = htons(PORT);
 37 
 38     if ( connect(clientSock, (struct sockaddr*)&server, sizeof(server)) < 0)
 39     {
 40         perror("connect");
 41         exit(2);
 42     }
 43 
 44     while(1)
 45     {
 46         memset(buf, '\0', LEN);
 47         printf("please input: ");
 48         gets(buf);
 49         write(clientSock, buf, strlen(buf));
 50 
 51         memset(buf, '地\0', LEN);
 52         int ret = read(clientSock, buf, LEN);
 53         buf[ret] = '\0';
 54         printf("echo: %s\n", buf);  
 55     }
 56 
 57     return 0;
 58 }

执行结果:

linux高性能服务器编程之epoll_第1张图片


linux高性能服务器编程之epoll_第2张图片




四.ET模式下的非阻塞模式:

(1).概述:

ET模式要在epoll_ctl中进行设置(具体设置看代码),并且要把套接字设置为非阻塞模式。

下面概况以下ET与LT的区别:

ET (edge-triggered)是高效的工作方式,只支持no-block socket,它效率要比LT更高。ET与LT的区别在于,当一个新的事件到来时,ET模式下当然可以从epoll_wait调用中获取到这个事件,可是如果这次没有把这个事件对应的套接字缓冲区处理完,在这个套接字中没有新的事件再次到来时,在ET模式下是无法再次从epoll_wait调用中获取这个事件的。而LT模式下,只要一个事件对应的套接字缓冲区还有数据,就总能从epoll_wait中获取这个事件。
因此,LT模式下开发基于epoll的应用要简单些,不太容易出错。而在ET模式下事件发生时,如果没有彻底地将缓冲区数据处理完,则会导致缓冲区中的用户请求得不到响应。


所以在下面代码中要封装一个read_data函数,来确保一次把数据缓冲区内的数据读取完。因为ET模式下只支持非阻塞模式,所以还要把每个套接字设置为非阻塞的。


下面代码实现      在浏览器访问服务器程序,并在浏览器中打印hello world :)         ,当服务器程序发送完给浏览器的数据时,服务器程序关闭链接。

相关代码:

1 /****************************************                                                                                                 
  2     > File Name:epoll_server.c
  3     > Author:xiaoxiaohui
  4     > mail:[email protected]
  5     > Created Time:2016年05月28日 星期六 15时38分17秒
  6 ****************************************/
  7 
  8 #include
  9 #include
 10 #include
 11 #include
 12 #include
 13 #include
 14 #include
 15 #include
 16 #include
 17 #include
 18 #include
 19 
 20 #define LEN 1024
 21 const char* IP = "127.0.0.1";
 22 const int PORT = 8080;
 23 const int BACKLOG = 5;
 24 int timeout = 5000;
 25 const int MAXEVENTS = 64;
 26 struct sockaddr_in local;
 27 struct sockaddr_in client;
 28 int SIZE_CLIENT = sizeof(client);
 29 
 30 typedef struct data_buf     //用于存储epoll_event中的data中的不同元素
 31 {
 32     int fd;
 33     char buf[LEN];
 34 }data_buf_t, *data_buf_p;
 35 
 36 static int set_no_block(int fd)       //把fd设置为非阻塞
 37 {
 38     int oldfd = fcntl(fd, F_GETFL);
 39     if(oldfd < 0)
 40     {
41         perror("fcntl");
 42         return -1;
 43     }
 44 
 45     if( fcntl(fd, F_SETFL, oldfd | O_NONBLOCK))
 46     {
 47         perror("fcntl");
 48         return -1;
 49     }
 50     return 0;
 51 }
 52 
 53 int read_data(int fd, char* buf, int len)      //ET模式下读取数据,因为ET模式下只通知一次,所以要保证把所有数据都读完
 54 {                                              //成功返回读取的个数,失败返回-1,返回0代表读到文件尾
 55     int index = 0;
 56     int ret = -1;
 57 
 58     while(index < len)
 59     {
 60         ret = read(fd, buf + index, len - index);
 61         printf("the read return ret is %d\n", ret);
 62         if(ret > 0)
 63         {
 64             index += ret;
 65         }
 66         else if(ret < 0)
 67         {
 68             printf("the errno is %d\n",errno);
 69             if(errno == EAGAIN)
 70             {
 71                 break;
 72             }
 73         }
 74         else
 75         {                                                                                                                                 
 76             return 0;
 77         }
 78     }
 79 
 80     return index;
 81 }                                                                                                                                         
 82 
 83 
 84 
 85 
 86 static int ListenSock()
 87 {
 88     int listenSock = socket(AF_INET, SOCK_STREAM, 0);
 89     if(listenSock < 0)
 90     {
 91         perror("socket");
 92         exit(1);
 93     }
 94 
 95     int opt = 1;
 96     if( setsockopt(listenSock, SOL_SOCKET, SO_REUSEADDR, &opt, sizeof(opt)))     //设置端口复用   
 97     {
 98         perror("sersockopt");
 99         exit(2);
100     }
101     if( set_no_block(listenSock) != 0)      //设置为非阻塞    .............修改
102     {
103         printf("set_non_block is error\n");
104         exit(3);
105     }
106 
107     local.sin_family = AF_INET;
108     local.sin_port = htons(PORT);
109     local.sin_addr.s_addr = inet_addr(IP);
110     if( bind(listenSock, (struct sockaddr*)&local, sizeof(local)) < 0)
111     {
112         perror("bind");
113         exit(4);
114     }
115 
116     if( listen(listenSock, BACKLOG) < 0)
117     {
118         perror("listen");
119         exit(5);
120     }
121                                                                                                                                           
122     return listenSock;
123 }
124 
125 static int epoll_fd(int listenSock)
126 {
127 
128     int epoll_fd = epoll_create(256);           //size随便选一个值
129 
130     struct epoll_event ev;          //把listenSock设置进epoll_fd中
131     ev.events = EPOLLIN | EPOLLET;    //....................修改
132     ev.data.fd = listenSock;
133     epoll_ctl(epoll_fd, EPOLL_CTL_ADD, listenSock, &ev);        //系统会维护一个红黑树
134 
135     struct epoll_event ev_outs[MAXEVENTS];      //准备好的队列
136     int max = MAXEVENTS;
137     
138     while(1)
139     {
140         int num = -1;
141         switch( num = epoll_wait(epoll_fd, ev_outs, max, timeout))
142         {
143             case 0:     //timeout
144                 printf("timeout.....\n");
145                 break;
146             case -1:    //error
147                 perror("epoll_wait");
148                 break;
149             default:
150                 for(int index = 0; index < num; index++)   
151                 {
152                     if(ev_outs[index].data.fd == listenSock && (ev_outs[index].events & EPOLLIN))      //监听套接字准备就绪
153                     {
154                         printf("accept is ready\n");
155                         int linkSock = accept(listenSock, (struct sockaddr*)&client, &SIZE_CLIENT);
156                         if(linkSock < 0)
157                         {
158                             perror("accept");
159                             continue;           //这次可能是一个新客户端的请求,所以后面可能还有文件描述符准备就绪了
160                         }
161                                                                                                                                           
162                         if( set_no_block(linkSock) != 0)      //设置为非阻塞    .............修改
163                         {
164                             printf("set_non_block is error\n");
165                             exit(3);
166                         }
167 
168                         ev.events = EPOLLIN | EPOLLET;     //把新套接字放到红黑树中   ...................修改
169                         ev.data.fd = linkSock;
170                         epoll_ctl(epoll_fd, EPOLL_CTL_ADD, linkSock, &ev);
171                     }
172                     else         //已链接套接字准备就绪
173                     {
174                         if(ev_outs[index].events & EPOLLIN)      //读事件准备就绪
175                         {
176                             data_buf_p mem = (data_buf_p)malloc(sizeof(data_buf_t));
177                             memset(mem->buf, '\0', sizeof(mem->buf));
178                             mem->fd = ev_outs[index].data.fd;
179 
180                             printf("read is ready\n");
181                             int ret = read_data(mem->fd, mem->buf, sizeof(mem->buf)); //.........................修改
182                             printf("read is over, the ret is %d\n", ret);
183                             if(ret > 0)
184                             {
185                                 mem->buf[ret] = '\0';
186                                 printf("client# %s\n", mem->buf);
187 
188                                 ev.data.ptr = mem;         //mem中即保持了fd,又保持了buf数据
189                                 ev.events = EPOLLOUT;    //读事件已经完成,现在要关心写事件
190                                 epoll_ctl(epoll_fd, EPOLL_CTL_MOD, mem->fd, &ev);
191                             }
192                             else if(ret == 0 )      //客户端已关闭
193                             {
194                                 printf("client is closed\n");
195                                 epoll_ctl(epoll_fd, EPOLL_CTL_DEL, ev_outs[index].data.fd, NULL);     //把该文件描述符从红黑树中移除
196                                 close(ev_outs[index].data.fd);
197                                 free(mem);
198                             }
199                             else
200                             {
201                                 perror("read");                                                                                           
202                                 continue;
203                             }
204                         }
205                         else if(ev_outs[index].events & EPOLLOUT)   //写事件准备就绪
206                         {
207                             data_buf_p mem = (data_buf_p)ev_outs[index].data.ptr;
208                             int fd = mem->fd;
209                             char* buf = mem->buf;
210 
211                             char *msg = "HTTP/1.0 200 OK\r\n\r\nhello world:)\r\n"; //.....................修改
212                             if( write(fd, msg, strlen(msg)) < 0)                //.........................修改
213                             {
214                                 perror("write");
215                                 continue;
216                             }
217 
218                             epoll_ctl(epoll_fd, EPOLL_CTL_DEL, fd, NULL);     //把该文件描述符从红黑树中移除    ............修改
219                             close(fd);                                       //.............................................修改
220                             free(mem);                                       //.............................................修改
221                             mem = NULL;
222 
223                 //          ev.events = EPOLLIN;       //这个文件描述符的写事件已完成,下次关心读事件  ..................修改
224                 //          ev.data.fd = mem->fd;     //........................................修改
225                 //          epoll_ctl(epoll_fd, EPOLL_CTL_MOD, fd, &ev);  //....................修改
226                         }
227                         else   //DoNothing
228                         {}
229                     }
230                 }
231                 break;
232         }
233     }
234 }
235 
236 int main()
237 {
238     int listenSock = ListenSock();
239     epoll_fd(listenSock);
240     close(listenSock);
241     return 0;
242 }


执行结果:

linux高性能服务器编程之epoll_第3张图片




六.总结:

epoll目前为止最为高效的多路复用接口,它比select和poll高效的本质原因在于epoll采用的nmap技术和使用了基于事件的触发机制。

另外,epoll会给所有要监听的文件描述符创建一个红黑树以方便操作,并且会把已经准备好的文件描述符单独拿出来放到一个链表中,来提高效率。

epoll默认的工作模式是LT模式,当ET模式要比LT模式更高效,所以,要提高epoll效率,可以使epoll工作在ET模式下,在ET模式下,要把所有的套接字都设置为非阻塞模式。

使epoll工作在ET模式下,就要封装一个read函数,来保证能把I/O缓冲区内的数据一次读取完。