1、基于概念
epoll是一种机制,来处理大量并发连接时事件的读写顺序。
在linux的网络编程中,很长的时间都在使用select来做事件触发。2.5.X内核后,引入epoll。
epoll是Linux内核为处理大批量句柄而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著减少程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。
因为它不会复用文件描述符集合来传递结果而迫使开发者每次等待事件之前都必须重新准备要被侦听的文件描述符集合,另一点原因就是获取事件的时候,它无须遍历整个被侦听的描述符集,只要遍历那些被内核IO事件异步唤醒而加入Ready队列的描述符集合就行了。epoll的除了提供select/poll那种IO事件的电平触发(Level Triggered)外,还提供了边沿触发(Edge Triggered),这就使得用户空间程序有可能缓存IO状态,减少epoll_wait/epoll_pwait的调用,提高应用程序效率。
在 linux/posix_types.h头文件有这样的声明:
#define __FD_SETSIZE 1024
表示select最多同时监听1024个fd,当然,可以通过修改头文件再重编译内核来扩大这个数目。
epoll所支持的FD上限是最大可以打开文件的数目,在1GB内存的机器上大约是10万左右,具体数目可以cat /proc/sys/fs/file-max察看。
2、效率
select/poll致命弱点是当拥有个很大的socket集合,不过由于网络延时,任一时间只有部分的socket是“活跃”的,但是select/poll每次调用都会线性扫描全部的集合,导致效率呈现线性下降。但是epoll不存在这个问题,它只会对“活跃”的socket进行操作---这是因为在内核实现中epoll是根据每个fd上面的callback函数实现的。那么,只有“活跃”的socket才会主动的去调用 callback函数,其他idle状态socket则不会,在这点上,epoll实现了一个“伪”AIO,因为这时候推动力在os内核。在一些 benchmark中,如果所有的socket基本上都是活跃的---比如一个高速LAN环境,epoll并不比select/poll有什么效率,相反,如果过多使用epoll_ctl,效率相比还有稍微的下降。但是一旦使用idle connections模拟WAN环境,epoll的效率就远在select/poll之上了。
3、工作模式
LT(level triggered)是缺省的工作方式,并且同时支持block和no-block socket.在这种做法中,内核告诉你一个文件描述符是否就绪了,然后你可以对这个就绪的fd进行IO操作。如果你不作任何操作,内核还是会继续通知你的,所以,这种模式编程出错误可能性要小一点。传统的select/poll都是这种模型的代表。
ET(edge-triggered)是高速工作方式,只支持no-block socket。在这种模式下,当描述符从未就绪变为就绪时,内核通过epoll告诉你。然后它会假设你知道文件描述符已经就绪,并且不会再为那个文件描述符发送更多的就绪通知,直到你做了某些操作导致那个文件描述符不再为就绪状态了(比如,继续发送数据,将导致另一个就绪状态;把缓存中的数据全部read完;或者发送接收的数据少于一定量时导致了一个EWOULDBLOCK/EAGAIN 错误等三种情况)。但是请注意,如果一直不对这个fd作IO操作(从而导致它再次变成未就绪),内核不会发送更多的通知(only once),也就是说:每次连续的数据流只通知一次,不过在TCP协议中,ET模式的加速效用仍需要更多的benchmark确认。
总结一下:
ET模式仅当状态发生变化的时候才获得通知,这里所谓的状态的变化并不包括缓冲区中还有未处理的数据,也就是说,如果要采用ET模式,需要一直read/write直到出错为止,很多人反映为什么采用ET模式只接收了一部分数据就再也得不到通知了,大多因为这样;而LT模式是只要有数据 没有处理就会一直通知下去的。
1. struct epoll_event
结构体epoll_event被用于注册所感兴趣的事件和回传所发生待处理的事件,定义如下:
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;//保存触发事件的某个文件描述符相关的数据
struct epoll_event {
__uint32_t events; /* epoll event */
epoll_data_t data; /* User data variable */
};
其中events表示感兴趣的事件和被触发的事件,可能的取值为:
EPOLLIN:表示对应的文件描述符可以读;
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数可读;
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: ET的epoll工作模式;
所涉及到的函数有:
1、epoll_create函数
函数声明:int epoll_create(int size)
功能:该函数生成一个epoll专用的文件描述符,其中的参数是指定生成描述符的最大范围;
2、epoll_ctl函数
函数声明:int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)
功能:用于控制某个文件描述符上的事件,可以注册事件,修改事件,删除事件。
@epfd:由epoll_create生成的epoll专用的文件描述符;
@op:要进行的操作,EPOLL_CTL_ADD注册、EPOLL_CTL_MOD修改、EPOLL_CTL_DEL删除;
@fd:关联的文件描述符;
@event:指向epoll_event的指针;
成功:0;失败:-1
3、epoll_wait函数
函数声明:int epoll_wait(int epfd,struct epoll_event * events,int maxevents,int timeout)
功能:该函数用于轮询I/O事件的发生;
@epfd:由epoll_create生成的epoll专用的文件描述符;
@epoll_event:用于回传代处理事件的数组;
@maxevents:每次能处理的事件数;
@timeout:等待I/O事件发生的超时值;
成功:返回发生的事件数;失败:-1
应用举例:
int main()
{
int i, maxi, listenfd, new_fd, sockfd,epfd,nfds;
ssize_t n;
char line[MAXLINE];
socklen_t clilen;
struct epoll_event ev,events[20];//ev用于注册事件,数组用于回传要处理的事件
struct sockaddr_in clientaddr, serveraddr;
listenfd = socket(AF_INET, SOCK_STREAM, 0);//生成socket文件描述符
setnonblocking(listenfd);//把socket设置为非阻塞方式
epfd=epoll_create(256);//生成用于处理accept的epoll专用的文件描述符
ev.data.fd=listenfd;//设置与要处理的事件相关的文件描述符
ev.events=EPOLLIN|EPOLLET;//设置要处理的事件类型
epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);//注册epoll事件
//设置服务器端地址信息
bzero(&serveraddr, sizeof(serveraddr));
serveraddr.sin_family = AF_INET;
char *local_addr= LOCAL_ADDR;
inet_aton(local_addr,&(serveraddr.sin_addr));
serveraddr.sin_port=htons(SERV_PORT);
bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr));//绑定socket连接
listen(listenfd, LISTENQ);//监听
maxi = 0;
for ( ; ; )
{
/* epoll_wait:等待epoll事件的发生,并将发生的sokct fd和事件类型放入到events数组中;
* nfds:为发生的事件的个数。
* 注:
*/
nfds=epoll_wait(epfd,events,20,500);
//处理所发生的所有事件
for(i=0;i
if(events[i].data.fd==listenfd)//事件发生在listenfd上
{
/* 获取发生事件端口信息,存于clientaddr中;
*new_fd:返回的新的socket描述符,用它来对该事件进行recv/send操作*/
new_fd = accept(listenfd,(struct sockaddr *)&clientaddr, &clilen);
if(new_fd<0)
{
perror("new_fd<0");
exit(1);
}
setnonblocking(new_fd);
char *str = inet_ntoa(clientaddr.sin_addr);
ev.data.fd=new_fd;//设置用于读操作的文件描述符
ev.events=EPOLLIN|EPOLLET;//设置用于注测的读操作事件
epoll_ctl(epfd,,,&ev);//注册ev
}
else if(events[i].events&EPOLLIN)
{
if ( (sockfd = events[i].data.fd) < 0)
continue;
if ( (n = read(sockfd, line, MAXLINE)) < 0)
{
if (errno == ECONNRESET)
{
close(sockfd);
events[i].data.fd = -1;
}
else
std::cout<<"readline error"<
else if (n == 0)
{
close(sockfd);
events[i].data.fd = -1;
}
ev.data.fd=sockfd;//设置用于写操作的文件描述符
ev.events=EPOLLOUT|EPOLLET;//设置用于注测的写操作事件
epoll_ctl(epfd,,sockfd,&ev);//修改sockfd上要处理的事件为EPOLLOUT
}
else if(events[i].events&EPOLLOUT)
{
sockfd = events[i].data.fd;
write(sockfd, line, n);
ev.data.fd=sockfd;//设置用于读操作的文件描述符
ev.events=EPOLLIN|EPOLLET;//设置用于注测的读操作事件
epoll_ctl(epfd,,sockfd,&ev);//修改sockfd上要处理的事件为EPOLIN
}
}
}
}