Redis服务器是一个事件驱动程序,服务器需要处理以下两种事件:
Redis基于Reactor模式开发了自己的网络事件处理器:这个处理器被称为文件事件处理器。
虽然文件事件处理器以单线程方式运行,但通过使用I/O多路复用程序来监听多个套接字,文件事件处理器即实现了高性能的网络通信模型,又可以很好地与Redis服务器中其他同样以单线程方式运行地模块进行对接,这保持了Redis内部单线程设计地简单性。
文件事件处理器由四个部分组成,分别是套接字,I/O多路复用程序,文件事件分派器以及事件处理器。
文件事件的对套接字操作的抽象,每当一个套接字准备好执行连接应答(accept),写入,读取关闭等操作时,就会产生一个文件事件。因为一个服务器通常会连接多个套接字,所以多个文件事件可能并发的发生。
I/O多路复用程序负责监听多个套接字,并向文件事件分派器传送那些产生了事件的套接字。
尽管多个文件事件可能会并发地出现,但I/O多路复用程序总是会将所有产生地事件的套接字都放到一个队列里面,然后通过这个队列,以有序,同步,每次一个套接字的方式向文件事件分派器传送套接字。当上一个套接字产生的事件被处理完毕之后(该套接字为事件所关联的事件处理器执行完毕),I/O多路复用程序才会继续向文件事件分派器传送写一个套接字。
文件事件分派器接受I/O多路复用程序传来的套接字,并根据套接字产生的事件的类型调用相应的事件处理器。
服务器会为执行不同任务的套接字关联不同的事件处理器,这些处理器是一个个函数,它们定义了某些事件发生时,服务器应该执行的动作。
Redis的I/O多路复用程序的所有功能都是通过包装常见的select,epoll,evport和kqueue这些I/O多路复用函数库来实现的。每个I/O多路复用函数库在Redis源码中都对应一个单独的文件。比如:ae_select_.c,ae_epoll.c,ae_evport.c和ae_kqueue.c。
因为Redis每个I/O多路复用函数库都实现了相同的API,所以I/O多路复用程序底层实现是可以互换的。
Redis在I/O多路复用程序的实现源码中用#include宏定义了相应的规则,程序会在编译时自动选择系统中性能最高的I/O多路复用函数库来作为Redis的I/O多路复用程序的底层实现:
/* Include the best multiplexing layer supported by this system.
* The following should be ordered by performances, descending. */
#ifdef HAVE_EVPORT
#include "ae_evport.c"
#else
#ifdef HAVE_EPOLL
#include "ae_epoll.c"
#else
#ifdef HAVE_KQUEUE
#include "ae_kqueue.c"
#else
#include "ae_select.c"
#endif
#endif
#endif
I/O多路复用程序可以监听多个套接字的ae.h/AE_READABLE事件和ae.h/AE_WRITABLE事件,这两类事件和套接字操作之间的对应关系如下:
I/O多路复用程序允许服务器同时监听套接字的AE_READABLE和AE_WRITABLE事件,如果一个套接字同时产生了两种事件,那么文件事件分派器会优先处理AE_READABLE事件,等到AE_READABLE事件处理完,才处理AE_WRITABLE事件。
也就是说一个套接字可读可写,那么服务器将先读套接字,后写套接字。
ae.c/aeCreateFileEvent函数接受一个套接字描述符,一个事件类型以及一个事件处理器作为参数,将给定套接字的给定事件加入到I/O多路复用程序的监听范围之内,并对事件和事件处理器进行关联。
int aeCreateFileEvent(aeEventLoop *eventLoop, int fd, int mask,
aeFileProc *proc, void *clientData)
{
if (fd >= eventLoop->setsize) {
errno = ERANGE;
return AE_ERR;
}
aeFileEvent *fe = &eventLoop->events[fd];
if (aeApiAddEvent(eventLoop, fd, mask) == -1)
return AE_ERR;
fe->mask |= mask;
if (mask & AE_READABLE) fe->rfileProc = proc;
if (mask & AE_WRITABLE) fe->wfileProc = proc;
fe->clientData = clientData;
if (fd > eventLoop->maxfd)
eventLoop->maxfd = fd;
return AE_OK;
}
ae.c/aeDeleteFileEvent函数接受一个套接字描述符,一个监听事件类型作为参数,让多路复用程序取消对给定套接字的给定事件的监听,并取消事件和事件处理器之间的关联。
void aeDeleteFileEvent(aeEventLoop *eventLoop, int fd, int mask)
{
if (fd >= eventLoop->setsize) return;
aeFileEvent *fe = &eventLoop->events[fd];
if (fe->mask == AE_NONE) return;
/* We want to always remove AE_BARRIER if set when AE_WRITABLE
* is removed. */
if (mask & AE_WRITABLE) mask |= AE_BARRIER;
aeApiDelEvent(eventLoop, fd, mask);
fe->mask = fe->mask & (~mask);
if (fd == eventLoop->maxfd && fe->mask == AE_NONE) {
/* Update the max fd */
int j;
for (j = eventLoop->maxfd-1; j >= 0; j--)
if (eventLoop->events[j].mask != AE_NONE) break;
eventLoop->maxfd = j;
}
}
ae.c/aeGetFileEvents函数接受一个套接字描述符,返回该套接字正在监听的事件类型:
int aeGetFileEvents(aeEventLoop *eventLoop, int fd) {
if (fd >= eventLoop->setsize) return 0;
aeFileEvent *fe = &eventLoop->events[fd];
return fe->mask;
}
ae.c/aeWait函数接受一个套接字描述符,一个事件类型和一个毫秒数作为参数,在给定时间内阻塞并等待套接字的给定类型事件的产生,当事件成功产生,或者等待超时之后,函数返回。
/* Wait for milliseconds until the given file descriptor becomes
* writable/readable/exception */
int aeWait(int fd, int mask, long long milliseconds) {
struct pollfd pfd;
int retmask = 0, retval;
memset(&pfd, 0, sizeof(pfd));
pfd.fd = fd;
if (mask & AE_READABLE) pfd.events |= POLLIN;
if (mask & AE_WRITABLE) pfd.events |= POLLOUT;
if ((retval = poll(&pfd, 1, milliseconds))== 1) {
if (pfd.revents & POLLIN) retmask |= AE_READABLE;
if (pfd.revents & POLLOUT) retmask |= AE_WRITABLE;
if (pfd.revents & POLLERR) retmask |= AE_WRITABLE;
if (pfd.revents & POLLHUP) retmask |= AE_WRITABLE;
return retmask;
} else {
return retval;
}
}
ae_select.c/aeApiPoll函数接收一个sys/time.h/struct timeval结构作为参数,并在指定的时间内,阻塞并等待所有被aeCreateFileEvent函数设置为监听状态的套接字产生的文件事件,当至少一个事件产生,或者等待超时之后,函数返回。
ae.c/aeProcessEvents函数是文件事件分派器,他先调用aeApiPoll函数来等待事件产生,然后遍历所有已经产生的事件,并调用相应事件处理器来处理这些事件。
ae.c/aeGetApiName函数返回I/O多路复用程序底层所使用的I/O多路复用函数库的名称,返回"epoll"表示底层为epoll库,返回"select"表示底层为select函数库,诸如此类。
Redis为文件事件编写了多个处理器,这些事件处理器分别用于实现不同的网络通信需求,比如说:
在这些事件处理器中,服务器常用的是与客户端进行通信的连接应答处理器,命令请求处理器和命令回复处理器。
networking.c/acceptTcpHandler函数是Redis的连接应答处理器,这个处理器用于对连接服务器监听套接字的客户端进行应答,具体实现为sys/socket.h/accept函数的包装。
当Redis服务器进行初始化的时候,程序会将这个连接应答处理器和服务器监听套接字的AE_READABLE事件关联起来,当有客户端用sys/socket.h/connect函数连接服务器监听套接字的时候,套接字就会产生AE_READABLE事件,引发连接应答处理器执行。
networking.c/readQueryFromClient函数是Redis的命令请求处理器,这个处理器负责从套接字中读入客户端发送的命令请求,具体实现为unistd.h/read函数的包装。
当一个客户端通过连接应答处理器成功连接到服务器后,服务器会将客户端套接字的AE_READABLE事件和命令请求处理器关联,当客户端向服务器发送命令请求的时候,套接字会产生AE_READABLE事件,引发命令请求处理器执行,并执行相应套接字读入操作。
在客户端连接服务器的整个过程中,服务器都会一直为客户端套接字的AE_READABLE事件关联命令请求处理器。
networking.c/sendReplyToClient函数是Redis的命令回复处理器,这个处理器负责将服务器执行命令后得到的命令回复通过套接字返回给客户端,具体事项为unistd.h/write函数的包装。
当服务器有命令回复需要传送给客户端的时候,服务器会将客户端套接字的AE_WRITABLE事件和命令回复处理器关联起来,当客户端准备好接收服务器传回的命令回复时,就会产生AE_WRITABLE事件,引发命令回复处理器执行,并执行相应的套接字写入操作。
当命令回复完毕之后,服务器就会解除命令回复处理器与客户端套接字的AE_WRITABLE事件之间的关联。
假设一个Redis服务器正在允许,那么这个服务器的监听套接字的AE_READABLE事件正处于监听状态之下,而该事件所对应的处理器为连接应答处理器。
如果这时有一个Redis客户端向服务器发起连接,那么监听套接字将产生AE_READABLE事件,触发连接应答处理器执行,处理器会对客户端的连接请求进行应答,然后创建客户端套接字,以及客户端状态,并将客户端套接字的AE_READABLE事件与命令请求处理器关联,使得客户端可以向服务器发送命令请求。
之后,假设客户端向主服务器发送发送命令请求,那么客户端套接字将产生AE_READABLE事件,引发命令请求处理器执行,处理器读取客户端的命令内容,然后传给相关程序去执行。
执行命令将产生相应的命令回复,为了将命令回复传送给客户端,服务器会将客户端套接字与AE_WRITABLE事件与命令回复处理器关联,当客户端尝试读取命令回复的时候,客户端套接字将产生AE_WRITABLE事件,触发命令回复处理器执行,当命令回复处理器将命令回复全部写入到套接字之后,服务器就会解除客户端套接字的AE_WRITABLE事件与命令回复处理器之间的关联。
Redis时间事件分为以下两类:
一个时间事件主要由以下三个属性组成:
一个时间事件是定时事件还是周期性事件取决于时间事件处理器的返回值:
服务器将所有时间事件都放在一个无序链表中,每当时间事件执行器运行时,它就遍历整个链表,查找所有已到达的时间事件,并调用相应的时间处理器。
下图展示了一个保存时间事件的链表,链表中包含了三个不同的时间事件:因为新的时间事件总是插入到链表的表头,所以三个时间事件分别按ID逆序排列,表头事件的ID为3,中间事件ID为2,表尾事件ID为1。
注意,这里说保存时间事件的链表为无序链表,指的不是链表不按ID排序,而是说,该链表不按when属性的大小排列,正因为链表没有按when属性进行排列,所以当时间事件执行器运行的时候,它必须遍历链表中的所有时间事件,这样才能确保服务器中所有已到达的时间事件都会被处理。
无序链表并不影响时间事件处理器的性能:
在目前版本中,正常模式下的Redis服务器只使用serverCron一个时间事件,而benchmark模式下,服务器也只使用两个时间事件。在这种情况下,服务器几乎是将无序链表退化成一个指针来使用,所以使用无序链表来保存时间事件,并不影响事件执行的性能。
ae.c/aeCreateTimeEvent函数接受一个毫秒数milliseconds和一个时间事件处理器proc作为参数,将一个新的时间事件添加到服务器。这个新的时间事件将在当前时间的milliseconds毫秒之后到达,而事件处理器为proc。
ae.c/aeDeleteFileEvent函数接受一个时间事件ID作为参数,然后从服务器中删除该ID作为对应的时间事件。
ae.c/aeSearchNearestTimer函数返回到达时间距离当前时间最接近的那个时间事件。
ae.c/processTimeEvents函数是时间事件的执行器,这个函数会遍历所有已到达的时间事件,并调用这些事件的处理器。已到达的是指,时间事件when属性记录的UNIX时间戳等于或小于当前时间的UNIX时间戳。
processTimeEvents的伪代码:
def processTimeEvents():
#遍历服务器中的所有时间事件
for time_event in all_time_event():
#检查事件是否已经达到
if time_event.when <= unix_ts_now():
#事件已经到达,执行时间事件处理器
#获取返回值
ret_val = time_event.timeProc()
#如果这个事件是一个定时事件
if ret_val == AE_NOMORE:
#将该事件从服务器中删除
delete_time_event_from_server(time_event)
else:
#周期性事件
#更新when属性
update_when(time_event, retval)
持续运行的Redis服务器需要定期对自身的资源和状态进行检查和调整。从而确保服务器可以长期,稳定的运行。这些定期操作由redis.c/serverCron函数负责执行,它的主要工作包括:
Redis服务器以周期性事件的方式来运行serverCron函数,在服务器运行期间,每隔一段时间,serverCron就会执行一次,直到服务器关闭为止。
在Redis2.6版本,服务器默认规定serverCron每秒运行10次,平均每隔100毫秒运行一次。
从Redis2.8版本,用户可以通过修改hz选项调整serverCron的每秒执行次数,具体信息参看配置文件redis.conf关于hz选项的说明。
因为服务器中同时存在文件事件和时间事件两种事件类型,所以服务器必须对这两种事件进行调度,决定何时处理文件事件,何时处理时间事件,以及花多少时间来处理它们等。
事件的调度和执行有ae.c/aeProcessEvent函数负责,以下是该函数的伪代码:
def aeProcessEvents():
#获取到达时间离当前时间最接近的时间事件
time_event = aeSearchNearestTimer()
#计算最接近的时间事件距离到达还有多少毫秒
remaind_ms = time_event.when - unix_ts_now()
#如果事件已到达,那么remaind_ms的值可能为负数,将它设定为0
if remaind_ms < 0:
remaind_ms = 0
#根据remaind_ms的值创建timeval结构
timeval = create_timeval_with_ms(remaind_ms)
#阻塞并等待文件事件产生,最大阻塞时间由传入的timeval结构决定
#如果remaind_ms的值为0,那么aeApiPoll调用后马上返回,不阻塞
aeApiPoll(timeval)
#处理所有已产生的文件事件
processFileEvents()
#处理所有已到达的时间事件
processTimeEvents()
注意:
前面在介绍文件事件的API的时候,并没有讲到processFileEvents这个函数,因为它并不存在,在实际中,处理文件事件的代码是直接写在aeProcessEvents函数里面的。
将aeProcessEvents函数置于一个循环里面,加上初始化和清理函数,这就构成了Redis服务器的主函数,以下是伪代码:
def main():
#初始化服务器
init_server()
#一直处理事件,直到服务器关闭为止
while server_is_not_shutdown():
aeProcessEvents()
#服务器关闭,执行清理操作
clean_server()
从事件处理角度来看,Redis服务器的运行流程可以用下面的流程图来概括:
以下是事件调度和执行规则:
事件调度例子: