redis源码分析--事件驱动模型

redis的服务器是一个事件驱动模型。驱动整个服务运转的关键技术就是IO多路复用,我认为,epoll(linux下的多路复用)是整个redis服务的"发动机"。

既然是事件驱动,那redis中的事件是什么呢?分为两类事件:文件事件(socket可读或可写)和时间事件(定时任务),redis表示事件循环中的事件封装的结构体是struct aeEventLoop

ae.h

/* State of an event based program */
typedef struct aeEventLoop {
    int maxfd;   /* highest file descriptor currently registered */
    int setsize; /* max number of file descriptors tracked */
    long long timeEventNextId;
    time_t lastTime;     /* Used to detect system clock skew */
    aeFileEvent *events; /* Registered events */ /*文件事件数组,存储所有注册的文件事件*/
    aeFiredEvent *fired; /* Fired events */      /*存储被触发的文件事件*/
    aeTimeEvent *timeEventHead;                  /*事件事件链表的头结点,所有的定时任务存储在该链表中,这是一个无序的链表,因此处理超时事件的复杂度为O(n),这个数据结构可以优化*/
    int stop;     /*标识时间循环是否结束*/
    void *apidata; /* This is used for polling API specific data */
    aeBeforeSleepProc *beforesleep;       /*调用epool_wait阻塞程序之前调用*/
    aeBeforeSleepProc *aftersleep;        /*阻塞程序之后调用,epoll_wait之后还要处理定时事件,因此epoll_wait阻塞的时间需要关注*/
    int flags;
} aeEventLoop;

事件驱动程序的写法一般都是固定:一个死循环,等待事件的发生并处理,处理完开始下一次循环,redis的写法也是如此,在ae.c中:

ae.c

void aeMain(aeEventLoop *eventLoop) {
    eventLoop->stop = 0;
    while (!eventLoop->stop) {
        aeProcessEvents(eventLoop, AE_ALL_EVENTS|
                                   AE_CALL_BEFORE_SLEEP|
                                   AE_CALL_AFTER_SLEEP);
    }
}

//aeProcessEvents是事件处理的主函数,有两个参数。eventLoop是要处理的事件,AE_ALL_EVENTS表示处理所有事件,AE_CALL_BEFORE_SLEEP和AE_CALL_AFTER_SLEEP表示在调用epoll_wait阻塞之前和之后分别要执行beforesleep和aftersleep函数

下来我们分别看一下文件事件和事件事件的处理。

文件事件:

redis分为客户端程序和服务器程序,客户端通过TCP socket与服务器连接交互,因此,文件事件指的是socket可读可写事件。socket读写操作分为阻塞和非阻塞模式,redis采用的是非阻塞IO模式。

阻塞IO 非阻塞IO
当我们调用套接字的读写方法,默认它们是阻塞的。当用户线程发出IO请求之后,内核会去查看数据是否就绪,如果没有就绪就会等待数据就绪,而用户线程就会处于阻塞状态,用户线程交出CPU。当数据就绪之后,内核会将数据拷贝到用户线程,并返回结果给用户线程,用户线程才解除block状态。

用户线程需要不断地询问内核数据是否就绪,也就说非阻塞IO不会交出CPU,而会一直占用CPU。

非阻塞 IO 在套接字对象上提供了一个选项Non_Blocking,当这个选项打开时,读写方法不会阻塞,而是能读多少读多少,能写多少写多少。能读/写多少取决于内核为套接字分配的读/写缓冲区内部的数据字节数,读方法和写方法都会通过返回值来告知程序实际读写了多少字节。

在非阻塞模式下,可以使用IO多路复用来同时处理多条网络连接。redis会根据不同的操作系统采用不同的多路复用机制,linux上使用的是epoll。

ae.c

int aeProcessEvents(aeEventLoop *eventLoop, int flags)
{
    //......
    aeTimeEvent *shortest = NULL;
    if (flags & AE_TIME_EVENTS && !(flags & AE_DONT_WAIT))
            shortest = aeSearchNearestTimer(eventLoop);
    //aeSearchNearestTimer函数的功能是遍历时间事件链表,返回最近超时的时间时间,这个参数在后边的epool_wait中要用
    //......
    //aeApiPoll函数是对IO多路复用机制的封装,在linux下调用的是epoll
    numevents = aeApiPoll(eventLoop, tvp);
    //......
    //对epool_wait返回的可读可写事件分别执行读写操作
    for (j = 0; j < numevents; j++) {
        if (!invert && fe->mask & mask & AE_READABLE) {
             fe->rfileProc(eventLoop,fd,fe->clientData,mask);
        }
        if (fe->mask & mask & AE_WRITABLE) {
            fe->wfileProc(eventLoop,fd,fe->clientData,mask);
        }    
    
    //处理时间时间
    processed += processTimeEvents(eventLoop);
}

 aeProcessEvents是redis事件循环的执行函数,该函数的执行流程可以总结为:

 (1)调用aeSearchNearestTimer函数遍历时间事件链表,找到最近要发生的超时事件

 (2)调用aeApiPoll 执行IO多路复用函数(linux下调用epoll),阻塞等待文件事件的发生。这里需要注意的是,调用aeApiPoll时传的第二个参数是个时间时间结构体aeTimeEvent,这是从时间时间链表中找到的最早的超时时间。该参数有什么用呢? 答案是,调用epoll_wait时需要传入一个超时事件的参数,这个参数表示的意思是阻塞等待的最长时间,如果在该超时时间之内,还没有事件准备就绪的话,epoll_wait就会返回。这里把这个参数设置为最早的超时事件,目的是为了保证定时器的精度,即如果没有文件事件准备就绪的话,最早的超时事件也会被处理。

(3)回调处理文件事件

(4)调用processTimeEvents处理时间事件。

aeApiPoll函数是对IO多路复用的封装,具体实现在ae_epoll.c/ae_kqueue.c/ae_epoll.c中(根据操作系统选择)。linux下执行的是ae_epoll.c中的:

ae_epoll.c

static int aeApiPoll(aeEventLoop *eventLoop, struct timeval *tvp) {
    aeApiState *state = eventLoop->apidata;
    int retval, numevents = 0;

    retval = epoll_wait(state->epfd,state->events,eventLoop->setsize,
            tvp ? (tvp->tv_sec*1000 + tvp->tv_usec/1000) : -1);
    if (retval > 0) {
        int j;

        numevents = retval;
        for (j = 0; j < numevents; j++) {
            int mask = 0;
            struct epoll_event *e = state->events+j;

            if (e->events & EPOLLIN) mask |= AE_READABLE;
            if (e->events & EPOLLOUT) mask |= AE_WRITABLE;
            if (e->events & EPOLLERR) mask |= AE_WRITABLE|AE_READABLE;
            if (e->events & EPOLLHUP) mask |= AE_WRITABLE|AE_READABLE;
            eventLoop->fired[j].fd = e->data.fd;
            eventLoop->fired[j].mask = mask;
        }
    }
    return numevents;
}

 这是非常标准的也是固定的epoll的写法。函数首先需要通过eventLoop->apidata字段获取epoll模型对应的aeApiState结构体对象,才能调用epoll_wait函数等待事件的发生;epoll_wait函数将已触发的事件存储到aeApiState对象的events字段,Redis再次遍历所有已触发事件,将其封装在eventLoop->fired数组,数组元素类型为结构体aeFiredEvent,只有两个字段,fd表示发生事件的socket文件描述符,mask表示发生的事件类型,如AE_READABLE可读事件和AE_WRITABLE可写事件。

epoll_wait返回可读可写的文件描述符后,程序会回调注册的读写函数,循环处理每一个文件描述符上的读写事件。文件事件的结构体为:

/* File event structure */
typedef struct aeFileEvent {
    int mask; /* one of AE_(READABLE|WRITABLE|BARRIER) */
    aeFileProc *rfileProc;
    aeFileProc *wfileProc;
    void *clientData;
} aeFileEvent;

mask∶存储监控的文件事件类型,如AE_READABLE可读事件和AE_WRITABLE可写事件;
rfileProc∶为函数指针,指向读事件处理函数;
wfileProc∶同样为函数指针,指向写事件处理函数;
clientData∶指向对应的客户端对象。

Redis服务器启动时需要创建socket并监听,(initServer函数)等待客户端连接;客户端与服务器建立socket连接之后,服务器会等待客户端的命令请求;服务器处理完客户端的命令请求之后,命令回复会暂时缓存在client结构体的buf缓冲区,待客户端文件描述符的可写事件发生时,才会真正往客户端发送回复命令。这些都需要创建对应的文件事件。

server.c

void initServer(void){
    //........
    aeCreateFileEvent(server.el,server.ipfd[j],AE_READABLE,
acceptTcpHandler,NULL);
        
    aeCreateFileEvent(server.el, fd,AE_READABLE,
readQueryFromClient,c);
 
    aeCreateFileEvent(server.el,c->fd, ae_flags,
sendReplyToClient,Cc);
    //........
}

时间事件:

时间事件的处理在文件事件之后,执行的函数为processTimeEvents。事件时间的处理就是处理定时任务。多个定时任务被串成链表,链表头结点timeEventHead存储在aeEventLoop结构体中,之前已经提到过。时间事件aeTimeEvent的结构体定义为:

/* Time event structure */
typedef struct aeTimeEvent {
    long long id; /* time event identifier. 事件时间唯一ID*/
    long when_sec; /* seconds 超时事件触发的秒数*/
    long when_ms; /* milliseconds 超时事件触发的毫秒数*/
    aeTimeProc *timeProc  /*处理超时事件的函数指针*/;
    aeEventFinalizerProc *finalizerProc  /*函数指针,删除超时事件节点之前调用*/;
    void *clientData;  /*指向对应的客户端对象*/
    struct aeTimeEvent *prev;  //双向链表前向节点,指向前一个超时事件
    struct aeTimeEvent *next;  //双向链表后继节点,指向后一个超时事件
    int refcount; /* refcount to prevent timer events from being
  		   * freed in recursive time event calls. 引用计数,防止重复释放*/
} aeTimeEvent;

时间事件执行函数processTimeEvents的处理逻辑比较简单,只是遍历时间事件链表,判断当前时间事件是否已经到期,如果到期则执行时间事件处理函数timeProc∶

static int processTimeEvents(aeEventLoop *eventLoop) {
    int processed = 0;
    aeTimeEvent *te;
    long long maxId;
    time_t now = time(NULL);
    /*
        如果将系统时钟移到未来,然后将其设置回正确的值,则时间事件可能会以随机方式延迟。这通常意味着预定的操作不会很快执行。
在这里,我们尝试检测系统时钟偏差,并强制所有时间事件在发生这种情况时尽快处理:其思想是,更早地处理事件比无限期地延迟事件危险性小,实践表明确实如此。
    */
    /*
    eventLoop->lastTime记录的是系统事件偏差,如果当前时间比这个时间早,就让这个超时事件提前执行
    */
    if (now < eventLoop->lastTime) {
        te = eventLoop->timeEventHead;
        while(te) {
            te->when_sec = 0;
            te = te->next;
        }
    }
    eventLoop->lastTime = now;

    te = eventLoop->timeEventHead;
    maxId = eventLoop->timeEventNextId-1;
    /*
    遍历链表,处理超时事件
    */
    while(te) {
        long now_sec, now_ms;
        long long id;
        
        /* Remove events scheduled for deletion. 处理过的事件或无效事件删除掉*/
        if (te->id == AE_DELETED_EVENT_ID) {
            aeTimeEvent *next = te->next;
            /* If a reference exists for this timer event,
             * don't free it. This is currently incremented
             * for recursive timerProc calls */
            if (te->refcount) {
                te = next;
                continue;
            }
            if (te->prev)
                te->prev->next = te->next;
            else
                eventLoop->timeEventHead = te->next;
            if (te->next)
                te->next->prev = te->prev;
            if (te->finalizerProc)
                te->finalizerProc(eventLoop, te->clientData);
            zfree(te);
            te = next;
            continue;
        }

        if (te->id > maxId) {
            te = te->next;
            continue;
        }
        aeGetTime(&now_sec, &now_ms);
        //获取当前时间,如果当前时间大于或等于超时事件,说明该超时事件已到,调用回调函数去处理
        if (now_sec > te->when_sec ||
            (now_sec == te->when_sec && now_ms >= te->when_ms))
        {
            int retval;

            id = te->id;
            te->refcount++;
            retval = te->timeProc(eventLoop, id, te->clientData);
            te->refcount--;
            processed++;
            //是否需要循环执行,是则重新加入超时事件链表,等待下一次执行
            if (retval != AE_NOMORE) {
                aeAddMillisecondsToNow(retval,&te->when_sec,&te->when_ms);
            } else {
                te->id = AE_DELETED_EVENT_ID;
            }
        }
        te = te->next;
    }
    return processed;
}

 

 

 

 

 

 

 

 

你可能感兴趣的:(redis,redis)