转载请注明出处:http://blog.csdn.net/luotuo44/article/details/42869325
之前的《slab内存分配》博文已经写到:一个slab class里面的所有slab分配器只分配相同大小的item,不同的slab class分配不同大小的item。item结构体里面有一个slabs_clsid成员,用来指明自己是属于哪个slab class的。这里把slabs_clsid值相同的item称为是同一类item。
slab分配器负责分配一个item,但这个item并非直接被哈希表进行管理。从《哈希表的删除操作》可以得知,对哈希表中的某一个item进行删除只是简单地将这个item从哈希表的冲突链中删除掉,并没有把item内存归还给slab。实际上,slab分配器分配出去的item是由一个LRU队列进行管理的。当一个item从LRU队列中删除就会归还给slab分配器 。
LRU队列其实是一个双向链表。memcached里面有多条LRU队列,条数等于item的种类数。所以呢,同一类item(slabs_clsid成员变量值相等)将放到同一条LRU队列中。之所以是双向链表,是因为要方便从前后两个方向插入和遍历链表。下面浏览一下item结构体的部分成员。
typedef struct _stritem {
struct _stritem *next; //next指针,用于LRU链表
struct _stritem *prev; //prev指针,用于LRU链表
struct _stritem *h_next;//h_next指针,用于哈希表的冲突链
rel_time_t time; //最后一次访问时间。绝对时间
...
uint8_t slabs_clsid;/* which slab class we're in */
} item;
//memcached.h文件
#define POWER_LARGEST 200
//items.c文件
#define LARGEST_ID POWER_LARGEST
static item *heads[LARGEST_ID];//指向每一个LRU队列头
static item *tails[LARGEST_ID];//指向每一个LRU队列尾
static unsigned int sizes[LARGEST_ID];//每一个LRU队列有多少个item
可以看到这三个数组的大小是和slabclass提供的最大slab class个数是一样的。这样也印证了一个LRU队列就对应一类item。heads[i]指向第i类LRU链表的第一个item,tails[i]则指向了第i类LRU链表的最后一个item,sizes[i]则指明第i类LRU链表有多少个item。由LRU队列和heads和tails构成的结构如下图所示:
假设我们有一个item要插入到LRU链表中,那么可以通过调用item_link_q函数把item插入到LRU队列中。下面是具体的实现代码。
//将item插入到LRU队列的头部
static void item_link_q(item *it) { /* item is the new head */
item **head, **tail;
assert(it->slabs_clsid < LARGEST_ID);
assert((it->it_flags & ITEM_SLABBED) == 0);
head = &heads[it->slabs_clsid];
tail = &tails[it->slabs_clsid];
assert(it != *head);
assert((*head && *tail) || (*head == 0 && *tail == 0));
//头插法插入该item
it->prev = 0;
it->next = *head;
if (it->next) it->next->prev = it;
*head = it;//该item作为对应链表的第一个节点
//如果该item是对应id上的第一个item,那么还会被认为是该id链上的最后一个item
//因为在head那里使用头插法,所以第一个插入的item,到了后面确实成了最后一个item
if (*tail == 0) *tail = it;
sizes[it->slabs_clsid]++;//个数加一
return;
}
有了插入函数,肯定有对应的删除函数。删除函数是蛮简单,主要是处理删除这个节点后,该节点的前后驱节点怎么拼接在一起。
//将it从对应的LRU队列中删除
static void item_unlink_q(item *it) {
item **head, **tail;
assert(it->slabs_clsid < LARGEST_ID);
head = &heads[it->slabs_clsid];
tail = &tails[it->slabs_clsid];
if (*head == it) {//链表上的第一个节点
assert(it->prev == 0);
*head = it->next;
}
if (*tail == it) {//链表上的最后一个节点
assert(it->next == 0);
*tail = it->prev;
}
assert(it->next != it);
assert(it->prev != it);
//把item的前驱节点和后驱节点连接起来
if (it->next) it->next->prev = it->prev;
if (it->prev) it->prev->next = it->next;
sizes[it->slabs_clsid]--;//个数减一
return;
}
可以看到无论是插入还是删除一个item,其耗时都是常数。其实对于memcached来说几乎所有的操作时间复杂度都是常数级的。
为什么要把item插入到LRU队列头部呢?当然实现简单是其中一个原因。但更重要的是这是一个LRU队列!!还记得操作系统里面的LRU吧。这是一种淘汰机制。在LRU队列中,排得越靠后就认为是越少使用的item,此时被淘汰的几率就越大。所以新鲜item(访问时间新),要排在不那么新鲜item的前面,所以插入LRU队列的头部是不二选择。下面的do_item_update函数佐证了这一点。do_item_update函数是先把旧的item从LRU队列中删除,然后再插入到LRU队列中(此时它在LRU队列中排得最前)。除了更新item在队列中的位置外,还会更新item的time成员,该成员指明上一次访问的时间(绝对时间)。如果不是为了LRU,那么do_item_update函数最简单的实现就是直接更新time成员即可。
#define ITEM_UPDATE_INTERVAL 60 //更新频率为60秒
void do_item_update(item *it) {
//下面的代码可以看到update操作是耗时的。如果这个item频繁被访问,
//那么会导致过多的update,过多的一系列费时操作。此时更新间隔就应运而生
//了。如果上一次的访问时间(也可以说是update时间)距离现在(current_time)
//还在更新间隔内的,就不更新。超出了才更新。
if (it->time < current_time - ITEM_UPDATE_INTERVAL) {
mutex_lock(&cache_lock);
if ((it->it_flags & ITEM_LINKED) != 0) {
item_unlink_q(it);//从LRU队列中删除
it->time = current_time;//更新访问时间
item_link_q(it);//插入到LRU队列的头部
}
mutex_unlock(&cache_lock);
}
}
memcached处理get命令时会调用do_item_update函数更新item的访问时间,更新其在LRU队列的位置。在memcached中get命令是很频繁的命令,排在LRU队列第一或者前几的item更是频繁被get。对于排在前几名的item来说,调用do_item_update是意义不大的,因为调用do_item_update后其位置还是前几名,并且LRU淘汰再多item也难于淘汰不到它们(一个LRU队列的item数量是很多的)。另一方面,do_item_update函数耗时还是会有一定的耗时,因为要抢占cache_lock锁。如果频繁调用do_item_update函数性能将下降很多。于是memcached就是使用了更新间隔。
前面讲了怎么在LRU队列中插入和删除一个item,现在讲一下怎么从slab分配器中申请一个item和怎么归还item给slab分配器。
虽然前面多次提到了item,但item长成什么样子估计读者还是迷迷糊糊的。下面看一下item结构体的完整定义吧,留意英文注释。
#define ITEM_LINKED 1 //该item插入到LRU队列了
#define ITEM_CAS 2 //该item使用CAS
#define ITEM_SLABBED 4 //该item还在slab的空闲队列里面,没有分配出去
#define ITEM_FETCHED 8 //该item插入到LRU队列后,被worker线程访问过
typedef struct _stritem {
struct _stritem *next;//next指针,用于LRU链表
struct _stritem *prev;//prev指针,用于LRU链表
struct _stritem *h_next;//h_next指针,用于哈希表的冲突链
rel_time_t time;//最后一次访问时间。绝对时间
rel_time_t exptime;//过期失效时间,绝对时间
int nbytes;//本item存放的数据的长度
unsigned short refcount;//本item的引用数
uint8_t nsuffix;//后缀长度 /* length of flags-and-length string */
uint8_t it_flags;//item的属性 /* ITEM_* above */
uint8_t slabs_clsid;/* which slab class we're in */
uint8_t nkey;//键值的长度 /* key length, w/terminating null and padding */
/* this odd type prevents type-punning issues when we do
* the little shuffle to save space when not using CAS. */
union {
uint64_t cas;
char end;
} data[];
/* if it_flags & ITEM_CAS we have 8 bytes CAS */
/* then null-terminated key */
/* then " flags length\r\n" (no terminating null) */
/* then data with terminating \r\n (no terminating null; it's binary!) */
} item;
上面代码里面的英文注释说明了item布局。item结构体的最后一个成员是data[],这样的定义称为柔性数组。柔性数组的一个使用特点是,数据域就存放在数组的后面。memcached的item也是这样使用柔性数组的。上面的item只是定义了item结构体本身的成员,但之前的博文一直用item表示item存储的数据。这样写是合理的。因为item结构体本身和item对应的数据都是存放slab分配器分配的同一块内存里面。在《slab内存分配器》初始化slabclass数组的时候,其分配的内存块大小是sizeof(item) +settings.chunk_size。
item结构体后面紧接着的是一堆数据,并非仅仅是用户要存储的data,具体如下图所示:
看上面的图可能还不完全清楚明了item以及对应数据的存储形式。我懂的,码农是需要代码才能完全清楚明了的。
#define ITEM_key(item) (((char*)&((item)->data)) \
+ (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_suffix(item) ((char*) &((item)->data) + (item)->nkey + 1 \
+ (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_data(item) ((char*) &((item)->data) + (item)->nkey + 1 \
+ (item)->nsuffix \
+ (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
#define ITEM_ntotal(item) (sizeof(struct _stritem) + (item)->nkey + 1 \
+ (item)->nsuffix + (item)->nbytes \
+ (((item)->it_flags & ITEM_CAS) ? sizeof(uint64_t) : 0))
static size_t item_make_header(const uint8_t nkey, const int flags, const int nbytes,
char *suffix, uint8_t *nsuffix) {
/* suffix is defined at 40 chars elsewhere.. */
*nsuffix = (uint8_t) snprintf(suffix, 40, " %d %d\r\n", flags, nbytes - 2);
return sizeof(item) + nkey + *nsuffix + nbytes;//计算总大小
}
//key、flags、exptime三个参数是用户在使用set、add命令存储一条数据时输入的参数。
//nkey是key字符串的长度。nbytes则是用户要存储的data长度+2,因为在data的结尾处还要加上"\r\n"
//cur_hv则是根据键值key计算得到的哈希值。
item *do_item_alloc(char *key, const size_t nkey, const int flags,
const rel_time_t exptime, const int nbytes,
const uint32_t cur_hv) {
uint8_t nsuffix;
item *it = NULL;
char suffix[40];
//要存储这个item需要的总空间。要注意第一个参数是nkey+1,所以上面的那些宏计算时
//使用了(item)->nkey + 1
size_t ntotal = item_make_header(nkey + 1, flags, nbytes, suffix, &nsuffix);
if (settings.use_cas) {//开启了CAS功能
ntotal += sizeof(uint64_t);
}
//根据大小判断从属于哪个slab
unsigned int id = slabs_clsid(ntotal);
if (id == 0)//0表示不属于任何一个slab
return 0;
...
it = slabs_alloc(ntotal, id);//从slab分配器中申请内存
it->refcount = 1;
it->it_flags = settings.use_cas ? ITEM_CAS : 0;
it->nkey = nkey;
it->nbytes = nbytes;
memcpy(ITEM_key(it), key, nkey);//这里只拷贝nkey个字节,最后一个字节空着
it->exptime = exptime;
memcpy(ITEM_suffix(it), suffix, (size_t)nsuffix);
it->nsuffix = nsuffix;
return it;
}
码农们好好体会上面代码中的几个宏定义以及item_make_header函数。上面的代码还只是超级简单地介绍了do_item_alloc函数,之所以说超级简单是因为这个函数实际上是相当复杂的,完整版本点击这里查看。
上面简单给出了向slab申请一个item,现在贴出归还item的代码。
//items.c文件
void item_free(item *it) {
size_t ntotal = ITEM_ntotal(it);
unsigned int clsid;
clsid = it->slabs_clsid;
it->slabs_clsid = 0;
slabs_free(it, ntotal, clsid);
}
//slabs.c文件
void slabs_free(void *ptr, size_t size, unsigned int id) {
pthread_mutex_lock(&slabs_lock);
do_slabs_free(ptr, size, id);//归还给slab分配器
pthread_mutex_unlock(&slabs_lock);
}
前面的do_item_alloc函数是根据所需的大小申请一个item。从do_item_alloc实现代码来看,它没有把这个item插入到哈希表和LRU队列中。实际上这个任务是由另外的函数实现的。
接下来阅读,如何把item传给哈希表、LRU队列以及如何从哈希表、LRU队列收回item(有时还需要归还给slab的)。
//将item插入到哈希表和LRU队列中,插入到哈希表需要哈希值hv
int do_item_link(item *it, const uint32_t hv) {
//确保这个item已经从slab分配出去并且还没插入到LRU队列中
assert((it->it_flags & (ITEM_LINKED|ITEM_SLABBED)) == 0);
//当哈希表不在为扩展而迁移数据时,就往哈希表插入item
//当哈希表在迁移数据时,会占有这个锁。
mutex_lock(&cache_lock);
it->it_flags |= ITEM_LINKED;//加入 已link标志
it->time = current_time;
/* Allocate a new CAS ID on link. */
ITEM_set_cas(it, (settings.use_cas) ? get_cas_id() : 0);
assoc_insert(it, hv);//将这个item插入到哈希表中
item_link_q(it);//将这个item插入到链表中
refcount_incr(&it->refcount);//引用计数加一
mutex_unlock(&cache_lock);
return 1;
}
//从哈希表删除,所以需要哈希值hv
void do_item_unlink(item *it, const uint32_t hv) {
mutex_lock(&cache_lock);
if ((it->it_flags & ITEM_LINKED) != 0) {
it->it_flags &= ~ITEM_LINKED;//减去已link标志
assoc_delete(ITEM_key(it), it->nkey, hv);//将这个item从哈希表中删除
item_unlink_q(it);//从链表中删除该item
do_item_remove(it);//向slab归还这个item
}
mutex_unlock(&cache_lock);
}
void do_item_remove(item *it) {
assert((it->it_flags & ITEM_SLABBED) == 0);
assert(it->refcount > 0);
if (refcount_decr(&it->refcount) == 0) {//引用计数等于0的时候归还
item_free(it);//归还该item给slab
}
}
前面的代码中很少使用锁。但实际上前述的item操作都是需要加锁的,因为可能多个worker线程同时操作哈希表和LRU队列。之所以很少看到锁是因为他们都使用了包裹函数(如果看过《UNIX网络编程》,这个概念应该不陌生)。在包裹函数中加锁和解锁。前面的函数中,函数名一般都是以do_作为前缀。其对应的包裹函数名就是去掉前缀do_。锁的介绍不是本博文的任务,后面会有专门的博文介绍锁的使用。