路飞H

redis6.0源码分析：字典扩容与渐进式rehash

文章目录

字典
- 数据结构
- - 结构设计
  - dictType字典类型
  - 为什么字典有两个哈希表？
  - 哈希算法
扩容机制
- 扩容前置知识
- - 字典存在几种状态？
  - 容量相关的关键字段定义
  - 字典的容量都是2的幂次方
- 扩容机制
- - 字典什么时候会扩容？
  - 扩容的阈值 & 扩容的倍数
  - 哪些方法会触发扩容？
  - 触发扩容后会怎么扩容？
渐进式rehash
- 前置知识
- - 为什么要rehash？
  - 渐进式rehash？
- 什么时候会rehash？
- rehash流程
- - 被动式迁移
  - 主动式迁移
问题
- 哈希冲突时，为什么都是头插入？
- rehash阶段遇到读写事件会发生什么？
- - 读事件
  - 写事件
- 扩容 & rehash期间，如果新增过快，又到了扩容的阈值会怎么样？
- rehash每次迁移多少数据？

字典

数据结构

结构设计

redis的字典的结构定义主要分为三块结构体，dict，dictht，dictEntry，它们之间的关系如下：

从上图中，其实我们可以看出，Redis 的字典设计，是通过数组 + 链表的方式去实现。

代码实现

/* 字典数据结构 */
typedef struct dict {
    dictType *type;		// 字典类型，会跟 hash 函数等方法的具体实现有关
    void *privdata;		// 私有数据
    dictht ht[2];		// 一个字典，含有两个哈希表
    long rehashidx; 	// 代表 rehashing 到了什么位置，rehashidx = -1 						  // 代表未进行 rehash
    unsigned long iterators; // 当前正在迭代的迭代器数, number of iterators currently running 
} dict;

/* 哈希表, HashTable, 简写 ht */
typedef struct dictht {
    dictEntry **table; 		// 节点数组，可知 ht 的结构是数组 + 链表构成
    unsigned long size;		// table 数组的大小，即 ht 的大小
    // table 大小的掩码，等于 size - 1, 就是用于获取 key 索引运算的
    // index = hash(key) & size - 1 = hash(key) & sizemask
    unsigned long sizemask;
    unsigned long used; 	// ht 表中已有键值对的个数，并非 table 数组占用个数
} dictht;

/* 哈希表节点，单个 Node */
typedef struct dictEntry {
    void *key; 				// key, 存储哈希表的 key
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v; 					// value, 存储哈希表的 value
    struct dictEntry *next; // 单链表结构，指向下一个节点，用于解决哈希冲突
} dictEntry;

如果代码不够具象，也可以结合下图一起思考下

dictType字典类型

dictType 属性的知识点属于额外补充知识啦，跟扩容也没有太大关系。字典类型的概念是为了多态字典而存在的。即每种 DictType 都会实现一簇操作于特定键值的函数。说白了就是 Redis 为用途不同的字典设置了不同类型操作键值的特定函数

typedef struct dict {
    dictType *type;
	...
} dict;

typedef struct dictType {
	// 计算键 hash 值的函数
    uint64_t (*hashFunction)(const void *key);
    // 复制键的函数 
    void *(*keyDup)(void *privdata, const void *key);
    // 复制值的函数
    void *(*valDup)(void *privdata, const void *obj);
    // 对比键的函数
    int (*keyCompare)(void *privdata, const void *key1, const void *key2);
    // 销毁键的函数
    void (*keyDestructor)(void *privdata, void *key);
    // 销毁值的函数
    void (*valDestructor)(void *privdata, void *obj);
} dictType;

为什么字典有两个哈希表？

为什么 redis 的 dict 数据结构有两个哈希表 ht ? 它们的作用和承担的角色分别是什么？

因为 redis 是单进程单线程模型，而且既要支撑一个大容量，还要保持高性能的读写性能，所以不同于 Java HashMap 的扩容是在本体进行。而是由两个哈希表 + 渐进式 rehash 的方式来实现扩容机制的。由此实现平滑扩容，又不阻塞读写
通常时候，字典的数据都是在第一个哈希表 ht[0] 进行的。当字典判断需要扩容的时候，就会停止对 ht[0] 进行写操作，而是对 ht[1] 赋予一个 2 倍大小的新哈希表，并将所有写操作指向 ht[1], 此时表示哈希表扩容完成，随后进入 rehashing 阶段，即开始渐进式数据迁移
在 rehashing 的过程中，ht[0] 会继续保持对原有数据的读操作，而扩容后新写的数据的读操作则在 ht[1] 进行，直到 ht[0] 的所有数据迁移到 ht[1] 后，则直接 ht[0] = ht[1]，完成整个扩容 & rehash 操作。

所以我们可以简单的总结出两个哈希表分别承担的角色是

ht[0] 是日常主要的数据存储表, 对外提供读写能力
ht[1] 作为扩容时使用的临时表，保证扩容机制平滑进行

哈希算法

Redis 的字典在 Redis 3.2 以前采用的是 murmurhash2 实现的，在 Redis 4.0 之后则采用 siphash

我们在 src/dict.c 可以看到获取 key 的哈希值是通过 dictHashKey 实现的，所以我们找 dictHashKey 方法

 h = dictHashKey(d, de->key) & d->ht[1].sizemask;

在 src/dict.h 头文件这么定义了 dictHashKey 方法, 那么 type 是啥玩意？type->hashFunction(key) 又是啥方法？

#define dictHashKey(d, key) (d)->type->hashFunction(key)

这个时候就需要翻到 dict 定义中，有一个 dictType 类型，代表字典的类型

typedef struct dict {
    dictType *type;
	...
} dict;

typedef struct dictType {
    uint64_t (*hashFunction)(const void *key); // 某种 dictType 类型的 hash function
    void *(*keyDup)(void *privdata, const void *key);
    void *(*valDup)(void *privdata, const void *obj);
    int (*keyCompare)(void *privdata, const void *key1, const void *key2);
    void (*keyDestructor)(void *privdata, void *key);
    void (*valDestructor)(void *privdata, void *obj);
} dictType;

好的， dict 的 type 是那种呢？我们看到 src/server.c 的 initServer 函数的一段代码

void initServer(...) {
	...
   /* Create the Redis databases, and initialize other internal state. */
    for (j = 0; j < server.dbnum; j++) {
        server.db[j].dict = dictCreate(&dbDictType,NULL);
        server.db[j].expires = dictCreate(&keyptrDictType,NULL);
        server.db[j].expires_cursor = 0;
        server.db[j].blocking_keys = dictCreate(&keylistDictType,NULL);
        server.db[j].ready_keys = dictCreate(&objectKeyPointerValueDictType,NULL);
        server.db[j].watched_keys = dictCreate(&keylistDictType,NULL);
        server.db[j].id = j;
        server.db[j].avg_ttl = 0;
        server.db[j].defrag_later = listCreate();
        listSetFreeMethod(server.db[j].defrag_later,(void (*)(void*))sdsfree);
    }
    ...
}

/* Db->dict, keys are sds strings, vals are Redis objects. */
dictType dbDictType = {
    dictSdsHash,                /* hash function */
    NULL,                       /* key dup */
    NULL,                       /* val dup */
    dictSdsKeyCompare,          /* key compare */
    dictSdsDestructor,          /* key destructor */
    dictObjectDestructor   /* val destructor */
};

我们得知 dict 是 db 的存放数据的字典，它传入了 dbDictType 类型。在定义中，我们也得知 hash function 具体实现是 dictSdsHash, 所以我们就找 dictSdsHash 即可，在 src/server.c 中，我们找到了

uint64_t dictSdsHash(const void *key) {
    return dictGenHashFunction((unsigned char*)key, sdslen((char*)key));
}

所以得知调用入口是 dictGenHashFunction 方法，回到 src/dict.c 代码如下

//https://github.com/redis/redis/blob/unstable/src/dict.c
uint64_t dictGenHashFunction(const void *key, int len) {
    return siphash(key,len,dict_hash_function_seed);
}

好的，真相了，那就是 spihash 算法。

扩容机制

在上面了解了 dict 的数据结构的基础上，我们来了解 dict 是如何进行扩容，以及扩容后数据是如何迁移的？但在了解扩容机制和数据迁移之间，我们先来问几个问题

dict 存在几种状态？
dict 初始化？
dict 什么时候扩容？扩容阀值是多少？扩容倍数是多少？
哪些地方会触发扩容？怎么扩容？
扩容后，数据如何 rehash ？
一次扩容后的rehash 过程中，由于 key 写入过快，很快又超过了新的扩容阀值，此时怎么办？

然后我们基于以上的问题，一个一个问题来回答和解析

扩容前置知识

字典存在几种状态？

在了解扩容机制之前，我们可以先小小剧透一下， dict 总共就存在 4 种状态

table.size 不变，无扩缩容
扩容中
缩容中
rehashing 中

了解了状态后，就可以更好的方便我们理解了

容量相关的关键字段定义

扩容状态码

#define DICT_OK 0					// 成功
#define DICT_ERR 1					// 失败

哈希表初始值

#define DICT_HT_INITIAL_SIZE     4	//  哈希表 (ht) size 的初始值

扩容安全阈值

static int dict_can_resize = 1;
static unsigned int dict_force_resize_ratio = 5;

void dictEnableResize(void) {
    dict_can_resize = 1;
}

void dictDisableResize(void) {
    dict_can_resize = 0;
}

Using dictEnableResize() / dictDisableResize() we make possible to enable/disable resizing of the hash table as needed. This is very important for Redis, as we use copy-on-write and don’t want to move too much memory around when there is a child performing saving operations.

Note that even when dict_can_resize is set to 0, not all resizes are prevented: a hash table is still allowed to grow if the ratio between the number of elements and the buckets > dict_force_resize_ratio.

字典的容量都是2的幂次方

/* Our hash table capability is a power of two */
static unsigned long _dictNextPower(unsigned long size)
{
    unsigned long i = DICT_HT_INITIAL_SIZE;

    if (size >= LONG_MAX) return LONG_MAX + 1LU;
    while(1) {
        if (i >= size)
            return i;
        i *= 2;
    }
}

size 是要扩容的大小，进入 _dictNextPower 后，会计算得到一个接近 size 的值，且又是 2 的幂次方

扩容机制

字典什么时候会扩容？

那么我们就看下 sre/dict.c 的 _dictExpandIfNeeded 方法即可，因为字典的扩容时需要这个方法去判断，所以我们可以看到字典有三种扩容的渠道

当字典还没有被初始化，即字典的 hashtable[0] 为空时，那我们就初始化字典的第一个 hashtable

ht[0].size = 0

当 hashtable[0] 的键值对数量 >= hashtable[0] 数组的 size 时，且全局设置 dict_can_resize = true, 我们就扩容

d->ht[0].used >= d->ht[0].size && dict_can_resize = true
当 hashtable[0] 的键值对数量 >= hashtable[0] 数组的 size 时, 且键值对数量已经超过数组大小的 5 倍的安全阀值时，就强制触发扩容

d->ht[0].used >= d->ht[0].size && d->ht[0].used/d->ht[0].size > dict_force_resize_ratio

static int _dictExpandIfNeeded(dict *d)
{
    // 如果当前处于 rehash 状态，则直接返回 0 (代表无需扩容，已扩容，新扩容成功)
    if (dictIsRehashing(d)) return DICT_OK;

    /* If the hash table is empty expand it to the initial size. */
    // 如果 hashtable[0] 的大小为 0, 代表整个 dict 还没有被初始化，所以先初始	  // 化字典的第一个 hashtable，初始大小是 4
    if (d->ht[0].size == 0) return dictExpand(d, DICT_HT_INITIAL_SIZE);

	// 当 hashtable[0] 的键值数 >= hashtable[0] 的 entry 数组大小
	// 且 (dict_can_resize = true 或 hashtable[0] 键值数已超过 hashtable 	 // 节点数组大小的 5 倍的安全阀值) 就会触发扩容
	// 扩容倍数是已有键值数  (ht.used) 的两倍，注意不是 ht 的 size
    if (d->ht[0].used >= d->ht[0].size &&
        (dict_can_resize ||
         d->ht[0].used/d->ht[0].size > dict_force_resize_ratio))
    {
        return dictExpand(d, d->ht[0].used*2);
    }
    return DICT_OK;
}

_dictExpandIfNeeded 和 dictExpand 的返回值都是 0 (DICT_OK) 或 1 (DICT_ERR)，

DICT_OK 代表新扩容成功，正在 rehashing ，无需扩容
DICT_ERR 代表非法操作，即非法扩容，扩容失败
- 或是在 rehashing 阶段进入 dictExpand 函数
- 或是在 dictExpand 阶段传入扩容 size 小于当前 used
- 或是在 dictExpand 阶段

扩容的阈值 & 扩容的倍数

扩容阀值是多少？

相较 Java HashMap 的扩容因子为 0.75, 那么 Redis 字典的扩容因子就是 1, 即容量占比百分百才触发扩容。当然从 _dictExpandIfNeeded 函数中，我们可以看到这并不是绝对的，要取决于 dict_can_resize 的设置是否允许。如果不允许扩容时，那么只有等到键值对数量/数组大小 > 5 时才会触发扩容

dict_force_resize_ratio 为什么是 5 ?
为什么键值对数量会大于数组大小，甚至超过 5 倍，因为字典的底层数据结构是 array + list。在键值对接近数组 size 的时候，哈希冲突的概率会越来越大，从而在数组的节点中形成链表。之所以 redis 的安全阀值是 5, 因为 redis 觉得这是底线，5 倍阀值的情况下，数组平均每个节点就是 5 个节点的链表了，再往后冲突，字典的查询性能会逐步下降

扩容倍数是多少？

从 _dictExpandIfNeeded 方法，我们可以看到，字典的扩容倍数是 2 倍

dictExpand(d, d->ht[0].used*2)

哪些方法会触发扩容？

我们来看下什么地方会调用 _dictExpandIfNeeded 方法，可以看到是 _dictkeyIndex, 可以得知这是一个根据 key 获得其索引位置的函数

/* 方法：获得 key 在 hashtable 的索引
 * 入参：*d 是当前字典，*key 键，hash 是 key 的哈希值，existing 就是 ht 的节点数组
 * 返回值：
 * 	1. -1 代表失败
 * 		- 可能是扩容失败, 有异常，导致不允许后续行为，所以返回 -1
 * 		- 也可能是键值已存在，并且不打算覆盖旧值，所以返回 -1
 *  2. 有值，代表该 key 经过计算，在 ht 的 idx 索引位置
 * 注意：
 * 	1. 如果 existing 指针指向有值，并且该值在 ht 中存在，existing 会隐式将对应 	*		entry 带出去给外层调用方法
 */
static long _dictKeyIndex(dict *d, const void *key, uint64_t hash, dictEntry **existing)
{
    unsigned long idx, table;
    dictEntry *he;
    if (existing) *existing = NULL;
	
	// 如果需要扩容，则扩容，如果扩容失败，则返回 -1
    /* Expand the hash table if needed */
    if (_dictExpandIfNeeded(d) == DICT_ERR)
        return -1;
    // 遍历 dict 的两个哈希表, 因为 key 可能在 ht[0], 也可能在 ht[1]    
    for (table = 0; table <= 1; table++) {
    	// mod 运算得到 key 的
        idx = hash & d->ht[table].sizemask;
        /* Search if this slot does not already contain the given key */
        he = d->ht[table].table[idx];
        // 如果 key 存在，则遍历链表，看 key 是否存在 existing 中，如果存在则返回 -1
        // 如果 key 不存在，则直接返回该 key 要插入的位置 idx
        while(he) {
            if (key==he->key || dictCompareKeys(d, key, he->key)) {
            	// 如果 existing 有值，则将存在的 entry 赋值给指针，交给外层调用方
                if (existing) *existing = he;
                return -1;
            }
            he = he->next;
        }
        // 如果 dict 不在 rehashing 状态，就不用遍历 ht[1] 了，因为没有数据
        if (!dictIsRehashing(d)) break;
    }
    // 返回 key 在 ht 节点数组的索引
    return idx;
}

那么谁又在调用 _dictkeyIndex 呢？是 *dictAddRaw方法，这个方法又是干嘛的呢？它就是向字典插入一个数据的基础方法，会有很多操作方法调用它，来看看

/* 方法：向 dict 插入一个键值对, 并返回新增的节点 entry
 * 返回值：
 * 	1. NULL 代表键已存在，不更新
 *  2. 有值，代表键不存在，并新增成功
 */
dictEntry *dictAddRaw(dict *d, void *key, dictEntry **existing)
{
    long index;
    dictEntry *entry;
    dictht *ht;

	// 如果当前处于 rehashing 状态，则主动去迁移一个键值数据
    if (dictIsRehashing(d)) _dictRehashStep(d);

    /* Get the index of the new element, or -1 if
     * the element already exists. */
    // 如果该键值已经存在，则 dictKeyIndex 会返回 -1, 则直接返回 null， 代表没有新增
    // 如果该键值不存在，属于新增，则将该 key 在 entry 数组的索引返回，并赋值给 index
    if ((index = _dictKeyIndex(d, key, dictHashKey(d,key), existing)) == -1)
        return NULL;

    /* Allocate the memory and store the new entry.
     * Insert the element in top, with the assumption that in a database
     * system it is more likely that recently added entries are accessed
     * more frequently. */
	// 如果处于 rehashing 状态，则向第二个哈希表 ht[1] 插入数据， 反之 ht[0]	
    ht = dictIsRehashing(d) ? &d->ht[1] : &d->ht[0];
    // 分配一个 entry 新节点, 并对 ht->table[index] 链表进行头插入 ，used + 1
    entry = zmalloc(sizeof(*entry));
    entry->next = ht->table[index];
    ht->table[index] = entry;
    ht->used++;

	// 暂不关心，不影响理解，有兴趣看 src/dict.h
    /* Set the hash entry fields. */
    dictSetKey(d, entry, key);
    // 返回新增节点
    return entry;
}

我们知道了 *dictAddRaw 是字典的基本插入方法，那么谁会调用它呢？

int dictAdd(dict *d, void *key, void *val)
int dictReplace(dict *d, void *key, void *val)
dictEntry *dictAddOrFind(dict *d, void *key)

// 如果不存在则插入，存在则插入失败
/* Add an element to the target hash table */
int dictAdd(dict *d, void *key, void *val)
{
    dictEntry *entry = dictAddRaw(d,key,NULL);

    if (!entry) return DICT_ERR;
    dictSetVal(d, entry, val);
    return DICT_OK;
}

/* Add or Overwrite:
 * Add an element, discarding the old value if the key already exists.
 * Return 1 if the key was added from scratch, 0 if there was already an
 * element with such key and dictReplace() just performed a value update
 * operation.
 * 
 * 如果存在则更新，不存在则插入
 * 新增返回 1， 更新返回 0  
 */
int dictReplace(dict *d, void *key, void *val)
{
    dictEntry *entry, *existing, auxentry;

    /* Try to add the element. If the key
     * does not exists dictAdd will succeed. */
    entry = dictAddRaw(d,key,&existing);
    if (entry) {
        dictSetVal(d, entry, val);
        return 1;
    }

    /* Set the new value and free the old one. Note that it is important
     * to do that in this order, as the value may just be exactly the same
     * as the previous one. In this context, think to reference counting,
     * you want to increment (set), and then decrement (free), and not the
     * reverse.
     * 
     * 由 dictAddRaw 隐式返回旧值 entry 的 existing 指向，所以我们可以对 existing 指向的 entry 进行新值更新 
     * 
     * */
    auxentry = *existing;
    dictSetVal(d, existing, val);
    dictFreeVal(d, &auxentry);
    return 0;
}

/* Add or Find:
 * dictAddOrFind() is simply a version of dictAddRaw() that always
 * returns the hash entry of the specified key, even if the key already
 * exists and can't be added (in that case the entry of the already
 * existing key is returned.
 * 没啥好说的
 *
 * See dictAddRaw() for more information. */
dictEntry *dictAddOrFind(dict *d, void *key) {
    dictEntry *entry, *existing;
    entry = dictAddRaw(d,key,&existing);
    return entry ? entry : existing;
}

单纯的对应 redis 的命令，dictAdd 和 dictReplace 就可以实现 setIfpresent, setIfabsent, set 等命令了

触发扩容后会怎么扩容？

在我们知道了触发扩容的时机，扩容的阀值，扩容的倍数，以及会导致触发扩容的方法后。我们就要来看看扩容的中重头戏了，那就是怎么扩容？ ，主要依赖 dictExpand 方法，所以重点看

/* 方法：Expand or create the hash table， 扩容或新建哈希表
 * 参数：
 * 	1. *d: 要操作的字典
 * 	2. size: 想为 *d 字典扩容到 size 大小
 * 返回值：
 *  1. DICT_ERR 1 扩容或初始化 ht 失败
 * 		- 正处于 rehashing ，数据未完全迁移，无法进行下一次扩容
 * 		- ht[0].used > size, 扩容无意义
 * 		- ht[0].size == realsize, ht[0] 的 size 已经达到 realsize, 没有扩  	*         容的意义
 * 	2. DICT_OK  0 扩容或初始化 ht 成功
 * 
 */
int dictExpand(dict *d, unsigned long size)
{
    /* the size is invalid if it is smaller than the number of
     * elements already inside the hash table */
    // 如果正在处于 rehashing，则返回 1，代表刚刚已进行过扩容，并且数据仍未完成全	  	// 部迁移，无法进行下一次扩容，扩容失败
    // 或 ht[0] 已有的键值对数量已经大于 size, 则代表将字典继续扩容到 size 大小  		 // 已经没有意义，返回 1, 表示此次扩容无意义
    if (dictIsRehashing(d) || d->ht[0].used > size)
        return DICT_ERR;
	
	// 到达这里，代表允许扩容，并且将 size 调整到接近 2 的幂次方的一个数值
    dictht n; /* the new hash table */
    unsigned long realsize = _dictNextPower(size);

	// 如果此时的 ht[0] 
    /* Rehashing to the same table size is not useful. */
    if (realsize == d->ht[0].size) return DICT_ERR;

	// 为新哈希表赋值
    /* Allocate the new hash table and initialize all pointers to NULL */
    n.size = realsize;
    n.sizemask = realsize-1;
    n.table = zcalloc(realsize*sizeof(dictEntry*));
    n.used = 0;

	// 如果 ht[0] == null, 代表该字典还没有被使用，这是第一次进行初始化，所以将 	// n 赋值给 ht[0]
    /* Is this the first initialization? If so it's not really a rehashing
     * we just set the first hash table so that it can accept keys. */
    if (d->ht[0].table == NULL) {
        d->ht[0] = n;
        return DICT_OK;
    }

	// 如果不是第一次初始化，则将扩容后的新哈希表赋值给 ht[1]，并更新 rehashidx 	// = 0 ,代表开始 rehashing, 从 0 开始
    /* Prepare a second hash table for incremental rehashing */
    d->ht[1] = n;
    d->rehashidx = 0;
    // 扩容成功
    return DICT_OK;
}

我们知道 dict 就是 redis 的字典数据结构，它有两个 ht, 当 ht[0].used 达到阀值，就会触发字典的扩容，而扩容就是新分配一个 2*ht[0].used 大小的哈希表给 ht[1]，以此循环完成扩容。既然我们知道了 ht[0], ht[1] 是如何搭配工作，完成字典的扩容，那么扩容之后，数据又是如何从旧哈希表迁移到新哈希表的呢？

看后面的 rehash 机制吧

渐进式rehash

前置知识

为什么要rehash？

为什么要 rehash ? 如果你是 Java 技术栈，那么你肯定了解过 HashMap 的数据 rehash ，一种巧妙的二进制操作，就将数据从一个数组迁移到另一个数组里。同理 Redis 字典扩容后也需要一种手段，将数据从一个容器迁移到另一个容器中，只不过 Redis 迁移的方式与 Java 不一致而已

渐进式rehash？

因为 Redis 的字典和 Java 的 HashMap 定位不同， Redis 承载了更大量的数据，并承诺提供高性能的读写，而类 Java 的一次性同步数据迁移会消费大量的时间，而 Redis 又是单进程单线程模型，更不允许因为主线程因为 rehash 而出现长时的阻塞。
所以 Redis 灵机一动，既然无法一次性全量迁移，那么我就一次迁移一部分，直到完成全部数据的迁移，这样单次数据迁移的时间就大大缩小，从而不影响读写，又能保证数据平滑迁移，所以这也就是渐进式迁移数据的过程

什么时候会rehash？

我们想知道什么时候回开始出发 rehash ? 我们回想下在看扩容的代码时，也就是 dictExpand方法时，最下面有段代码

int dictExpand(dict *d, unsigned long size) {
	...
    /* Prepare a second hash table for incremental rehashing */
    d->ht[1] = n;
    d->rehashidx = 0;
    ...
}

当把字典的 rehashidx 字典置为 0 时，也就代表了字典开始进行 rehash 了

/* 字典数据结构 */
typedef struct dict {
	...
    dictht ht[2];		// 一个字典，含有两个哈希表
    long rehashidx; 	// 代表 rehashing 到了什么位置，rehashidx = -1 代表							// 未进行 rehash
    ...
} dict;

我们再来看到 src/dict.h 的 dictIsRehashing 方法，可以知道，通过判断 rehashidx 是否等于 -1 就能判断当前字典是否处于 rehashing 状态，也能进一步证明 rehashidx = 0 时，代表 rehash 正式开始进行

// src/dict.h
#define dictIsRehashing(d) ((d)->rehashidx != -1)

rehash流程

那么字典是如何进行渐进式 rehash 的呢？它主要分为两种方式进行

[被动式触发] ：每次外部调用的 CRUD 都会触发一次数据迁移，每次迁移一份数据
[主动式触发] ：定时任务，每次扫描一点数据进行迁移

被动式迁移

基本上涉及到查询，删除，修改，新增的方法都有判断该字典是否处于 rehashing 状态，如果处于 rehashing 状态，就调用 _dictRehashStep(d) 进行数据迁移; 例子如下，太多了，就不一一列出来了

dictEntry *dictAddRaw(dict *d, void *key, dictEntry **existing) {
	...
    if (dictIsRehashing(d)) _dictRehashStep(d);
	...
}

static dictEntry *dictGenericDelete(dict *d, const void *key, int nofree) {
	...
    if (dictIsRehashing(d)) _dictRehashStep(d);
    ...
}

static dictEntry *dictGenericDelete(dict *d, const void *key, int nofree) {
	...
    if (dictIsRehashing(d)) _dictRehashStep(d);
	...

我们看到 _dictRehashStep(d) 是一个入口，那么我们就深入看下去，每次 CRUD 会触发一个怎么样的数据迁移，迁移多少

/* This function performs just a step of rehashing, and only if there are
 * no safe iterators bound to our hash table. When we have iterators in the
 * middle of a rehashing we can't mess with the two hash tables otherwise
 * some element can be missed or duplicated.
 *
 * This function is called by common lookup or update operations in the
 * dictionary so that the hash table automatically migrates from H1 to H2
 * while it is actively used. */
static void _dictRehashStep(dict *d) {
    if (d->iterators == 0) dictRehash(d,1);
}

我们先忽略 iterators 的存在，通常等于 0，总之它调用了 dictRehash 方法, 并且每次只迁移哈希表数组的一个槽位 （因为链表存在，可能迁移多个键值对），继续往下看

Performs N steps of incremental rehashing. Returns 1 if there are still keys to move from the old to the new hash table, otherwise 0 is returned.

Note that a rehashing step consists in moving a bucket (that may have more than one key as we use chaining) from the old to the new hash table, however since part of the hash table may be composed of empty spaces, it is not

guaranteed that this function will rehash even a single bucket, since it will visit at max N*10 empty buckets in total, otherwise the amount of work it does would be unbound and the function may block for a long time.

/*
 * 方法：rehash, 对数据进行迁移
 * 参数：*d：要操作的字典，n：迁移 n 个数组槽位
 * 返回值：
 * 	1. 返回 1，代表还有数据要迁移
 *  2. 返回 0，代表所有数据已经迁移完了
 *
 */
int dictRehash(dict *d, int n) {
	// 原文注释说有说明, 最多遍历 n*10 个空桶, 避免过于耗时，因为数组中可能有很多	 // 连续为空的数组槽位
	// 避免此次 rehash 过于耗时
    int empty_visits = n*10; /* Max number of empty buckets to visit. */
    // 如果 rehashing 已经结束，或没有开始，那么返回 0 ，代表迁移完毕，或无需迁移
    if (!dictIsRehashing(d)) return 0;
	
	// 遍历 n 次，条件是 ht[0] 数据还没有迁移完，中途如果发现迁移完了，则退出循环
    while(n-- && d->ht[0].used != 0) {
        dictEntry *de, *nextde;

        /* Note that rehashidx can't overflow as we are sure there are more
         * elements because ht[0].used != 0 */
		// rehashidx 代表数据迁移已经迁移到 ht[0] 的rehashidx 位置了，所以 		 
		// rehashidx 不会大于 ht[0].size 
        assert(d->ht[0].size > (unsigned long)d->rehashidx);
		// 如果遇到空槽位，则去检查下一个槽位，顺便做最大空桶检查
        while(d->ht[0].table[d->rehashidx] == NULL) {
            d->rehashidx++;
            if (--empty_visits == 0) return 1;
        }
		
		// 如果非空桶，则此槽位有数据，遍历该槽位的链表，将该链表的数据 rehash, 			
		// 迁移到 ht[1]
        de = d->ht[0].table[d->rehashidx];
        /* Move all the keys in this bucket from the old to the new hash HT */
        while(de) {
            uint64_t h;

            nextde = de->next;
            /* Get the index in the new hash table */
            h = dictHashKey(d, de->key) & d->ht[1].sizemask;
            de->next = d->ht[1].table[h];
            d->ht[1].table[h] = de;
            d->ht[0].used--;
            d->ht[1].used++;
            de = nextde;
        }
        // 每迁移一个槽位，就将 ht[0] 原数据回收， rehashidx++
        d->ht[0].table[d->rehashidx] = NULL;
        d->rehashidx++;
    }

    /* Check if we already rehashed the whole table... */
    // 当发现 ht[0] 已经没有任何数据了，则回收 ht[0] 指向的空间
    if (d->ht[0].used == 0) {
        zfree(d->ht[0].table);
        // 并将 ht[0] 重新指向已完成扩容和数据迁移的新哈希表 ht[1]
        d->ht[0] = d->ht[1];
        _dictReset(&d->ht[1]);
        // 并表示 rehashing 状态已结束，完成数据迁移
        d->rehashidx = -1;
        return 0;
    }

	// 如果跳过了上面的判断，则代表还有很多数据有待迁移
    /* More to rehash... */
    return 1;
}

我们可以看到字典的扩容的终止操作其实是在 rehash 方法中完成的，即 ht[0] 指针被重新指向，且字典的 rehashidx = -1
而且被动式 rehash 只会迁移一个数组槽位的数据，(因为链表，所以迁移的键值对可能大于 1 个)

主动式迁移

入口在 src/server.c 文件里，我们看到 databaseCron方法, 我们可以还知道该方法是一个定时任务方法，会执行诸如键过期， resizeing, rehashing 等操作，不过我们不想看这么多，就省略非重点代码

/* This function handles 'background' operations we are required to do
 * incrementally in Redis databases, such as active key expiring, resizing,
 * rehashing. */
void databasesCron(void) {
  		...
        /* Rehash */
        if (server.activerehashing) {
            for (j = 0; j < dbs_per_call; j++) {
                int work_done = incrementallyRehash(rehash_db);
                if (work_done) {
                    /* If the function did some work, stop here, we'll do
                     * more at the next cron loop. */
                    break;
                } else {
                    /* If this db didn't need rehash, we'll try the next one. */
                    rehash_db++;
                    rehash_db %= server.dbnum;
                }
            }
        }
    }
}

我们看到了会执行 incrementallyRehash 方法，继续往下看

/* Our hash table implementation performs rehashing incrementally while
 * we write/read from the hash table. Still if the server is idle, the hash
 * table will use two tables for a long time. So we try to use 1 millisecond
 * of CPU time at every call of this function to perform some rehashing.
 *
 * The function returns 1 if some rehashing was performed, otherwise 0
 * is returned. */
int incrementallyRehash(int dbid) {
	// 字典 rehashing
    /* Keys dictionary */
    if (dictIsRehashing(server.db[dbid].dict)) {
        dictRehashMilliseconds(server.db[dbid].dict,1);
        return 1; /* already used our millisecond for this loop... */
    }
	// 过期字典 rehashing
    /* Expires */
    if (dictIsRehashing(server.db[dbid].expires)) {
        dictRehashMilliseconds(server.db[dbid].expires,1);
        return 1; /* already used our millisecond for this loop... */
    }
    return 0;
}

(额外知识点, redis 过期类型键会存在另外一个的字典一起维护数据) 我们看到普通的字典会通过 dictRehashMilliseconds 进行 rehashing , 并传入了 1 的参数。所以让我们从 src/server.h 回到 src/dict.c , 继续往下看

/* Rehash in ms+"delta" milliseconds. The value of "delta" is larger 
 * than 0, and is smaller than 1 in most cases. The exact upper bound 
 * depends on the running time of dictRehash(d,100).
 * 
 * 执行 x ms 的 rehash, 并返回 rehash 槽位的个数
 * */
int dictRehashMilliseconds(dict *d, int ms) {
    long long start = timeInMilliseconds();
    int rehashes = 0;
	
	// 每次 rehash 100 个数组槽位，被被动式多 100 倍呢
	// 直到数据完全被迁移完成或 if 打断
    while(dictRehash(d,100)) {
    	// 累计槽位
        rehashes += 100;
        // 如果已经过了 ms 毫秒，则打断
        if (timeInMilliseconds()-start > ms) break;
    }
    return rehashes;
}

从上看可以看到, 主动式每次至少扫描 100 个数组槽位，每次扫描 x ms 时间。反正就是两个退出条件，要么超时，要么迁移完

说明：

这种主动式迁移是redis处理完网络事件之后才做的，即此时redis处于空闲的时间，开始处理定时事件，然后每次rehash100个数组槽位，移动完100个之后，若超过1ms，则退出定时事件重新等待网络事件；否则继续移动继续判断是否超过1ms。

问题

哈希冲突时，为什么都是头插入？

dictEntry *dictAddRaw(dict *d, void *key, dictEntry **existing) {
	...
   	ht = dictIsRehashing(d) ? &d->ht[1] : &d->ht[0];
    entry = zmalloc(sizeof(*entry));
    entry->next = ht->table[index];
    ...
}

Allocate the memory and store the new entry. Insert the element in top, with the assumption that in a database system it is more likely that recently added entries are accessed more frequently.

在头插入的源码中有一段官方注释，是这么说明的，用户最近插入的数据，有更大的概率被频繁访问，有点类似 LRU 的思想；既然新增数据更有概率被访问，那么自然就会将新增数据放在链表的头结点，以减少遍历链表的时间复杂度呀！
当然我个人认为，还有第二个原因就是，当哈希冲突，直接插入头结点可以避免遍历，相比尾插入，少了一个遍历链表的过程，也就提高了写性能啊

rehash阶段遇到读写事件会发生什么？

读事件

当处于 rehashing 阶段时，读线程需要帮忙搬迁数据，同时会遍历两张哈希表

dictEntry *dictFind(dict *d, const void *key)
{
    dictEntry *he;
    uint64_t h, idx, table;

    if (dictSize(d) == 0) return NULL; /* dict is empty */
    // 如果处理 rehashing, 帮忙搬迁数据，一个槽位即可
    if (dictIsRehashing(d)) _dictRehashStep(d);
    h = dictHashKey(d, key);
    // 遍历两个 table
    for (table = 0; table <= 1; table++) {
        idx = h & d->ht[table].sizemask;
        he = d->ht[table].table[idx];
        while(he) {
            if (key==he->key || dictCompareKeys(d, key, he->key))
                return he;
            he = he->next;
        }
        // 如果没有 reshing, 就直接 Return, 不用迭代遍历 ht[1] 了
        // 如果处理 reshing, 则需要继续遍历 ht[1]
        if (!dictIsRehashing(d)) return NULL;
    }
    return NULL;
}

写事件

当初 rehashing 时，写线程要帮忙搬迁数据
- 如果是插入操作则将数据写到新表中，即 ht[1]，而不是旧表
- 如果是删除操作，根据读的情况，不用想都是要遍历两张表，找到元素并删除

	// 如果处于 rehashing 状态，则向第二个哈希表 ht[1] 插入数据， 反之 ht[0]	
    ht = dictIsRehashing(d) ? &d->ht[1] : &d->ht[0];

扩容 & rehash期间，如果新增过快，又到了扩容的阈值会怎么样？

答案就是 “不会马上扩容，会等待本次扩容结束，再进行下一次扩容”。

什么意思？也就是说当前处于 rehashing 的字典，因为本次扩容的生命周期没有完全结束，所以不会立即触发下一次的扩容，而是继续将数据往 ht[1] 写入，其结果无非就是导致 ht[1] 的哈希冲突概率逐渐加大，直到 ht[0] 的数据全部迁移到 ht[1] 中，并将 ht[0] 重指向 ht[1] 所指向的哈希表, 结束 rehashing 状态，并在本次扩容结束的下一次写入操作，立马触发字典的下一次扩容

rehash每次迁移多少数据？

当由 CRUD 被动式触发的数据迁移，每次只会迁移 1 个数组槽位的数据，而一个数据槽位会含有 n 个键值对数据，具体 n 是多少呢，就看哈希冲突有多强烈了
当由定时任务主动式扫描触发的数据迁移，每次会迁移 1 毫秒的数据，这毫秒内，至少迁移 100 个数组槽位，时间有空余就迁移更多批次，没有空余，执行完第一批 100 个槽位就停下

你可能感兴趣的:(redis,redis)

Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
Redis Sentinel（哨兵）和 Redis Cluster（集群） G丶AEOM 八股普通学习区 Redis redis 数据库缓存
哨兵机制和集群有什么区别Redis集群主要有两种，一种是RedisSentinel哨兵集群，一种是RedisCluster。主从集群，包括一个Master和多个Slave节点，Master负责数据的读写，Slave负责数据的读取，Master上收到的数据变更会同步到Slave节点上实现数据同步，但不提供容错和恢复，在Master宕机时不会选出新的Master，导致后续客户端所有写请求直接失败。所以
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
redis管道 -redis pipeline -redis pipelining shuair redis redis bootstrap 数据库
redis管道文档redis单机安装redis常用的五种数据类型redis数据类型-位图bitmapredis数据类型-基数统计HyperLogLogredis数据类型-地理空间GEOredis数据类型-流Streamredis数据类型-位域bitfieldredis持久化-RDBredis持久化-AOFredis持久化-RDB+AOF混合模式redis事务官方文档官网操作命令指南页面：https
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
redission 实现滑动窗口（注解）推荐
结构目录相关代码org.redissonredisson-spring-boot-starter3.17.0packageorg.example.redission.config;importorg.redisson.Redisson;importorg.redisson.api.RedissonClient;importorg.redisson.config.Config;importorg.s
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
Redis简介之它是啥财神爷首席大弟子 Redis redis 数据库缓存
什么是RedisRedis是一个基于BSD协议的开源数据库,是一个以键值对形式的存储系统Redis常用于消息队列,缓存,会话存储等场景Redis是使用C语言编写使用许可证：BSD许可证是一个开源的宽松的软件许可协议Redis优点性能极高Redis是以高性能著称,可全天24小时达到每秒十万次的读写操作数据类型丰富哈希字符串集合列表有序集合原子性操作原子性操作是指,程序要么不执行,要嘛执行完毕,这种对
Windows下的redis 517 redis 数据库缓存
1:在配置path后：redis-cli默认16个数据库2然后再验证set和get命令，如果一切正常便安装部署成功。一、键（Key）的增删改查操作命令示例说明增SETkeyvalueSETusername"john"设置字符串键值删DELkeyDELusername删除键（可多键：DELk1k2）改SETkeynew_valueSETusername"mike"覆盖原有值查GETke
redis基础（1）
在Redis中，设置键值并同时指定以秒为单位的过期时间，有以下两种常用方式：方法1：使用SET命令+EX选项（推荐）SETkeyvalueEXseconds说明：在设置键值对的同时直接指定过期时间（秒）SETuser:token"abc123"EX3600#设置token并设置1小时后过期（3600秒）方法2：使用SETEX命令SETEXkeysecondsvalue说明：专用于设置带过期时间的字
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖析）爱骑行的Coder 数据库 redis java基础面试分布式 java redis 后端
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖)你是不是也有这样的经历？简历上写着“精通Java，精通Redis，熟悉高并发场景”，结果一面下来，分布式锁怎么实现？Redisson是怎么加锁的？看门狗机制了解吗？锁丢失你知道怎么解决吗？全程“啊能能”，频频磕巴。本文不整虚的，带你从0到1，一步步真正搞懂分布式锁的原理与落地实践，面试高频，架构核心，不能不会。一、什
Spring Boot使用Redis常用场景蹦跑的蜗牛 spring boot redis 后端
SpringBoot使用Redis常用场景一、概述：Redis是什么？为什么要用它？Redis（RemoteDictionaryServer）是一个内存中的数据存储系统（类似一个“超级大字典”），它能存各种类型的数据（字符串、列表、哈希等），而且读写速度极快（因为数据存在内存里）。简单说，Redis就像电脑的“缓存抽屉”：当你的程序需要频繁读取或修改某些数据时（比如用户登录信息、商品销量），直接从
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
Redis 性能优化实战：管道、事务、缓存与连接管理全解析佑瞻数据库与知识图谱缓存 redis 性能优化
在日常开发中，我们常常会遇到Redis操作的性能瓶颈：频繁的命令交互导致网络开销激增，并发更新时的数据一致性难以保证，海量数据遍历引发的阻塞问题……其实，Redis早已为这些场景准备了“利器”。今天我们就深入探讨Redis的管道、事务、扫描迭代、客户端缓存以及连接管理技巧，用实战代码带你玩转性能优化。一、管道（Pipelines）：批量执行命令，减少网络往返当我们需要连续执行多个Redis命令时，
Redis OM for Python 实战：用 Flask 构建 Redis 文档型 API
在日常开发中，我们使用Redis时常常会遇到这样的场景：需要存储复杂的结构化数据（比如用户信息、商品详情），还要支持灵活的查询（按年龄筛选、按技能搜索）。直接用Redis的基础命令处理JSON数据不仅繁琐，查询起来更是头疼。而RedisOMforPython的出现，正好解决了这些问题——它让我们能用Python类轻松建模，用简洁的代码实现CRUD和复杂查询。今天我们就结合Flask框架，手把手教你
redis mysql主从分离_Redis（5）-----初识Redis-----主从复制.读写分离，主从切换（哨兵机制）(示例代码)... 算法艺术家 redis mysql主从分离
当数据量变得庞大的时候，读写分离还是很有必要的。同时避免一个redis服务宕机，导致应用宕机的情况，我们启用sentinel(哨兵)服务，实现主从切换的功能。https://www.cnblogs.com/jaycekon/p/6237562.html一，主从分离(读写分离,主从复制)首先我们默认已经安装了redis，然后复制master,slave1,slave2三个redis的文件。并把red
【网络与爬虫 24】爬虫数据存储方案：从文件到数据库的全面指南莫比乌斯@卷技术技巧 #网络与爬虫网络爬虫数据库
【网络与爬虫24】爬虫数据存储方案：从文件到数据库的全面指南关键词：爬虫数据存储、CSV、JSON、Excel、SQLite、MySQL、MongoDB、Redis、数据持久化、数据管理摘要：本文全面介绍爬虫数据存储的各种方案，从简单的文本文件、CSV、JSON到Excel表格，再到SQLite、MySQL等关系型数据库，以及MongoDB、Redis等NoSQL数据库。通过对比分析不同存储方式的
深入Redis：核心的缓存
Redis最主要的用途，主要有三个方面：存储数据、缓存、消息队列。其中，缓存是Redis最常用的场景。Redis使用内存作为硬盘的缓存。把用户集中访问的20%数据放到缓存中去，可以应对80%的请求。数据库是非常重要的组件，但是mysql的速度又比较慢，所以我们用Redis来作为mysql的缓存。为什么说关系型数据库性能不高?数据库把数据存储在硬盘上，硬盘的IO速度并不快。尤其是随机访问。如果查询不
Spring RedisTemplate中文乱码 NO爷 Java Spring Boot Redis Jedis 乱码
Redis客户端中文乱码网上非常常见的乱码，百度一搜大部分都是这种情况。如果不是此种情况请看下一节。redis-cliredis127.0.0.1:6379>set'name''中文'OKredis127.0.0.1:6379>get'name'"\xd6\xd0\xce\xc4"redis127.0.0.1:6379>客户端查看乱码，这个情况我们只要将修改客户端命令行就可以。redis-cli-
掌握 Spring Data Redis，提升后端开发效率
掌握SpringDataRedis，提升后端开发效率关键词：SpringDataRedis、后端开发、缓存、数据持久化、效率提升摘要：本文旨在深入探讨SpringDataRedis这一强大的工具，帮助后端开发者更好地掌握它以提升开发效率。首先介绍SpringDataRedis的背景知识，包括其目的、适用读者等。接着详细阐述核心概念与联系，分析核心算法原理并给出具体操作步骤，通过数学模型和公式加深理
Redis核心用法与通用命令全解析 Pota-to成长日记 Redis redis 数据库缓存
Redis核心用法与通用命令全解析——从基础操作到高效实践一、Redis基础知识速览Redis是一款高性能的键值存储系统，支持String、Hash、List、Set、SortedSet五种核心数据结构，以及Bitmaps、HyperLogLog、Streams等扩展类型。其单线程模型和内存存储特性使其在缓存、计数器、消息队列等场景中表现出色。二、核心命令详解（附实用示例）1.通用键操作命令（1）
Spring AI 本地 RAG 实战：用Redis、Chroma搭建离线知识问答系统勤奋的知更鸟 Java AI大模型 AI工具 spring 人工智能 RAG
本文将用Ollama+Qwen-7B搭建离线知识问答系统（含Redis/Chroma向量库）目录前言环境搭建项目结构设计Maven依赖pom.xmlapplication.yml配置（Redis+Ollama）Redis向量库实战OllamaConfig.javaRagService.javaRagController.javaRagApplication.java测试样例RAG增强Maven依赖
RabbitMQ 高级特性之事务 Bug退退退123 RabbirMQ 常见面试题 rabbitmq 分布式 java spring
1.简介与MySQL、Redis一样，RabbitMQ也支持事务。事务中的消息，要么全都发送成功，要么全部发送失败，不会出现一部分成功一部分失败的情况。2.使用事务发送消息spring中使用RabbitMQ开启事务需要两步：第一步：配置RabbitTemplate使用下面这段代码，将RabbitTemplate的transactional设置为true：@Bean("transRabbitTemp
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio