不与天斗姜大夫

一文读懂Redis6的--bigkeys选项源码以及redis-bigkey-online项目介绍

文章系转载，方便整理和归档
作者：crabor
链接：https://www.jianshu.com/p/9e150d72ffc9
来源：简书

本文分为两个部分，第一是详细讲解Redis6的–bigkeys选项相关源码是怎样实现的，第二部分为自己对–bigkeys源码的优化项目redis-bigkey-online的介绍。redis-bigkey-online是自己开发的非常好用、高效的bigkey查找工具，因为是修改的源码，所以是直接整合在redis-cli程序中，由官方的

 ./redis-cli --bigkeys

改为

./redis-cli --bigkeys redis-bigkey-online.conf

即可使用，redis-bigkey-online.conf则保存了用户的个性化设定，包括需要输出哪些类型的bigkey、输出前N个bigkey、设定bigkey判断阈值等功能。并且，由于自己修改源码一直遵循“尽量少改、尽量集中改、尽量改的部分风格和源码统一”三个“尽量”的原则，所以该项目也十分容易的移植到其他版本的redis上。欢迎大家star和使用~

–bigkeys选项源码原理解析

首先我们从运行结果出发。首先通过脚本插入一些数据到redis中，然后执行redis-cli的–bigkeys选项

[root@ecs-7e58 add-nomal-key]# redis-cli --bigkeys -h 127.0.0.1 -p 6379

# Scanning the entire keyspace to find biggest keys as well as
# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec
# per 100 SCAN commands (not usually needed).

[00.00%] Biggest zset   found so far '"zset_32_4769"' with 10 members
[00.00%] Biggest set    found so far '"set_32_1808"' with 10 members
[00.00%] Biggest list   found so far '"list_32_3402"' with 10 items
[00.00%] Biggest string found so far '"string_32_1957"' with 32 bytes
[00.00%] Biggest hash   found so far '"hash_32_1481"' with 10 fields

-------- summary -------

Sampled 50000 keys in the keyspace!
Total key length in bytes is 604470 (avg len 12.09)

Biggest   list found '"list_32_3402"' has 10 items
Biggest   hash found '"hash_32_1481"' has 10 fields
Biggest string found '"string_32_1957"' has 32 bytes
Biggest    set found '"set_32_1808"' has 10 members
Biggest   zset found '"zset_32_4769"' has 10 members

10000 lists with 100000 items (20.00% of keys, avg size 10.00)
10000 hashs with 100000 fields (20.00% of keys, avg size 10.00)
10000 strings with 320000 bytes (20.00% of keys, avg size 32.00)
0 streams with 0 entries (00.00% of keys, avg size 0.00)
10000 sets with 100000 members (20.00% of keys, avg size 10.00)
10000 zsets with 100000 members (20.00% of keys, avg size 10.00)

注意summary下面的信息，分别是总的key的统计信息，然后是每种数据类型中top1的那个key，最后是各种数据结构的统计数据。可以看到，虽然–bigkeys选项会扫描整个redis，但是只输出每种数据类型top1的那个key。但是实际却和我们找bigkey的需求相去甚远，实际我们可能需要前N个bigkey，并且bigkey的阈值也是可以自己设定的。所以我们有了改源码的需求，自然在改源码之前需要对源码的实现原理有所掌握才行。

由运行结果我们会猜想redis可能是维护了6个变量用来记录每种数据类型的topkey，如果遍历时遇到更大的就替换之前的，这和在数组中找到最大值的原理是一样的，而实际上redis确实也是这样做的。

redis找bigkey的函数是static void findBigKeys(int memkeys, unsigned memkeys_samples)，因为–memkeys选项和–bigkeys选项是公用同一个函数，所以使用memkeys时会有额外两个参数memkeys、memkeys_sample，但这和–bigkeys选项没关系，所以不用理会。findBigKeys具体函数框架为：

findBigKeys:
1.申请6个变量用以统计6种数据类型的信息（每个变量记录该数据类型的key的总数量、bigkey是哪个等信息）
2.调用scan命令迭代地获取一批key（注意只是key的名称，类型和大小scan命令不返回）
3.对每个key获取它的数据类型（type）和key的大小（size）
4.对每个key更新对应数据类型的统计信息
5.如果key的大小大于已记录的最大值的key，则更新最大key的信息
6.回到步骤2，直到遍历完所有key
7.输出统计信息、最大key信息

1.申请6个变量用以统计各类型的统计信息

首先是第一步，申请6个变量：

dict *types_dict = dictCreate(&typeinfoDictType, NULL);
typeinfo_add(types_dict, "string", &type_string);
typeinfo_add(types_dict, "list", &type_list);
typeinfo_add(types_dict, "set", &type_set);
typeinfo_add(types_dict, "hash", &type_hash);
typeinfo_add(types_dict, "zset", &type_zset);
typeinfo_add(types_dict, "stream", &type_stream);

dictCreate函数创建了一个字典变量types_dict，然后通过typeinfo_add向这个字典中添加6个dictEntry结构。这里的dictEntry其实就是一个kv对结构，k保存数据类型名称，如记录string信息的dictEntry的key就是"string"，而v才是真正用来保存统计信息的地方。不知道什么是dict的同学可以看下下面字典结构的示意图，dict是redis最基础的数据结构之一。

其实dictEntry的v字段是一个union变量，如下所示：

typedef struct dictEntry {
    void *key;
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;
} dictEntry;

如果v是整数就保存在v.u64或者v.s64，浮点数就保存在v.d，而如果v是复杂点的数据比如这里的6个dictEntry的v字段既要保存该数据类型的一些统计信息又要记录该数据类型的最大的key是谁，那么只有新建一种结构体typeinfo，并通过dictEntry的v.val字段指向typeinfo结构体。

字典types_dict里面保存了6个kv对（dictEntry），每个dictEntry的v的初始值为type_xxx常量，下面是typeinfo的结构定义以及各type_xxx的值：

typedef struct {
    char *name;//数据类型，如string
    char *sizecmd;//查询大小命令，如string会调用STRLEN
    char *sizeunit;//单位，string类型为bytes，而hash为field
    unsigned long long biggest;//最大key信息域，此数据类型最大key的大小，如string类型是多少bytes，hash为多少field
    unsigned long long count;//统计信息域，此数据类型的key的总数
    unsigned long long totalsize;//统计信息域，此数据类型的key的总大小，如string类型是全部string总共多少bytes，hash为全部hash总共多少field
    sds biggest_key;//最大key信息域，此数据类型最大key的键名，之所以在数据结构末尾是考虑字节对齐
} typeinfo;

typeinfo type_string = { "string", "STRLEN", "bytes" };
typeinfo type_list = { "list", "LLEN", "items" };
typeinfo type_set = { "set", "SCARD", "members" };
typeinfo type_hash = { "hash", "HLEN", "fields" };
typeinfo type_zset = { "zset", "ZCARD", "members" };
typeinfo type_stream = { "stream", "XLEN", "entries" };
typeinfo type_other = { "other", NULL, "?" };

name字段是用来记录该结构体记录的那种数据类型，sizecmd用来记录对此种数据类型改用什么命令来查询其大小，sizeunit则是该数据类型的大小单位，而count、totalsize则是记录一些统计信息，遍历到某个key的时候，无论是不是bigkey，都会更新count和totalsize，biggest_key记录最大key是谁，biggest则记录这个最大key有多大。之所以type_string等常量只有前三个域的值，是因为biggest、count等域只有在遍历时才会产生并发生改变，初始是不知道的。

其实按效率上来讲可以完全不用dict结构，直接用一个大小为6的typeinfo数组就行，但是作者或许对自己的字典结构很自豪所以就不用其他数据结构了。事实当你了解字典结构的细节后也会爱上它**(●’◡’●)**。

紧接着是获取数据库总大小和输出一些前置消息：

/* Total keys pre scanning */
total_keys = getDbSize();

/* Status message */
printf("\n# Scanning the entire keyspace to find biggest keys as well as\n");
printf("# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec\n");
printf("# per 100 SCAN commands (not usually needed).\n\n");

total_keys保存数据库总key数

2.调用scan命令迭代地获取一批key

之所以用scan命令而不用keys命令是因为keys命令虽然可以一次性返回所有key，但是由于redis执行命令的时候是单线程模型，数据库过大的话会严重阻塞服务器，因而使用scan命令一次获取部分key然后再迭代获取下一批key这样更好。

/* SCAN loop */
do {
    /* Calculate approximate percentage completion */
    pct = 100 * (double)sampled/total_keys;//这里记录下扫描的进度

    /* Grab some keys and point to the keys array */
    reply = sendScan(&it);//这里发送SCAN命令，结果保存在reply中
    keys  = reply->element[1];//keys来保存这次scan获取的所有键名，注意只是键名，每个键的数据类型是不知道的。

    ......

} while(it != 0);

sampled记录已经遍历的key数量，pct则为百分比进度。reply保存scan命令的结果。为什么是reply->element[1]保存了所有键名呢？怕小伙伴忘记了scan命令，这里再解释下，scan命令返回值如下（后续很多地方会用到这里的运行结果）：

127.0.0.1:6379> scan 0
1) "20480"
2)  1) "zset_32_4769"
    2) "set_32_1808"
    3) "zset_32_9252"
    4) "list_32_3402"
    5) "set_32_5036"
    6) "string_32_1957"
    7) "string_32_2471"
    8) "hash_32_1481"
    9) "hash_32_853"
   10) "string_32_2945"

scan 0表示从数据库开头获取一批key，返回的第一个值是下一次迭代的值，下一次scan命令就是scan 20480，这样就可以保证获取的下一批key和这一批是不一样的，sendScan(&it)的it既是输入值也是输出值，比如上面输入的时候是0，执行完后是20480。同时reply->element[0]也为下次迭代的值，reply->element[1]则保存scan获取的所有键名。

这里在解释下reply的数据结构，以方便后续代码理解。reply的数据结构是redisReply：

/* This is the reply object returned by redisCommand() */
typedef struct redisReply {
    int type; /* REDIS_REPLY_* */
    long long integer; /* 当type为REDIS_REPLY_INTEGER，这里保存整数 */
    double dval; /* 当type为REDIS_REPLY_DOUBLE，这里保存浮点数 */
    size_t len; /* string的长度 */
    char *str; /* Used for REDIS_REPLY_ERROR, REDIS_REPLY_STRING
                  and REDIS_REPLY_DOUBLE (in additionl to dval). */
    char vtype[4]; /* Used for REDIS_REPLY_VERB, contains the null
                      terminated 3 character content type, such as "txt". */
    size_t elements; /* elements的数量, for REDIS_REPLY_ARRAY */
    struct redisReply **element; /* 当type为REDIS_REPLY_ARRAY，保存返回的向量 */
} redisReply;

type表示命令返回值的类型，如果命令返回的是整数，比如strlen命令返回值是整数，那么type的值就为REDIS_REPLY_INTEGER，而interger域则保存了这个整数。同理当type为REDIS_REPLY_ARRAY时，elements域保存该数组的长度，比如上面scan命令返回的reply->elements就是2，最后一个域struct redisReply **element可能有点难理解，其实就是一个指针数组，数组的每个元素是一个redisReply*指针，这里还是通过上面scan命令画出内存结构图：

image-20210127130938852.png

这里可以很清楚地看到，reply->element[0]指向一个redisReply结构体，用以保存下一次scan的迭代值，而reply->element[1]也指向一个redisReply结构体，此结构体保存了本次scan获取的所有key的键名。

3.对每个key获取它的数据类型（type）和key的大小（size）

通过scan命令得到reply、keys = reply->element[1]得到这批键名后，就可以通过键名去获取它的类型（type）和大小（size）：

/* Retrieve types and then sizes */
getKeyTypes(types_dict, keys, types);
getKeySizes(keys, types, sizes, memkeys, memkeys_samples);

types是一个typeinfo*的指针数组，sizes则为unsigned long long的数组。每个scan循环开始它们都是空的，如下图所示：

getKeyTypes(types_dict, keys, types)函数则是对keys中的每个key，通过TYPE {keyname}的形式获取该key的类型并使types中的元素指向对应的type_info结构体：

之后通过types就可以获得对应的sizecmd，于是getKeySizes(keys, types, sizes, memkeys, memkeys_samples)就是通过{sizecmd} {keyname}的形式获取每个key的大小，比如图中zset_32_4769这个key我们可以通过ZCARD zset_32_4769获取到它的size为10。结果如下：

memkeys、 memkeys_samples参数，和–bigkeys无关，和–memkeys选项有关，这里不再赘述。

4.对每个key更新对应数据类型的统计信息

有了types和sizes后，就可以来更新各typeinfo结构体变量了。

/* Now update our stats */
for(i=0;i<keys->elements;i++) {
    typeinfo *type = types[i];
    /* Skip keys that disappeared between SCAN and TYPE */
    if(!type)
        continue;

    //对每个key更新每种数据类型的统计信息
    type->totalsize += sizes[i];//某数据类型（如string）的总大小增加
    type->count++;//某数据类型的key数量增加
    totlen += keys->element[i]->len;//totlen不针对某个具体数据类型，将所有key的键名的长度进行统计，注意只统计键名长度。
    sampled++;//已经遍历的key数量

    ......//后续解析

    /* Update overall progress */
    if(sampled % 1000000 == 0) {
        printf("[%05.2f%%] Sampled %llu keys so far\n", pct, sampled);
    }
}

不管该key是不是bigkey，totalsize记录该类型的所有key的总大小，count则记录有多少key。而totlen变量不属于typrinfo结构体，它只是用来记录所有类型的所有key的键名的总长度，加入一个数据库只有两个key：string_1、hash_3，那么totlen就是8+6=14。sampled之前说过，就是来记录已经遍历到第几个key了，用来计算进度信息。

5.如果key的大小大于已记录的最大值的key，则更新最大key的信息

/* Now update our stats */
for(i=0;i<keys->elements;i++) {
    ......//前面已解析

    //如果遍历到比记录值更大的key时
    if(type->biggest<sizes[i]) {
        /* Keep track of biggest key name for this type */
        if (type->biggest_key)
            sdsfree(type->biggest_key);
        //更新最大key的键名
        type->biggest_key = sdscatrepr(sdsempty(), keys->element[i]->str, keys->element[i]->len);
        if(!type->biggest_key) {
            fprintf(stderr, "Failed to allocate memory for key!\n");
            exit(1);
        }

        //每当找到一个更大的key时则输出该key信息
        printf(
            "[%05.2f%%] Biggest %-6s found so far '%s' with %llu %s\n",
            pct, type->name, type->biggest_key, sizes[i],
            !memkeys? type->sizeunit: "bytes");

        /* Keep track of the biggest size for this type */
        //更新最大key的大小
        type->biggest = sizes[i];
    }

    ......//前面已解析
}

if(type->biggest表示该typeinfo结构体已记录的最大key的大小如果小于正在遍历到的key的大小时，则进行更新替换。因为type->biggest_key是字符串指针，所以需要先free掉旧的字符串然后新建一个字符串并让type->biggest_key指向它。更新了type->biggest_key后便同时更新下type->biggest。

 
  到这里一个scan循环还没结束，scan循环最后会执行以下代码： 
  /* Sleep if we've been directed to do so */
if(sampled && (sampled %100) == 0 && config.interval) {
    usleep(config.interval);
}
 
  如果设置了每次scan命令的间隔，则一次scan完后会睡眠一段时间再执行scan循环，呼应最开始的/* Status message */。 
  7.输出统计信息、最大key信息 
  2~5步为一个scan循环，直到最后一次scan返回的迭代值为0时结束。接着就可以进行结果是输出了： 
  /* We're done */
printf("\n-------- summary -------\n\n");

printf("Sampled %llu keys in the keyspace!\n", sampled);
printf("Total key length in bytes is %llu (avg len %.2f)\n\n",
       totlen, totlen ? (double)totlen/sampled : 0);
 
  首先输出总共扫描了多少个key、所有key的总长度是多少。 
  /* Output the biggest keys we found, for types we did find */
di = dictGetIterator(types_dict);
while ((de = dictNext(di))) {
    typeinfo *type = dictGetVal(de);
    
    if(type->biggest_key) {
        printf("Biggest %6s found '%s' has %llu %s\n", type->name, type->biggest_key,
               type->biggest, !memkeys? type->sizeunit: "bytes");
    }
}
dictReleaseIterator(di);
 
  di为字典迭代器，用以遍历types_dict里面的所有dictEntry。de = dictNext(di)则可以获取下一个dictEntry，de是指向dictEntry的指针。又因为typeinfo结构体保存在dictEntry的v域中，所以用dictGetVal获取。然后就是输出typeinfo结构体里面保存的最大key相关的数据，包括最大key的键名和大小。 
  di = dictGetIterator(types_dict);
while ((de = dictNext(di))) {
    typeinfo *type = dictGetVal(de);
    
    printf("%llu %ss with %llu %s (%05.2f%% of keys, avg size %.2f)\n",
           type->count, type->name, type->totalsize, !memkeys? type->sizeunit: "bytes",
           sampled ? 100 * (double)type->count/sampled : 0,
           type->count ? (double)type->totalsize/type->count : 0);
}
dictReleaseIterator(di);
 
  这里的dict操作和上一步类似，不在赘述。只是这个循环输出的是typeinfo结构体里面的统计信息而非最大key信息。 
  dictRelease(types_dict);
 
  findBigKeys的最后再释放掉开头申请的字典，以结束整个找bigkey的流程。 
  redis-bigkey-online 
  终于将–bigkeys选项的源码讲完了~那么现在就开始正式介绍redis-bigkey-online项目，项目地址会放在文末。下面将从设计思路、具体代码、使用方法、性能比较四个方面进行讲解。 
  设计思路 
  设计思路其实很简单。看完了前面–bigkeys源码我们可以发现，redis作者本身其实就是用了5个typeinfo保存各数据类型的信息，但是遗憾的是作者只保存了每种数据类型top1的一个key，每次扫描到较大的key时会对旧的bigkey进行替换。所以我就想能不能保存前N个大key而不只是top1，自然第一时间想到了大/小顶堆。根据用户的设定维护一个长度N的大/小顶堆，当数据数量小于N时直接插入就好了，当数据满时将正在扫描的key和堆中最小值进行比较，如果小于堆中最小值就直接跳过，如果大于就先删除堆中最小值然后再将扫描的key插入。并且堆也十分适合用线性空间来实现，十分节省空间。 
  然而堆插入数据时，虽然空间复杂度小，但是插入元素时调整堆的时间复杂度时O(nlgn)。我在想有没有更快的带排序功能的数据结构，这时候就突然想到了redis自己的数据类型——zset！zset和set的区别在于set里的元素只是元素自身，而zset的每个元素还带有分数（score），zset会根据元素的score对元素进行自动排列，十分适合我的需求，score保存bigkey的大小、member保存该bigkey的键名！而zset的底层数据结构之一就是喜闻乐见的跳跃表！其插入元素的时间复杂度度为O(lgn)！虽然空间复杂度相较堆多了不少，但是我们找bigkey也就是想找其中的几个数据，不可能数据库全部数据都是bigkey！ 
  关于跳表的介绍参照这篇博文：一文彻底搞懂跳表的各种时间复杂度、适用场景以及实现原理 
  skiplist作为zset的存储结构，整体存储结构如下图。核心点主要包括一个dict对象和一个skiplist对象。dict保存key/value，key为元素，value为分值；skiplist保存的有序的元素列表，每个元素包括元素和分值。skiplist和dict并不是独立的数据结构，skiplistNode的ele和dictEntry的key是指向了同一sds字符串，就是说skiplist主要负责各元素间的大小排列关系；而dict则负责键名和分数之间的映射关系，从而可以在O(1)的时间复杂度找到对应的数据。关键是，我还不用重新写zset数据类型的代码，直接使用源码的zset相关数据结构就行了！(❁´◡`❁) 
   
  20200918235136825.png 
  具体代码 
  理想很丰满，现实却很残酷，zset相关源码确实可以用，但是不能直接用。redis里面有很多很优秀的数据结构，比如sds动态字符串、dict字典、ziplist压缩列表等等以及skiplist跳跃表。有些数据结构适用性很强比如sds、dict，不仅redis-server程序会用到，redis-cli程序也会用到，所以sds、dict相关代码单独形成一个文件sds.c、dict.c并且函数声明在sds.h和dict.h，server.c、redis-cli.c中只要#include "sds.h"、#include "dict.h"就可以使用该数据结构。然而有些数据结构就比如这里的skiplist，作者认为只有服务端程序redis-server会用到，客户端程序redis-cli不会用到，所以根本就没有skiplist.h和skiplist.c，skiplist的声明是直接写在server.h中，skiplist的函数实现则写在t_zset.c中。你或许会说，那redis-cli.c中你直接#include "server.h"并且makefile里面链接形成redis-cli程序时八t_zset.o链接进来不行吗？ 
  不行！达妹哟！ 
  server.h里面有很多是服务器端程序会用到的函数声明比如usage()、mstime()、utime()等会和redis-cli.c里的同名函数发生函数冲突，并且t_zset.c中也使用了大量的server.c中的函数，如果链接程序时只链接t_zset.o会报错提示大量的函数未定义的错误！这时候再心存侥幸说链接形成redis-cli程序时把server.o也链接进来行不行？这样就更离谱了！server.c是服务端程序的主文件，里面有main函数入口！redis-cli.c是客户端程序的主文件，里面有main函数入口！这种低级函数冲突是不该犯的！ 
  所以主要问题是zset和server.c的耦合性太高了！现在只能去阅读zset、skiplist相关源码，将重要的代码提炼出来，形成一个和server.c、redis-cli.c相互独立的一个文件，这样redis-cli.c就可以开开心心地去使用啦~也希望redis作者能将众数据结构代码进行解耦操作，不要只有sds和dict是独立的。 
  提取代码其实不麻烦，并不是所有有关代码都需要，并且绝大部分代码直接cv下来就行，我们只需要认真阅读源码，将zset的一些关键函数提炼出来就行。我将提炼的代码写在了zset.h和zset.c中： 
  //zset.h
//数据结构
#include "dict.h"
/* ZSETs use a specialized version of Skiplists */
typedef struct zskiplistNode {
    sds ele;
    double score;
    struct zskiplistNode *backward;
    struct zskiplistLevel {
        struct zskiplistNode *forward;
        unsigned long span;
    } level[];
} zskiplistNode;

typedef struct zskiplist {
    struct zskiplistNode *header, *tail;
    unsigned long length;
    int level;
} zskiplist;

typedef struct zset {
    dict *dict;
    zskiplist *zsl;
} zset;

//函数声明
zskiplistNode *zslCreateNode(int level, double score, sds ele);
zskiplist *zslCreate(void);
void zslFreeNode(zskiplistNode *node);
void zslFree(zskiplist *zsl);
int zslRandomLevel(void);
zskiplistNode *zslInsert(zskiplist *zsl, double score, sds ele);
zskiplistNode *zslUpdateScore(zskiplist *zsl, double curscore, sds ele, double newscore);
void zslDeleteNode(zskiplist *zsl, zskiplistNode *x, zskiplistNode **update);
int zslDelete(zskiplist *zsl, double score, sds ele, zskiplistNode **node);

zset *zsetCreate(void);
void zsetFree(zset *zs);
unsigned long zsetLength(const zset *zs);
sds zsetMin(const zset *zs);
sds zsetMax(const zset *zs);
int zsetScore(zset *zs, sds member, double *score);
int zsetAdd(zset *zs, double score, sds ele);
int zsetDel(zset *zs, sds ele);
 
  可以看到基本都是些增、删、改、查相关的函数，因为zset底层是skiplist和dict，dict因为作者已经做了解耦操作，所以直接#include "dict.h"就行，这里只是将跳表相关的数据结构提取了出来。在这里自己只还新增了zsetMin、zsetMax两个函数。zset底层编码有两种：skiplist和ziplist，这里将zset函数中所有ziplist相关的函数都进行了剔除工作，只保留了skiplist部分。仔细的同学会发现为什么skiplist相关函数没有zskiplistFind呢？这个问题很好回答，仔细看zset结构的编码，它包含一个zskiplist和dict，zskiplist只负责元素间的排序关系，而元素和分数的映射关系主要考dict，并且dict的查找复杂度是O(1)而skiplist的查找复杂度为O(lgn)，所以zsetScore的实现就是通过dictFind来实现。 
  修改redis-cli.c 
  下面我们来看看对于源码redis-cli.c我们是如何做修改的： 
  首先是对typeinfo结构体的修改： 
  //old
typedef struct {
    char *name;
    char *sizecmd;
    char *sizeunit;
    unsigned long long biggest;
    unsigned long long count;
    unsigned long long totalsize;
    sds biggest_key;
} typeinfo;
typeinfo type_string = { "string", "STRLEN", "bytes"};
typeinfo type_list = { "list", "LLEN", "items"};
typeinfo type_set = { "set", "SCARD", "members"};
typeinfo type_hash = { "hash", "HLEN", "fields"};
typeinfo type_zset = { "zset", "ZCARD", "members"};
typeinfo type_stream = { "stream", "XLEN", "entries"};
typeinfo type_other = { "other", NULL, "?" };

//new
typedef struct {
    char *name;
    char *sizecmd;
    char *sizeunit;
    int i_name;//数据类型（int）
    unsigned long long count;
    unsigned long long totalsize;
    zset *bigkeys;
} typeinfo;
typeinfo type_string = { "string", "STRLEN", "bytes", BIT_STRING};
typeinfo type_list = { "list", "LLEN", "items", BIT_LIST};
typeinfo type_set = { "set", "SCARD", "members", BIT_SET};
typeinfo type_hash = { "hash", "HLEN", "fields", BIT_HASH};
typeinfo type_zset = { "zset", "ZCARD", "members", BIT_ZSET};
typeinfo type_stream = { "stream", "XLEN", "entries", BIT_STREAM};
typeinfo type_other = { "other", NULL, "?" ,BIT_OTHER};
 
  旧的typeinfo只保存了biggest key的键名和大小，新的则将其删除，并增添一个zset指针来存储多个bigkey。其次还新增了int型的i_name变量，name是用字符串来表示该数据类型，而i_name则是用整数表示该数据类型，在后续查询对应数据类型配置信息时会用到。type_xxx常量的值也进行了改变，新增了BIT_XXX等值，从BIT_STRING到BIT_OTHER的是0~6。 
  其次，第一版程序支持对所有6种数据类型有以下功能：是否扫描该数据类型、输出最多多少个bigkey、bigkey阈值是啥三个功能。我定义了一个bigkeyConfig_t这种数据结构在zset.h中： 
  typedef struct bigkeyConfig_t{
    uint64_t output_num;
    uint32_t thro_size;
    int need_scan;
}bigkeyConfig_t;
 
  为了做到风格统一，因为redis服务器所有的配置信息都放在全局变量config中，所以我也将bigkeyConfig_t变量也放在config全局变量中： 
  static struct config {
    char *hostip;
    int hostport;
    char *hostsocket;
    ......
    //redis-bigkey-online
    FILE *bk_pFile;//输出位置
    bigkeyConfig_t *bk_config;//配置信息
} config;
 
  我新增了两个变量放在config的末尾，bk_pFile是文件指针，表示用户想将程序结果输出在标准输出中还是文件中，这个可在配置文件bigkeys.conf进行设置；bk_config为bigkeyConfig_t*类型的指针，指向6个bigkeyConfig_t结构体，每一个结构体都表示对应一种数据类型的配置信息。 
  以上便是所有结构体的改动，下面我们跟着服务器启动的顺序来看下如何发挥作用： 
  1.main函数开头，对config进行默认初始化
2.main中，执行parseOptions对命令行参数进行解析
3.parseOptions中，执行loadBigKeyConfig对用户配置文件进行解析
3.回到main，执行findBigKeys开始找bigkeys
 
   
    main函数入口，对config全局变量进行默认初始化：
 int main(int argc, char **argv) {
    int firstarg;

    //redis-bigkey-online default config
    config.bk_pFile = stdout;
    config.bk_config = NULL;

    config.hostip = sdsnew("127.0.0.1");
    config.hostport = 6379;
    config.hostsocket = NULL;
    config.repeat = 1;
    config.interval = 0;
    config.dbnum = 0;
    ......
 同时我们也为新增的域进行了默认设置，文件输出位置默认为stdout，配置信息指向NULL。
  
    接着程序对redis-cli的命令行参数进行配置：
 firstarg = parseOptions(argc,argv);
 static int parseOptions(int argc, char **argv) {
    int i;

    for (i = 1; i < argc; i++) {
        int lastarg = i==argc-1;

        if (!strcmp(argv[i],"-h") && !lastarg) {
            sdsfree(config.hostip);
            config.hostip = sdsnew(argv[++i]);
        } else if (!strcmp(argv[i],"-h") && lastarg) {
            usage();
        } else if (!strcmp(argv[i],"--help")) {
            usage();
        } else if (!strcmp(argv[i],"-x")) {
            config.stdinarg = 1;
        } else if (!strcmp(argv[i],"-p") && !lastarg) {
            config.hostport = atoi(argv[++i]);
        } else if (!strcmp(argv[i],"-s") && !lastarg) {
            config.hostsocket = argv[++i];
        }
        ......
        else if (!strcmp(argv[i],"--bigkeys")) {
            config.bigkeys = 1;
            loadBigKeyConfig(argv[++i],0);
        }
 parseOptions函数会对命令行参数进行解析，如用户输入redis-cli -h 127.0.0.1 -p 6379时则会对config中的地址和端口进行赋值。当程序识别到用户输入--bigkeys选项时，会让config.bigkeys标志位为1，注意此标志位是系统本来就有的，不是我新增的。我新增的是后面的loadBigKeyConfig()函数。旧的--bigkeys选项是没有后续参数的，因为我新增了找bigkey的配置文件，需要用户从redis-cli --bigkeys变为redis-cli --bigkeys bigkeys,conf，所以loadBigKeyConfig(argv[++i],0)就是加载后续参数对应的配置文件并进行解析：
  
    对用户设置的配置文件进行解析：
 loadBigKeyConfig()函数是参照了server.c中的loadServerConfig()函数。首先给config.bk_config分配6个结构体大小的内存，然后打开配置文件，如果打开文件成功就将配置文件的所有内容一行一行地追加到字符串变量config_str当中：
 void loadBigKeyConfig(const char *filename,int memkeys){
    sds config_str = sdsempty();
    char buf[CONFIG_MAX_LINE+1];
    char *err = NULL;
    int linenum = 0, totlines, i;
    long int config_val;
    sds *lines;

    config.bk_config = zmalloc(6*sizeof(bigkeyConfig_t));

    /* Load the file content */
    if (filename) {
        FILE *fp;

        if ((fp = fopen(filename,"r")) == NULL) {
            printf("Fatal error, can't open config file '%s': %s",
                filename, strerror(errno));
            exit(1);
        }

        while(fgets(buf,CONFIG_MAX_LINE+1,fp) != NULL)
            config_str = sdscat(config_str,buf);
        fclose(fp);
    }
    ...... 
}
 当配置文件全部追加到config_str变量后，调用sdssplitlen()函数将config_str以换行符为界进行切割，将各行依次存入lines字符串数组中。紧接着就是对每行内容进行处理，包括跳过空行、检查配置信息格式是否正确、将正确配置信息存入config.bk_config中等等：
 void loadBigKeyConfig(const char *filename,int memkeys){
    ......
 lines = sdssplitlen(config_str,strlen(config_str),"\n",1,&totlines);

    for(i=0;i<totlines;++i){
        sds *argv;
        int argc;

        linenum = i+1;
        lines[i] = sdstrim(lines[i]," \t\r\n");

        /* Skip comments and blank lines */
        if (lines[i][0] == '#' || lines[i][0] == '\0') continue;

        /* Split into arguments */
        argv = sdssplitargs(lines[i],&argc);
        if (argv == NULL) {
            err = "Unbalanced quotes in configuration line";
            goto loaderr;
        }

         ......
            
        }
        sdsfreesplitres(argv,argc);
    }
    sdsfreesplitres(lines,totlines);
    sdsfree(config_str);
    return;
}
 加载、解析完用户的配置文件后，便可以继续往下走了。
  
    执行findBigKeys()函数
 当用户的配置文件解析完（loadBigKeyConfig）回到redis-cli的解析命令行参数函数中（parseOptions），当所有命令行参数都解析完后就回到主函数中（main）继续向下运行：
 int main(int argc, char **argv) {
    ......
    /* Find big keys */
    if (config.bigkeys) {
        if (cliConnect(0) == REDIS_ERR) exit(1);
        findBigKeys(0, 0);
    }
    ......
}
 如果config.bigkeys标志位被设置了，那就执行findBigKeys函数。
  
    findBigKeys()具体流程
 此函数最开头已经分析过了，这里只讲变化的部分,首先是所有的printf函数变成fprintf函数，根据config.bk_pFile的值决定输出位置，如：
 //old
/* Status message */
printf("\n# Scanning the entire keyspace to find biggest keys as well as\n");
printf("# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec\n");
printf("# per 100 SCAN commands (not usually needed).\n\n");

//new
/* Status message */
fprintf(config.bk_pFile,"\n# Scanning the entire keyspace to find biggest keys as well as\n");
fprintf(config.bk_pFile,"# average sizes per key type.  You can use -i 0.1 to sleep 0.1 sec\n");
fprintf(config.bk_pFile,"# per 100 SCAN commands (not usually needed).\n\n");
 其次就是判断bigkey及其处理过程，旧程序是用typeinfo结构体记录的最大key和目前正在遍历的key作比较，目前遍历到的key更大的话就替换typeinfo结构体里面原本的最大key信息（biggest和biggest_key）。新版代码会先判断config.bk_config的配置信息，看该类型的key是否需要记录，不需要直接跳过。接着判断该key是否大于该类型的阈值，大于的话只能说明它是个bigkey，但是还要进一步判断是否超过了我们需要的bigkey数量。如果数量还没到上限则直接将该bigkey插入typeinfo结构体的zset里面，如果达到上限的话和zset的最小值进行比较，大于最小值就先删除最小值再将此key插入，如果小于最小值那就直接舍弃此key：
 //old
 if(type->biggest<sizes[i]) {
     /* Keep track of biggest key name for this type */
     if (type->biggest_key)
         sdsfree(type->biggest_key);
     type->biggest_key = sdscatrepr(sdsempty(), keys->element[i]->str, keys->element[i]->len);
     if(!type->biggest_key) {
         fprintf(stderr, "Failed to allocate memory for key!\n");
         exit(1);
     }

     /* Keep track of the biggest size for this type */
     type->biggest = sizes[i];
 }

//new
//如果不是所需要输出的类型，跳过分析
if(!config.bk_config[type->i_name].need_scan)
    continue;
//如果key大于对应类型的阈值
if(sizes[i] >= config.bk_config[type->i_name].thro_size) {
    sds keyname = sdscatrepr(sdsempty(), keys->element[i]->str, keys->element[i]->len);
    if(!keyname) {
        fprintf(stderr, "Failed to allocate memory for key!\n");
        exit(1);
    }
    //统计的大key数量还没到上限
    if(zsetLength(type->bigkeys) < config.bk_config[type->i_name].output_num){
        zsetAdd(type->bigkeys,sizes[i],keyname);
    }else{
        double score;
        sds min_key = zsetMin(type->bigkeys);
        zsetScore(type->bigkeys,min_key,&score);
        //如果key的大小大于已记录的大key的最小值
        if(sizes[i] > (unsigned long long)score){
            zsetDel(type->bigkeys,min_key);
            zsetAdd(type->bigkeys,sizes[i],keyname);
        }
    }

    sdsfree(keyname);
}
 然后就是输出统计信息，输出完后释放各种用到的结构体内存然后回到main函数。以上就是整个解析流程了。
  
   
  性能比较 
  这里比较解析能力，就把bigkey阈值设为0，输出数量也设为无上限，并且全部数据类型都要解析。事先通过脚本向redis服务中string、list、set、zset、hash中各插入10000个normalkey和2两个bigkey，stream类型不插入数据。并且通过/usr/bin/time -v获取进程执行时间、cpu利用率等信息。 
  redis-bigkey-online 
  可以看到用户运行时间为0.24秒，系统运行时间为0.11秒，cpu占用率为58%，最大占用内存为6392字节。 
   
  python脚本 
  import sys
import redis

if __name__ == '__main__':
    if len(sys.argv) != 4:
        print('Usage: python ', sys.argv[0], ' host port outputfile ')
        exit(1)
    host = sys.argv[1]
    port = sys.argv[2]
    outputfile = sys.argv[3]
    r = redis.StrictRedis(host=host, port=int(port))
    f = open(outputfile, "w")

    for k in r.scan_iter():
        length = 0
        try:
            type = r.type(k)
            if type == b'string':
                length = r.strlen(k)
            elif type == b'hash':
                length = r.hlen(k)
            elif type == b'list':
                length = r.llen(k)
            elif type == b'set':
                length = r.scard(k)
            elif type == b'zset':
                length = r.zcard(k)
            elif type == b'stream':
                length = r.xlen(k)
        except:
            sys.exit(1)
        if length > 0:
            print(k, type, length, file=f)
 
  虽然代码足够精简，但是可以看到用户运行时间为4.99秒，系统运行时间为1.27秒，cpu占用率为79%，最大占用内存为13060字节。 
   
  redis-rdb-tools（已安装python-lzf） 
  redis-rdb-tools是github非常受欢迎的一款分析rdb文件的工具，有4k+的star数。并且由于其是离线方式分析redis的持久化文件，避免了客户端命令查询的网络IO消耗，理论上速度是快于脚本的。redis-rdb-tools的-c justkeys选项是其最快的解析命令，只输出键名不输出其他信息，下面为测试结果： 
  惨不忍睹！可以看到用户运行时间为18.55秒，系统运行时间为0.16秒，cpu占用率为99%，最大占用内存为60548字节。由于redis-rdb-tools实现的功能过于冗杂繁多，所以反而导致其速度远低于存python脚本。 
   
  image-20210202152132722.png 
  常见问题 
   
    你的项目这么好，有什么缺陷吗？
 这个项目和所有在线脚本一样，因为--bigkeys选项的源码本质就是客户端不断发送命令给服务器进行查询信息实现的，所以尽量避免在远程的客户端运行该选项，尽量在服务器本地执行程序
  
    为什么不实现输出bigkey时同时将该key属于哪个数据库的信息也输出？
 这里不是没想到，是没必要。因为redis-cli本身就实现了这个功能。我们加入我们想找3号数据库的bigkey，就使用
 ./redis-cli -h 127.0.0.1 -p 6379 -n 3 --bigkeys bigkeys.conf
 如果不输入-n选项就是默认连接0号数据库。这样还有个好处就是你可以建立一个脚本开多线程，每个线程分析一个数据库，这样可以最大限度地利用CPU资源。
  
    为什么不实现输出bigkey时同时将该key的expire（过期时间）信息也输出？
 后续版本支持。
  
    你为啥不也去实现个rdb版本的bigkey查找程序？
 然而事实是我之前实现过，在之前实习期间mentor就叫我实现个找bigkey的程序。当时就是深入了解redis源码后用纯C实现了redis-rdb-bigkey项目，性能上也是吊打redis-rdb-tools。而这次修改源码的动力之一也是我曾经做过的redis-rdb-bigkey项目。
  
    通过命令查询的方式有个缺陷就是只知道比如hash的field数量是多少而不能确定整个hash数据占用的内存是多少！
 淦！就等你问这句话了！！！ 确实拿hash来说，field数量多不代表它占用的内存就大，field数量少也不一定代表它占用内存就小，比如一个hash只有两个field，但是每个field大小有一个G！这无疑是一个bigkey，所以只通过HLEN命令获取它的field数量来判断是不是bigkey很偏颇。
 但是如果你仔细看findBigKeys(int memkeys, unsigned memkeys_samples)会发现它有两个参数memkeys、memkeys_samples，这两个参数是和--memkeys选项有关的，如果你运行的时–memkey的话，那么memkeys的值就为1，那findBigKeys()函数查询单个key的命令就变成了MEMORY USAGE {keyname}，从而可以获得每一个key的实际内存占用大小！对源程序稍加改变就可以实现--memkeys选项的个性化使用，现版本已支持如下命令：
 ./redis-cli -h 127.0.0.1 -p 6379 --memkeys memkeys.conf
 memkeys.conf和bigkeys.conf唯一不同的就是xx_thro_size都变成了带单位的阈值，比如hash_thro_size 30KB。以下是一次运行结果：

高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
后端开发：Spring Boot 的分布式缓存方案大厂资深架构师 Spring Boot 开发实战 spring boot 分布式缓存 ai
后端开发：SpringBoot的分布式缓存方案关键词：SpringBoot、分布式缓存、Redis、Caffeine、缓存策略、缓存失效摘要：本文深入探讨了在SpringBoot后端开发中分布式缓存方案的相关技术。首先介绍了分布式缓存在现代应用中的重要性及本文的研究范围，接着阐述了核心概念如分布式缓存的原理与架构，详细讲解了常用的核心算法原理及具体操作步骤，包括使用Python代码示例说明。通过数
分布式推客系统全栈开发指南：SpringCloud+Neo4j+Redis实战解析 wx_ywyy6798 oracle 数据库推客系统推客小程序推客系统开发推客小程序开发推客分销系统
一、推客系统概述与市场背景推客系统（或称"推荐客"系统）是一种基于社交关系和内容分发的推荐营销平台，近年来在电商、内容平台和社交媒体领域迅速崛起。根据最新统计数据，2023年全球社交电商市场规模已达1.2万亿美元，其中推客模式的贡献率超过35%。1.1推客系统的核心价值推客系统通过以下机制创造商业价值：社交裂变：利用用户社交网络实现指数级传播精准推荐：基于用户行为和关系链的个性化内容分发激励机制：
从 Redis 客户端超时到 .NET 线程池挑战 meslog 技术分享 redis .net bootstrap
在开发.NET应用时，我偶然遇到使用StackExchange.Redis作为Redis客户端时出现的超时问题。经查验，这些问题往往不是Redis服务器本身出了故障，而是客户端侧的配置和资源管理不当所致。尤其是当应用运行在高并发环境下，比如ASP.NETCore服务中使用Kestrel服务器时，超时异常如RedisTimeoutException或TimeoutperformingGET会频繁出现
RocketMQ 高可用集群架构与一致性机制解析乘风破浪~~ rocketmq 架构
分布式场景中一致性问题：1.服务器不稳定：随时泵机的可能2.网络问题：导致请求丢失3.网速问题：难以保证请求顺序性，最终结果数据一致性需要操作顺序性保证4.快速响应：不能因为一致性，导致响应以集群中最慢的为准。常见的算法弱一致性算法：DNS系统，Gossip协议（RedisCluster）强一致性算法：Basic-Paxos、Multi-Paxos包括Raft系列(Nacos的JRaft，Kafk
SpringbootSpringSecurityJWTredis框架搭建demo：多参数登录验证的安全解决方案
SpringbootSpringSecurityJWTredis框架搭建demo：多参数登录验证的安全解决方案去发现同类优质开源项目:https://gitcode.com/项目介绍在当今互联网安全日益重要的背景下，如何构建一个安全、高效的认证授权框架成为了开发者关注的焦点。SpringbootSpringSecurityJWTredis框架搭建demo正是为此而生，它集成了Springboot、
Redis集群会有写操作丢失吗？为什么? java1234_小锋 java redis java 数据库
大家好，我是锋哥。今天分享关于【Redis集群会有写操作丢失吗？为什么?】面试题。希望对大家有帮助；Redis集群会有写操作丢失吗？为什么?超硬核AI学习资料，现在永久免费了！在Redis集群中，写操作丢失是有可能发生的，特别是在网络分区、节点故障或配置不当的情况下。以下是一些可能导致写操作丢失的原因：节点故障或网络分区：当一个Redis集群节点出现故障或网络发生分区时，部分写操作可能无法同步到副
Java实习模拟面试之创玖科技：前后端交互、数据库、Spring全家桶、性能优化与Linux实战培风图南以星河揽胜 java面试 java 面试科技
关键词：JavaScript、JQuery、Ajax、Node.js、MySQL、Oracle、Spring、SpringMVC、SpringBoot、MyBatis、Tomcat、Redis、Nginx、Linux、Git、SAAS系统开发一、面试开场：自我介绍面试官提问：请做个自我介绍，重点突出你的技术栈和项目经验。候选人回答：您好，我是一名计算机科学与技术专业的应届生，具备扎实的Java基础
redis 清理缓存 Caster_Z 缓存 redis 数据库
----windos方法1，重启redis也能请缓存。方法2，清缓存前确保redis-server.exe进程已经启动，然后打开redis-cli.exe，跳出的CMD里面输入flushall，显示OK就可以了。如果启动有问题，可能改过端口，可以尝试CMD输入进入redis-cli.exe所在目录打开CMD，或者CMD进入所在目录，redis-cli.exe-h127.0.0.1-p33101--
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
生产故障排查记录：Redis 中间件疑难错误排查与修复韩先超 redis 中间件 php 数据库缓存
欢迎关注我的公众号「DevOps和k8s全栈技术」，进公众号【服务】栏，可以看到技术群，点击即可加入学习交流群。↓↓↓一、问题描述某生产环境中，Redis集群出现间歇性超时（timeout）和高延迟，部分应用侧出现READONLYYoucan'twriteagainstaread-onlyreplica错误。二、问题分析1.错误现象1）应用层报错：Timeoutwaitingforconnecti
redis常见问题快乐的码农一枚 redis redis nosql 数据库
一、处理redis的线上问题Redis使用过程中经常会有各种大key的情况1、改对象需要每次都整存整取、最好改成hash存储，每次修改某一个field2、list、set、zset元素太多。每次可以只查询部分；3、将一个key拆分多个key二、超大Value打满网卡的问题如何规避业务设计上避免对于大文本【超过500字节】写入到Redis时，一定要压缩后存储！大文本数据存入Redis，除了带来极大的
Redis 线上操作最佳实践阿贾克斯的黎明 java redis
在2024年9月19日，Redis作为一种高性能的内存数据库，在许多线上应用中发挥着重要作用。为了确保Redis在生产环境中的稳定运行和高效性能，以下是一些Redis线上操作的最佳实践。一、配置优化1.内存设置-根据实际需求合理设置Redis的内存限制。可以通过maxmemory参数来限制Redis使用的内存大小，避免因内存使用过多导致系统内存不足。-同时，设置合适的内存淘汰策略，如volatil
Redis性能对比(以下测试在同一机器执行)
一编译安装以下实例同时执行10000个请求来检测性能：[[email protected]]#redis-benchmark-n10000-a123-qPING_INLINE:52083.33requestspersecond,p50=0.663msecPING_MBULK:53191.49requestspersecond,p50=0.655msecSET:50251.26r
Redis常见问题汇总
目录1、Redis为什么这么快2、Redis的过期策略以及内存淘汰机制2.1、为什么不用定时删除策略2.2、定期删除+惰性删除是如何工作的2.3、采用定期删除+惰性删除就没其他问题了么?2.4、Redis内存淘汰机制3、Redis并发环境下使用3.1、如何解决redis的并发竞争key问题3.2、MySQL里有2000w数据，redis中只存20w的数据，如何保证redis中的数据都是热点数据4、
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
【Redis 系列】redis 学习九，Redis 的发布和订阅是咋玩的阿兵云原生
Redis发布订阅Redis发布订阅（pub/sub）是一种消息通信模式发送者发送消息pub接受者订阅消息sub例如微信，微博这样的关注系统Redis的客户端可以订阅任意数量的频道，不受限制来看看图示消息发布者消息订阅者频道image这里的消息发布者，和消息订阅者都是redis客户端，订阅者订阅某个频道，发布者在该频道中发布相关信息，例如文章，例如沸点，等等，消息订阅者就能实时收到刚才发布者发送的
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集傻啦嘿哟分布式爬虫架构
目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3
redis-缓存三剑客（缓存击穿，缓存穿透，缓存雪崩） hzx790688184 redis redis
redis-缓存击穿，缓存穿透，缓存雪崩缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库，数据库不存在该数据，会导致每次请求都会到数据库缓存穿透当热点key过期时，突然大量请求访问，直接访问到数据库缓存雪崩大批量的key同时失效，或redis宕机，导致大量的请求直接访问数据库缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库
Java实现简单秒杀功能
在商城项目中，秒杀功能可以说是必不可少的，下面我将使用SpringBoot集成Redis、RabbitMQ、MyBatis-Plus和MySQL来实现一个简单的秒杀系统，系统将包含以下核心功能：使用Redis进行库存预减和用户限流；使用RabbitMQ进行异步下单，提高系统吞吐量；使用MyBatis-Plus操作MySQL数据库；利用Redis执行Lua脚本的原子性防止商品超卖；接口限流（使用Re
分布式定时器：原理设计与技术挑战你一身傲骨怎能输架构设计分布式
文章摘要分布式定时器用于在分布式系统中可靠、准确地触发定时任务，常见实现方案包括：基于数据库/消息队列的定时扫描、分布式任务调度框架（如Quartz集群、xxl-job）、时间轮/延迟队列（如Redis/Kafka）以及Zookeeper/Etcd协调服务。主要技术挑战包括时钟同步、任务幂等、高可用、负载均衡和故障恢复等。核心难点在于保证任务唯一性、调度精度与分布式一致性，技术选型需权衡轻量级（R
Redis 如何保证高并发与高可用笑衬人心。 Redis笔记 redis 数据库缓存
一、Redis高并发的实现机制1.1单线程模型+I/O多路复用Redis使用单线程架构（从Redis6开始引入I/O多线程，但核心命令仍由单线程执行）。采用epoll/kqueue等I/O多路复用机制，非阻塞处理大量连接。避免多线程带来的上下文切换和锁竞争问题。1.2高效数据结构与命令执行内部使用如跳表、字典、压缩列表、整数集合、位图等高效结构。Redis命令执行在内存中，时间复杂度较低（多数为O
RedissonLock-tryLock-续期周末吃鱼 redisson
redisson版本3.16.61.什么是看门狗Redisson提供的分布式锁是支持锁自动续期的，也就是说，如果线程仍旧没有执行完，那么redisson会自动给redis中的目标key延长超时时间，这在Redisson中称之为WatchDog机制。默认情况下，看门狗的检查锁的超时时间是30秒钟，也可以通过修改Config.lockWatchdogTimeout来另行指定。2.什么情况会续期什么情况
Redisson：强大的Redis Java客户端库大宝S**蜜 java
Redisson：强大的RedisJava客户端库在Java应用程序中，Redis经常作为缓存、消息代理、分布式锁等功能的首选。然而，直接使用Redis的原生协议或Jedis等简单的Java客户端可能不足以满足复杂的分布式和并发需求。这时，Redisson作为一个功能强大的RedisJava客户端库，提供了许多高级功能和易用性改进，成为开发者的有力工具。1.Redisson简介Redisson是一
Java双重检测锁解决MySQL和Redis数据一致性问题
Java双重检测锁解决MySQL和Redis数据一致性问题双重检测锁(Double-CheckedLocking)是一种在多线程环境下优化性能的设计模式，可以用于解决MySQL和Redis之间的数据一致性问题。下面我将介绍如何实现这一方案。问题背景在MySQL和Redis双存储系统中，常见的一致性问题包括：缓存穿透：查询不存在的数据，导致每次请求都打到数据库缓存击穿：热点key失效瞬间，大量请求直
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

一文读懂Redis6的--bigkeys选项源码以及redis-bigkey-online项目介绍

–bigkeys选项源码原理解析

1.申请6个变量用以统计各类型的统计信息

2.调用scan命令迭代地获取一批key

3.对每个key获取它的数据类型（type）和key的大小（size）

4.对每个key更新对应数据类型的统计信息

5.如果key的大小大于已记录的最大值的key，则更新最大key的信息

7.输出统计信息、最大key信息

redis-bigkey-online

设计思路

具体代码

修改`redis-cli.c`

性能比较

redis-bigkey-online

python脚本

redis-rdb-tools（已安装python-lzf）

常见问题

你可能感兴趣的:(redis,redis,bigkeys)