喜欢芋圆-

聊聊redis一些常用的知识点

Redis面试中常见的面试题

- redis的基本数据结构
- Redis缓存雪崩
- Redia缓存穿透
- Redis缓存击穿
- 缓存不一致问题
- 为什么是删除，而不是更新缓存？
- 布隆过滤器
- - Bloom Filter的缺点
- Redis持久化
- - AOF 重写
  - ReWrite触发机制是什么？
- RDB 和 AOF 各自有什么优缺点？
- Redis 4.0 混合持久化
- Redis主从复制
- - 主从复制主要的作用
  - 主从复制一些小细节
- 哨兵模式
- - 判断主服务器是否下线了
- 数据丢失情况
- Redis 集群
- Redis设置过期时间
- - 过期淘汰策略

redis的基本数据结构

Redis有哪些数据结构呀？
应该有很多面试者会像我一样回答5种，String、Hash、List、Set、SortedSet，但这是人人到知道的，即使回答上来也并不会对面试官留下什么印象，所以我整理了这个问题该怎样回答。
答：有5种基本数据类型，分别是String、Hash、List、Set、SortedSet。但是其每一种数据类型中有不同的编码格式。
String类型编码格式：int （整数值），embstr （字符串值，字符串长度小于32字节），raw （字符串值，字符串长度大于32字节）。String数据类型的使用场景：博客系统的点赞功能

Hash类型编码格式：ziplist和hashtable
ziplist的使用场景是：当数据量比较小的时候，底层采用ziplist存储。
例如：hset user：001 username song age 20 length 170 （此时因为数据量较少并且单个元素比较小，底层采用ziplist实现，当hgetAll user时，输出的顺序就等于我们输入的顺序）。但是将user weigth 10000000000000 这个属性和值插入时，由于单个元素较大，数据结构升级为hashtable，输出的顺序将会是无序的。元素的数量超过512/元素的大小超过64字节，会改变数据结构。
hashtable（字典）的使用场景：字典的内部结构包含两个hashtable，ht[0]：用于存放真实的数据，ht[1]：用于扩容，扩容为原来的1倍。
重点：渐进式rehash
大字典的扩容是比较耗时的，需要重新申请新数组，然后将旧字典所有链表中的元素重新挂到新的数组下面，这是一个O(n)级别的操作，作为单线程的Rdis很难承受这样耗时的过程，所以Redis使用渐进式rehash搬移。

在字典中维持一个索引计数器rehashidx，并将设置为0，表示rehash开始
在rehash期间每次对字典进行增删改查时，会将ht[0]中rehashidx索引上的值rehash到ht[1]，操作完成后rehashidx+1
字典操作不断执行，在最终某个时间所有键值完成rehash，这时将rehashidx设置为-1，表示rehash完成
Hash数据类型的使用场景：电商系统的购物车功能
剩下三种我也就不一一介绍了，因为我也不太了解。

除了基本数据类型还可以说一些中级数据类型：Bitmaps、HyperLogLog、GEO
Bitmaps：就是布隆过滤器中的二进制数组
HyperLogLog：用于进行基数统计，不是集合，不保存数据，只记录数量而不是具体数据，核心是基数估算算法，最终数值存在一定误差，基数估计的结果是一个带有0.81%标准错误的近似值。适用场景：UV（独立访客，某网站每天的访客次数）。
GEO：测量两点之间的距离。

Redis缓存雪崩

举个简单的例子：如果所有首页的Key失效时间都是12小时，中午12点刷新的，我零点有个秒杀活动大量用户涌入，假设当时每秒 6000 个请求，本来缓存在可以扛住每秒 5000 个请求，但是缓存当时所有的Key都失效了。此时 1 秒 6000 个请求全部落数据库，数据库必然扛不住，它会报一下警，真实情况可能DBA都没反应过来就直接挂了。
**解决方式：**处理缓存雪崩简单，在批量往Redis存数据的时候，把每个Key的失效时间都加个随机值就好了，这样可以保证数据不会在同一时间大面积失效，我相信，Redis这点流量还是顶得住的。或者设置热点数据永远不过期，有更新操作就更新缓存就好了。

Redia缓存穿透

缓存穿透是指缓存和数据库中都没有的数据，而用户不断发起请求，我们数据库的 id 都是1开始自增上去的，如发起为id值为 -1 的数据或 id 为特别大不存在的数据。这时的用户很可能是攻击者，攻击会导致数据库压力过大，严重会击垮数据库。你如果不对参数做校验，数据库id都是大于0的，我一直用小于0的参数去请求你，每次都能绕开Redis直接打到数据库，数据库也查不到，每次都这样，并发高点就容易崩掉了。
**解决方式：**缓存穿透我会在接口层增加校验，比如用户鉴权校验，参数做校验，不合法的参数直接代码Return，比如：id 做基础校验，id <=0的直接拦截等。
设置缓存无效key：如果缓存和数据库都找不到这个key的数据，就写一个key到redis中并设置过期时间。这种方法可以解决key的变换不频繁情况，如果黑客每次攻击使用不同的key，就会导致redis中缓存大量无效的key。
布隆过滤器：通过随机映射函数，将数据存入二进制数组。假如有两个随机映射函数，那么x就会被散落到二进制数组的两个位置上。当查询x是否存在时，就去查询这两个位置是否都为1.但是布隆过滤器存在误判的情况。

Redis缓存击穿

缓存击穿是指一个Key非常热点，在不停的扛着大并发，大并发集中对这一个点进行访问，当这个Key在失效的瞬间，持续的大并发就穿破缓存，直接请求数据库，就像在一个完好无损的桶上凿开了一个洞。
**解决方式：**设置热点数据永远不过期。或者加上互斥锁就能搞定了。

缓存不一致问题

先删缓存，再更新数据库
延时双删：为了避免更新数据库的时候，其他线程从缓存中读取不到数据，就在更新完数据库之后，再sleep一段时间，然后再次删除缓存
流程如下：

线程1删除缓存，然后去更新数据库
线程2来读缓存，发现缓存已经被删除，所以直接从数据库中读取，这时候由于线程1还没有更新完成，所以读到的是旧值，然后把旧值写入缓存
线程1，根据估算的时间，sleep，由于sleep的时间大于线程2读数据+写缓存的时间，所以缓存被再次删除
如果还有其他线程来读取缓存的话，就会再次从数据库中读取到最新值

先更新数据库，再删除缓存
这个就更明显的问题了，更新数据库成功，如果删除缓存失败或者还没有来得及删除，那么，其他线程从缓存中读取到的就是旧值，还是会发生不一致。
消息队列：先更新数据库，成功后往消息队列发消息，消费到消息后再删除缓存，借助消息队列的重试机制来实现。

为什么是删除，而不是更新缓存？

我们以先更新数据库，再删除缓存来举例。
如果是更新的话，那就是先更新数据库，再更新缓存。
举个例子：如果数据库1小时内更新了1000次，那么缓存也要更新1000次，但是这个缓存可能在1小时内只被读取了1次，那么这1000次的更新有必要吗？
反过来，如果是删除的话，就算数据库更新了1000次，那么也只是做了1次缓存删除，只有当缓存真正被读取的时候才去数据库加载。

布隆过滤器

**基本思想：**布隆过滤器的原理是，当一个元素被加入集合时，通过K个散列函数将这个元素映射成一个位数组中的K个点，把它们置为1。检索时，我们只要看看这些点是不是都是1就（大约）知道集合中有没有它了：如果这些点有任何一个0，则被检元素一定不在；如果都是1，则被检元素很可能在。这就是布隆过滤器的基本思想。

Bloom Filter的缺点

bloom filter之所以能做到在时间和空间上的效率比较高，是因为牺牲了判断的准确率、删除的便利性

存在误判，可能要查到的元素并没有在容器中，但是hash之后得到的k个位置上值都是1。如果bloom filter中存储的是黑名单，那么可以通过建立一个白名单来存储可能会误判的元素。
删除困难。一个放入容器的元素映射到bit数组的k个位置上是1，删除的时候不能简单的直接置为0，可能会影响其他元素的判断。

Redis持久化

Redis持久化的问题一直是面试中的高频题，可是我看过很多视频，视频讲的都很好，但是我始终记不住该怎么具体完整的去回答这个问题，或者说怎样回答让面试官觉得我真的对持久化有一个不错的理解，至今也没有找到，只能写一些过往的总结。
RDB持久化
当触发了rdb快照机制，Redis会单独创建（fork）一个子进程，简单理解也就是基于当前进程复制了一个主进程，主进程和子进程会共享内存里面的代码块和数据段。子进程会将共享内存中的数据写入到临时rdb文件中，当完成持久化后（将共享内存中的数据全部写入临时文件后），将临时文件替换原来的rdb文件。

触发RDB持久化机制

配置文件中默认的快照配置。
手动创建命令：
SAVE会阻塞Redis服务器进程，服务器不能接收任何请求，直到RDB文件创建完毕为止。
BGSAVE创建出一个子进程，由子进程来负责创建RDB文件，服务器进程可以继续接收请求。

AOF持久化
以日志的形式来记录每个写操作，将Redis执行过的所有写指令记录下来（读操作不记录），只许追加文件但不可以改写文件。每次执行修改内存中数据集的写操作时，都会记录该操作。当 Redis 收到客户端修改指令后，会先进行参数校验、逻辑处理，如果没问题，就立即将该指令文本存储到 AOF 日志中，也就是说，先执行指令再将日志存盘。
如果aof文件损坏可以使用redis-check-aof --fix appendonly.aof来修复aof文件
触发aof持久化：
always ：每个写命令都同步，选项会严重减低服务器的性能；
everysec ：每秒同步一次，选项比较合适，可以保证系统崩溃时只会丢失一秒左右的数据，并且 Redis 每秒执行一次同步对服务器性能几乎没有任何影响；
no ：让操作系统来决定何时同步，选项并不能给服务器性能带来多大的提升，而且也会增加系统崩溃时数据丢失的数量。

AOF 重写

Redis 在长期运行的过程中，AOF 的日志会越变越长。如果实例宕机重启，重放整个 AOF 日志会非常耗时，导致长时间 Redis 无法对外提供服务。所以需要对 AOF 日志 “瘦身”。
Redis 提供了 bgrewriteaof 指令用于对 AOF 日志进行瘦身。其原理就是开辟一个子进程对内存进行遍历，转换成一系列 Redis 的操作指令，序列化到一个新的 AOF 日志文件中。序列化完毕后再将操作期间发生的增量 AOF 日志追加到这个新的 AOF 日志文件中，追加完毕后就立即替代旧的 AOF 日志文件了，瘦身工作就完成了。

ReWrite触发机制是什么？

Redis会记录上次重写时的AOF大小，默认配置是当AOF文件大小是上次rewrite后大小的一倍且文件大于64M时触发

RDB 和 AOF 各自有什么优缺点？

RDB 优点：

性能最大化，fork 子进程来完成写操作，让主进程继续处理命令，所以使 IO 最大化。使用单独子进程来进行持久化，主进程不会进行任何 IO 操作，保证了 Redis 的高性能。
相对于数据集大时，比 AOF 的启动效率更高。
RDB 缺点：
数据安全性低。RDB 是间隔一段时间进行持久化，如果持久化之间 Redis 发生故障，会发生数据丢失。所以这种方式更适合数据要求不严谨的时候；
AOF 优点：
数据安全，aof 持久化可以配置 appendfsync 属性，有 always，每进行一次命令操作就记录到 aof 文件中一次。
通过 append 模式写文件，即使中途服务器宕机，可以通过 redis-check-aof 工具解决数据一致性问题。
AOF 机制的 rewrite 模式。AOF 文件没被 rewrite 之前（文件过大时会对命令进行合并重写）
AOF 缺点：
AOF 文件比 RDB 文件大，且恢复速度慢。
数据集大的时候，比 rdb 启动效率低。

Redis 4.0 混合持久化

重启 Redis 时，我们很少使用 rdb 来恢复内存状态，因为会丢失大量数据。我们通常使用 AOF 日志重放，但是重放 AOF 日志性能相对 rdb 来说要慢很多，这样在 Redis 实例很大的情况下，启动需要花费很长的时间。
Redis 4.0 为了解决这个问题，带来了一个新的持久化选项——混合持久化。将 rdb 文件的内容和增量的 AOF 日志文件存在一起。这里的 AOF 日志不再是全量的日志，而是自持久化开始到持久化结束的这段时间发生的增量 AOF 日志，通常这部分 AOF 日志很小：

于是在 Redis 重启的时候，可以先加载 rdb 的内容，然后再重放增量 AOF 日志就可以完全替代之前的 AOF 全量文件重放，重启效率因此大幅得到提升。

Redis主从复制

复制过程
下图为Redis复制工作过程：

slave向master发送sync命令。
master开启子进程来将dataset写入rdb文件，同时将子进程完成之前接收到的写命令缓存起来。
子进程写完，父进程得知，开始将RDB文件发送给slave。
master发送完RDB文件，将缓存的命令也发给slave。
master增量的把写命令发给slave。

主从复制主要的作用

数据冗余： 主从复制实现了数据的热备份，是持久化之外的一种数据冗余方式。
故障恢复： 当主节点出现问题时，可以由从节点提供服务，实现快速的故障恢复 (实际上是一种服务的冗余)。
负载均衡： 在主从复制的基础上，配合读写分离，可以由主节点提供写服务，由从节点提供读服务（即写 Redis 数据时应用连接主节点，读 Redis 数据时应用连接从节点），分担服务器负载。尤其是在写少读多的场景下，通过多个从节点分担读负载，可以大大提高 Redis 服务器的并发量。
高可用基石： 除了上述作用以外，主从复制还是哨兵和集群能够实施的基础，因此说主从复制是 Redis 高可用的基础。

主从复制一些小细节

1.配从不配主
查看redis的状态 info replication

在6380客户端执行语句：Slaveof 127.0.0.1 6379 将6379设置为6380的从机
小知识点：
1）如果主机死了（shutdown），那么从机的状态依旧为从机，只是连接状态由up变为down。如果主机又活了，那么从机将继续当他的从机。
2）如果从机死了，那么另一个从机不受影响，死掉的从机重新启动，状态会变回主机。
（只要和master主机断开就必须重新连接，也可以将从机语句写入配置文件）手动配置完从机后仍可以正常使用。
2.薪火相传
6379为主机 6380为6379从机 6381 为6380从机 //6380的状态仍然为从机
3.反客为主
当从机的主机shutdown后，Slaveof no one 命令可以让从机变为主机

哨兵模式

在复制的基础上，哨兵实现了 自动化的故障恢复 功能，下方是官方对于哨兵功能的描述：
监控： 哨兵会不断地检查主节点和从节点是否运作正常。
自动故障转移： 当主节点不能正常工作时，哨兵会开始自动故障转移操作，它会将失效主节点的其中一个从节点升级为新的主节点，并让其他从节点改为复制新的主节点。
配置提供者： 客户端在初始化时，通过连接哨兵来获得当前 Redis 服务的主节点地址。
通知： 哨兵可以将故障转移的结果发送给客户端。

判断主服务器是否下线了

主观下线
Sentinel会以每秒一次的频率向与它创建命令连接的实例(包括主从服务器和其他的Sentinel)发送PING命令，通过PING命令返回的信息判断实例是否在线
如果一个主服务器在down-after-milliseconds毫秒内连续向Sentinel发送无效回复，那么当前Sentinel就会主观认为该主服务器已经下线了。
客观下线
当Sentinel将一个主服务器判断为主观下线以后，为了确认该主服务器是否真的下线，它会向同样监视该主服务器的Sentinel询问，看它们是否也认为该主服务器是否下线。
如果足够多的Sentinel认为该主服务器是下线的（通常为哨兵的半数以上），那么就判定该主服务为客观下线，并对主服务器执行故障转移操作。

数据丢失情况

丢失数据有两种情况：
异步复制导致的数据丢失：有部分数据还没复制到从服务器，主服务器就宕机了，此时这些部分数据就丢失了
脑裂导致的数据丢失：
有时候主服务器脱离了正常网络，跟其他从服务器不能连接。此时哨兵可能就会认为主服务器下线了(然后开启选举，将某个从服务器切换成了主服务器)，但是实际上主服务器还运行着。这个时候，集群里就会有两个服务器(也就是所谓的脑裂)。
虽然某个从服务器被切换成了主服务器，但是可能客户端还没来得及切换到新的主服务器，客户端还继续写向旧主服务器写数据。旧的服务器重新连接时，会作为从服务器复制新的主服务器(这意味着旧数据丢失)。

Redis 集群

Redis设置过期时间

当我们set key value时，可以为这个key增加一个过期时间expire time，在这个过期时间内我们可以判定这个key是存活的，当过了这个时间redis是怎样对这个key进行删除的？
定期删除+惰性删除
定期删除： redis默认是每隔100ms就随机抽取一些设置了过期时间的key，检查是否过期，如果过期就删除。注意这里是随机抽取的，为什么要随机抽取呢？如果redis存了几十万个key，每隔100ms就遍历所有设置存活时间的key，这会给cpu带来很大的负载
惰性删除： 因为定期删除是随机抽取，因此会会有一些过期了的key到了时间没有被删除，所以就有了惰性删除。假设这个过期的key还存在redis中除非你的系统去查看一下这个key，当他被发现了才会被redis删除
但是因为数据量过大，你没办法去查看到所有过期的key，导致过期的key堆积在redis中，怎么解决这个问题呢？

过期淘汰策略

Redis提供的6种淘汰策略：
1.从已经设置过期时间的数据集中挑选最近最少使用的数据淘汰
2.从已经设置过期时间的数据集中挑选将要过期的数据淘汰
3.从已经设置过期时间的数据集中任意选择数据淘汰
4.从所有数据集中挑选最近最少使用的数据淘汰
5.从所有数据集中任意选择数据淘汰
6.禁止驱逐数据，也就是说当内存不足以容纳新写入数据时，新写入操作会报错

Java实习模拟面试之创玖科技：前后端交互、数据库、Spring全家桶、性能优化与Linux实战培风图南以星河揽胜 java面试 java 面试科技
关键词：JavaScript、JQuery、Ajax、Node.js、MySQL、Oracle、Spring、SpringMVC、SpringBoot、MyBatis、Tomcat、Redis、Nginx、Linux、Git、SAAS系统开发一、面试开场：自我介绍面试官提问：请做个自我介绍，重点突出你的技术栈和项目经验。候选人回答：您好，我是一名计算机科学与技术专业的应届生，具备扎实的Java基础
redis 清理缓存 Caster_Z 缓存 redis 数据库
----windos方法1，重启redis也能请缓存。方法2，清缓存前确保redis-server.exe进程已经启动，然后打开redis-cli.exe，跳出的CMD里面输入flushall，显示OK就可以了。如果启动有问题，可能改过端口，可以尝试CMD输入进入redis-cli.exe所在目录打开CMD，或者CMD进入所在目录，redis-cli.exe-h127.0.0.1-p33101--
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
生产故障排查记录：Redis 中间件疑难错误排查与修复韩先超 redis 中间件 php 数据库缓存
欢迎关注我的公众号「DevOps和k8s全栈技术」，进公众号【服务】栏，可以看到技术群，点击即可加入学习交流群。↓↓↓一、问题描述某生产环境中，Redis集群出现间歇性超时（timeout）和高延迟，部分应用侧出现READONLYYoucan'twriteagainstaread-onlyreplica错误。二、问题分析1.错误现象1）应用层报错：Timeoutwaitingforconnecti
redis常见问题快乐的码农一枚 redis redis nosql 数据库
一、处理redis的线上问题Redis使用过程中经常会有各种大key的情况1、改对象需要每次都整存整取、最好改成hash存储，每次修改某一个field2、list、set、zset元素太多。每次可以只查询部分；3、将一个key拆分多个key二、超大Value打满网卡的问题如何规避业务设计上避免对于大文本【超过500字节】写入到Redis时，一定要压缩后存储！大文本数据存入Redis，除了带来极大的
Redis 线上操作最佳实践阿贾克斯的黎明 java redis
在2024年9月19日，Redis作为一种高性能的内存数据库，在许多线上应用中发挥着重要作用。为了确保Redis在生产环境中的稳定运行和高效性能，以下是一些Redis线上操作的最佳实践。一、配置优化1.内存设置-根据实际需求合理设置Redis的内存限制。可以通过maxmemory参数来限制Redis使用的内存大小，避免因内存使用过多导致系统内存不足。-同时，设置合适的内存淘汰策略，如volatil
Redis性能对比(以下测试在同一机器执行)
一编译安装以下实例同时执行10000个请求来检测性能：[[email protected]]#redis-benchmark-n10000-a123-qPING_INLINE:52083.33requestspersecond,p50=0.663msecPING_MBULK:53191.49requestspersecond,p50=0.655msecSET:50251.26r
Redis常见问题汇总
目录1、Redis为什么这么快2、Redis的过期策略以及内存淘汰机制2.1、为什么不用定时删除策略2.2、定期删除+惰性删除是如何工作的2.3、采用定期删除+惰性删除就没其他问题了么?2.4、Redis内存淘汰机制3、Redis并发环境下使用3.1、如何解决redis的并发竞争key问题3.2、MySQL里有2000w数据，redis中只存20w的数据，如何保证redis中的数据都是热点数据4、
Redis-py 实战指南：从安装到向量索引，Python 操作 Redis 全解析佑瞻数据库与知识图谱 redis python 数据库人工智能
在Python开发中，操作Redis数据库是很多场景下的刚需，而redis-py作为Redis官方推荐的Python客户端，更是我们绕不开的工具。但你是否在安装时踩过版本兼容的坑？是否在连接集群或配置TLS时犯过难？甚至想尝试向量索引却不知从何下手？今天我们就从基础到进阶，手把手带你玩转redis-py，让Python操作Redis变得简单又高效。一、redis-py安装：避坑指南首先，我们需要安
Go-Redis × 向量检索实战用 HNSW 在 Redis 中索引与查询文本 Embedding（Hash & JSON 双版本） Hello.Reader 数据库运维缓存技术 golang redis embedding
1.场景与思路痛点：把“文本内容”转成向量后，如何在本地Redis里做近似向量搜索（KNN），而不依赖外部向量数据库？方案：利用HuggingFace模型sentence-transformers/all-MiniLM-L6-v2生成384维Float32向量；借助RediSearch的HNSW索引能力，在Hash或JSON文档里存储&查询向量；用go-redisv9的高阶API（FTCreate
【Redis 系列】redis 学习九，Redis 的发布和订阅是咋玩的阿兵云原生
Redis发布订阅Redis发布订阅（pub/sub）是一种消息通信模式发送者发送消息pub接受者订阅消息sub例如微信，微博这样的关注系统Redis的客户端可以订阅任意数量的频道，不受限制来看看图示消息发布者消息订阅者频道image这里的消息发布者，和消息订阅者都是redis客户端，订阅者订阅某个频道，发布者在该频道中发布相关信息，例如文章，例如沸点，等等，消息订阅者就能实时收到刚才发布者发送的
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集傻啦嘿哟分布式爬虫架构
目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3
redis-缓存三剑客（缓存击穿，缓存穿透，缓存雪崩） hzx790688184 redis redis
redis-缓存击穿，缓存穿透，缓存雪崩缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库，数据库不存在该数据，会导致每次请求都会到数据库缓存穿透当热点key过期时，突然大量请求访问，直接访问到数据库缓存雪崩大批量的key同时失效，或redis宕机，导致大量的请求直接访问数据库缓存三剑客（缓存击穿，缓存穿透，缓存雪崩）缓存击穿请求一个不存在的数据时，请求到数据库
Java实现简单秒杀功能
在商城项目中，秒杀功能可以说是必不可少的，下面我将使用SpringBoot集成Redis、RabbitMQ、MyBatis-Plus和MySQL来实现一个简单的秒杀系统，系统将包含以下核心功能：使用Redis进行库存预减和用户限流；使用RabbitMQ进行异步下单，提高系统吞吐量；使用MyBatis-Plus操作MySQL数据库；利用Redis执行Lua脚本的原子性防止商品超卖；接口限流（使用Re
分布式定时器：原理设计与技术挑战你一身傲骨怎能输架构设计分布式
文章摘要分布式定时器用于在分布式系统中可靠、准确地触发定时任务，常见实现方案包括：基于数据库/消息队列的定时扫描、分布式任务调度框架（如Quartz集群、xxl-job）、时间轮/延迟队列（如Redis/Kafka）以及Zookeeper/Etcd协调服务。主要技术挑战包括时钟同步、任务幂等、高可用、负载均衡和故障恢复等。核心难点在于保证任务唯一性、调度精度与分布式一致性，技术选型需权衡轻量级（R
Redis 如何保证高并发与高可用笑衬人心。 Redis笔记 redis 数据库缓存
一、Redis高并发的实现机制1.1单线程模型+I/O多路复用Redis使用单线程架构（从Redis6开始引入I/O多线程，但核心命令仍由单线程执行）。采用epoll/kqueue等I/O多路复用机制，非阻塞处理大量连接。避免多线程带来的上下文切换和锁竞争问题。1.2高效数据结构与命令执行内部使用如跳表、字典、压缩列表、整数集合、位图等高效结构。Redis命令执行在内存中，时间复杂度较低（多数为O
RedissonLock-tryLock-续期周末吃鱼 redisson
redisson版本3.16.61.什么是看门狗Redisson提供的分布式锁是支持锁自动续期的，也就是说，如果线程仍旧没有执行完，那么redisson会自动给redis中的目标key延长超时时间，这在Redisson中称之为WatchDog机制。默认情况下，看门狗的检查锁的超时时间是30秒钟，也可以通过修改Config.lockWatchdogTimeout来另行指定。2.什么情况会续期什么情况
Redisson：强大的Redis Java客户端库大宝S**蜜 java
Redisson：强大的RedisJava客户端库在Java应用程序中，Redis经常作为缓存、消息代理、分布式锁等功能的首选。然而，直接使用Redis的原生协议或Jedis等简单的Java客户端可能不足以满足复杂的分布式和并发需求。这时，Redisson作为一个功能强大的RedisJava客户端库，提供了许多高级功能和易用性改进，成为开发者的有力工具。1.Redisson简介Redisson是一
Java双重检测锁解决MySQL和Redis数据一致性问题
Java双重检测锁解决MySQL和Redis数据一致性问题双重检测锁(Double-CheckedLocking)是一种在多线程环境下优化性能的设计模式，可以用于解决MySQL和Redis之间的数据一致性问题。下面我将介绍如何实现这一方案。问题背景在MySQL和Redis双存储系统中，常见的一致性问题包括：缓存穿透：查询不存在的数据，导致每次请求都打到数据库缓存击穿：热点key失效瞬间，大量请求直
JUC工具类
在黑马点评项目实战中使用Redis实现全局秒杀的课程中，提到了一个名词JUC，在测试生成随机id的有效性时使用到了JUC的工具类：CountDownLatch，这里简单进行一个介绍和了解，想学习更具体的有关多线程与并发编程的内容，可以去看黑马有专门的JUC教程。一、CountDownLatch：多线程协调工具类CountDownLatch是Java并发包（JUC）中的一个同步辅助类，主要用于协调多
Redis深度解析：从缓存到分布式系统的核心引擎 JouJz 缓存 redis 数据库
Redis深度解析：从缓存到分布式系统的核心引擎引言：数据时代的极速引擎在当今高并发、低延迟的数字世界中，Redis以其亚毫秒级响应、丰富数据结构和高可用架构，成为现代系统架构的核心组件。从简单的键值存储到复杂的分布式锁实现，从缓存加速到实时分析，Redis的应用场景已远超传统缓存范畴。本文将深入剖析Redis的核心原理、高级特性和最佳实践，带您全面理解这一改变数据处理方式的开源神器。一、Redi
Filebeat + Logstash + ES进行Nginx日志采集一个只会喊666的菜比
简易架构图service.png架构图比较简单，日志收集大同小异，这次不添加任何中间服务比如：rediskafka后端只是存储进ES使用的版本jdk-8u161-linux-x64.rpmelasticsearch-6.7.2.rpmlogstash-6.7.2.rpmfilebeat-6.7.2-x86_64.rpm安装比较简单，只用进行rpm-ivh即可，接下来直接贴配置文件：Elastics
Redis 分区奇点一氪
分区是分割数据到多个Redis实例的处理过程，因此每个实例只保存key的一个子集。分区的优势通过利用多台计算机内存的和值，允许我们构造更大的数据库。通过多核和多台计算机，允许我们扩展计算能力；通过多台计算机和网络适配器，允许我们扩展网络带宽。分区的不足redis的一些特性在分区方面表现的不是很好：涉及多个key的操作通常是不被支持的。举例来说，当两个set映射到不同的redis实例上时，你就不能对
Java 实习模拟面试之信也科技：IO、多线程、集合、MySQL、Redis、HTTP、Linux 常见面试题解析
在本次模拟面试中，我们将模拟一场面向Java实习生岗位的面试，重点围绕Java基础（IO、多线程、集合）、MySQL、Redis、MQ、HTTP协议以及Linux基础等核心知识点。通过模拟面试官提问和候选人的回答方式，帮助你更好地准备技术面试。一、Java基础（IO、多线程、集合）面试官提问：请谈谈你对JavaIO的理解，以及NIO和BIO的区别？候选人回答：JavaIO是Java提供的一套用于处
探索阿里云DMS：解锁高效数据管理新姿势云资源服务商 oracle 数据库阿里云云计算
一、阿里云DMS是什么阿里云DMS，全称为DataManagementService，即数据管理服务，是一种集数据管理、结构管理、安全管理于一体的全面数据库服务平台。它能够有效地支持各类数据库产品，包括但不限于MySQL、SQLServer、PostgreSQL、PPAS、DRDS、OceanBase、MongoDB、Redis等，对用户的数据库进行全方位的维护和管理，提供了一站式的数据库解决方案
北京-4年功能测试2年空窗-报培训班学测开-第五十天 amazinging 学习 python 面试
咦，昨天路上写一半就到家了，后来想早点睡就忘了还要发了，现在赶紧补上昨天是最后一节课(我们将一整天的课称为一节），这就结课了昨天讲了简历编写，面试要准备的内容，还有redis和docker也没有什么能让你一击必中(面试）的技巧，都是总结下来的经验接下来的两周，我们这周需要写简历复习，简历中写的必须要会，准备好了就可以找老师模拟面试其实我觉得最后这节课挺实用的，尽管有些观点我不认同，但不妨碍我跟着做
Go-Redis 入门与实践从连接到可观测，一站式掌握 go-redis v9**
1.环境准备组件版本建议说明Go≥1.22go-redis只支持最近两个Go版本Redis≥6.2保持与生产一致，建议开启protected-modego-redisgithub.com/redis/go-redis/v9本文以v9为例本地Redis：brewinstallredis(macOS)/apt-getinstallredis-server(Debian)/下载官方二进制。Docker：
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =