0# Redis
优点
缺点
主要从“高性能”和“高并发”这两点来看待这个问题
高性能:
假如用户第一次访问数据库中的某些数据。这个过程会比较慢,因为是从硬盘上读取的。将该用户访问的数据存在数缓存中,这样下一次再访问这些数据的时候就可以直接从缓存中获取了。操作缓存就是直接操作内存,所以速度相当快。如果数据库中的对应数据改变之后,同步改变缓存中响应的数据即可。
高并发:
直接操作缓存能够承受的请求是远远大于直接访问数据库的,所以我们可以考虑把数据库中的部分数据转移到缓存中去,这样用户的一部分请求会直接到缓存这里而不用经过数据库。
缓存分为本地缓存和分布式缓存。以Java为例,使用自带的 map 或者 guava 实现的是本地缓存,最主要的特点是轻量以及快速,生命周期随着 jvm 的销毁而结束,并且在多例的情况下,每个实例都需要各自保存一份缓存,缓存不具有一致性。
使用redis 或 memcached 之类的称为分布式缓存,在多实例的情况下,各实例共用一份缓存数据,缓存具有一致性。缺点是需要保持 redis 或 memcached 服务的高可用,整个程序架构上较为复杂。
Redis 主要有5种数据类型,包括String,List,Set,Zset,Hash满足大部分的使用要求
数据类型 | 可以存储的值 | 操作 | 应用场景 |
---|---|---|---|
STRING | 字符串、整数或者浮点数 | 对整个字符串或者字符串的其中一部分执行操作;对整数和浮点数执行自增或者自减操作 | 做简单的键值对缓存 |
LIST | 列表 | 从两端压入或者弹出元素;对单个或者多个元素进行修剪,只保留一个范围内的元素 | 存储一些列表型的数据结构,类似粉丝列表、文章的评论列表之类的数据 |
SET | 无序集合 | 添加、获取、移除单个元素;检查一个元素是否存在于集合中;计算交集、并集、差集;从集合里面随机获取元素 | 交集、并集、差集的操作,比如交集,可以把两个人的粉丝列表整一个交集 |
HASH | 包含键值对的无需散列表 | 添加、获取、移除单个键值对;获取所有键值对;检查某个键是否存在 | 结构化的数据,比如一个对象 |
ZSET | 有序集合 | 添加、获取、删除元素;根据分值范围或者成员来获取元素;计算一个键的排名 | 去重但可以排序,如获取排名前几名的用户 |
总结一
总结二
如上所述,虽然Redis不像关系数据库那么复杂的数据结构,但是也能适合很多场景,比一般的缓存数据结构要多。了解每种数据结构适合的业务场景,不仅有利于提升开发效率,也能有效利用Redis的性能。
持久化就是把内存的数据写到磁盘中去,防止服务器宕机了内存数据丢失。
Redis 提供两种持久化机制 RDB(默认)和 AOF 机制
RDB: 是 Redis DataBase缩写快照;RDB 是Redis 默认的持久化方式。按照一定的时间将内存的数据以快照的形式保存到硬盘中,对应产生的数据文件为 dump.rdb。通过配置文件中的save参数来定义快照的周期。
优点:
缺点:
AOF: AOF 持久化(即Append Only File持久化),则是将Redis执行的每次写命令记录到单独的日志文件中,当重启Redis会重新将持久化的日志文件恢复数据。
当两种方式同时开启时,数据恢复Redis会优先选择AOF恢复。
优点:
缺点:
优缺点是什么
我们都知道,Redis 是 Key-value 数据库,我们可以设置 Redis 中缓存的key 的过期时间。Redis 的过期策略就是指当Redis中缓存的key过期了,Redis 如何处理。
过期策略通常有以下三种:
expires字典会保存所有设置了过期时间的key和key的过期时间数据,其中,key是指向键空间中的某个键的指针,value是该键的毫秒精度的UNIX时间戳表示的过期时间。键空间是指该Redis集群中保存的所有键
Redis 中使用了惰性过期和定期过期两种策略
EXPIRE和PERSIST命令
除了缓存服务器自带的缓存失效策略之外(Redis默认的有6中策略可供选择),我们还可以根据具体的业务需求进行自定义的缓存淘汰,常见的策略有两种:
两者各有优劣
第一种的缺点是维护大量缓存的key是比较麻烦的
第二种的缺点就是每次用户请求过来都要判断缓存失效,逻辑相对比较复杂!
具体用哪种方案,大家可以根据自己的应用场景来权衡
Redis 的内存淘汰策略是指在Redis的用于缓存的内存不足时,怎么处理需要新写入且需要申请额外空间的数据
全局的键空间选择性移除
设置过期时间的键空间选择性移除
总结
Redis 的内存淘汰策略的选取并不会影响过期的key的处理。内存淘汰策略用于处理内存不足时需要申请额外空间的数据;过期策略用于处理过期的缓存数据。
如果达到设置的上限,Redis 的写命令会返回错误信息(但是读命令还可以正常返回)或者你可以配置内存淘汰机制,当 Redis 达到内存上限时会冲刷掉旧的内容。
可以好好利用Hash、list、sorted、set等集合类型数据,因为通常情况下很多小的key-value可以用更紧凑的方式存放到一起。尽可能使用散列表(hashes),散列表(是说散列表里面存储的数少)使用内存非常小,所以你应该尽可能的将你的数据模型抽象到一个散列表里面。比如你的web系统中有一个用户对象,不要为这个用户名的名称,姓氏,邮箱,密码单独设置key,而是应该把这个用户的所有信息存储到一张散列表里面
Redis 基于Reactor模式开发了网络事件处理器,这个处理器被称为文件事件处理器(file event handler)。它的组成结构为4部分:多个套接字、IO多路复用程序、 文件事件分派器、事件处理器。因为文件事件分派器队列的消费是单线程的,所以Redis才叫单线程模型。
虽然文件事件处理器以单线程方式运行,但通过使用 I/O 多路复用程序来监听多个套接字,文件事件处理器即实现了高性能的网络通信模型,又可以很好地与redis 服务器中其他同样以单线程方式运行的模块进行对接,这保持了 Redis 内部线程设计的简单性。
事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行过程中,不会被其他客户端发送过来的命令请求所打断。
事务是一个原子操作:事务中的命令要么全部被执行,要么全部都不执行。
Redis 事务的本质是通过MULTI、EXEC、WATCH等一组命令的集合。事务支持一次执行多个命令,一个事务中所有命令都会被序列化。在事务执行过程,会按照顺序串行化执行队列中的命令,其他客户端提交的命令请求不会插入到事务执行命令序列中。
总结说:redis 事务就是一次性、顺序性、排他性的执行一个队列中一系列命令
1、事务开始 MULIT
2、命令入队
3、事务执行 EXEC
事务执行过程中,如果服务端收到有EXEC、DISCARD、WATCH、MULTI之外的请求,将会把请求放入队列中排队
Redis 事务功能是通过MULTI、EXEC、DISCARD和WATCH 四个原语实现的
Redis 会将一个事务中的所有命令序列化,然后按照顺序执行
nil 是一种类型,该类型只有一个值,这个值也叫 nil。该值的作用只有一个,表示一个变量不存在。跟C\C++ 等常规语言不同,“不存在” 跟 “空、零” 完全是两个概念。在C语言中,一个字符串为空,那么它就只有一个为0的null结束符,如果对其进行逻辑判断,则是假。
Redis 的事务总是具有ACID中一致性和隔离性,其他特性是不支持的。当服务器运行在AOF持久化模式下,并且appendfsync 选项的值为always时,事务也具有耐久性
Redis 是单进程程序,并且它保证在执行事务时,不会对事务进行中断,事务可以运行直到执行完所有事务队列中的命令为止。因此,Redis 的事务是总是带有隔离性。
Redis 中,单条命令是原子性执行的,但事务不保证原子性,且没有回滚。事务中任意命令执行失败,其余的命令仍会被执行
哨兵介绍
sentinel(哨兵),是redis集群机构中非常重要的一个组件,主要有以下功能:
哨兵用于实现 redis 集群的高可用,本身也是分布式的,作为一个哨兵集群去运行,互相协同工作
哨兵的核心知识
redis 集群模式的工作原理能说一下吗?在集群模式下,redis 的key 是如何寻址的? 分布式寻址都有哪些算法? 了解一致性 hash 算法吗?
简介
Redis Cluster 是一种服务端 Sharding 技术,3.0版本开始正式提供。Redis Cluster并没有使用一致性 hash,而是采用 Slot(槽)的概念,一共分为16384个槽。将请求发送到任意节点,接收到请求的节点会将查询请求发送到正确的节点上执行。
方案说明
在 redis cluster 架构下,每个 redis 要放开两个端口号,比如一个是 6379,另外一个就是加 1W 的端口号,比如 16379
16379 端口号是用来进行节点间通信的,也就是 cluster bus 的东西,cluster bus 的通信,用来进行故障检测、配置更新、故障转移授权。cluster bus 用了另外一种二进制的协议,gossip 协议,用于节点间进行高效的数据交换,占用更少的网络带宽和处理时间。
节点间的内部通信机制
分布式寻址算法
优点
缺点
简介
Redis Sharding 是 Redis Cluster出来之前,业界普遍使用的多Redis实例集群方法。其主要思想是采用哈希算法将Redis数据key进行散列,通过hash函数,特定的key会映射到特定的Redis节点上。Java redis 客户端驱动jedis,支持Redis Sharding 功能,即 Sharding Jedis 以及集合缓存池的
Sharding JedisPool
优点
缺点
客户端发送请求到一个代理组件,代理解析客户端数据,并将请求转发到正确的节点,最后将结果回复给客户端
特征
业界开源方案
单机的 redis,能够承载的 QPS 大概就在上万到几万不等,对于缓存来说,一般都是用来支持读高并发的,因此架构做成主从(master-slave)架构,一主多从,主负责写,并且将数据复制到其它的 slave 节点,从节点负责读。所有的读请求全部走从节点。这样也可以很轻松实现水平扩容,支撑读高并发。
redis repliaction -> 主从架构 -> 读写分离 -> 水平扩容支撑读高并发
redis replication 的核心机制
注意
如果采用了主从架构,那么建议必须开启 master node 的持久化,不建议用 slave node 作为 master node 的数据热备,因为那样的话,如果你关掉 master 的持久化,可能在 master 宕机重启的时候数据是空的,然后可能一经过复制,slave node 的数据也丢了。
另外,master 的各种备份方案,也需要做。万一本地的所有文件丢失了,从备份中挑选一份 rdb 去恢复 master,这样才能确保启动时,是有数据的。即使采用了后续讲解的高可用机制, slave node 可以自动接管 master node, 但也可能 sentinel 还没检测到 master failure,master node就自动重启了,还是可能导致上面所有的 slave node 数据被清空。
redis 主从复制的核心原理
1、当启动一个 slave node 的时候,它会发送一个 PSYNC
命令给 master node。
2、如果这是 slave node 初次连接到 master node,那么会触发一次 full resynchronization
全量复制。
3、此时 master 会启动一个后台线程,开始生成一份 RDB
快照文件,同时还会将从客户端 client 新收到的所有写命令缓存在内存中。
4、RDB
文件生成完毕后,master 会将这个 RDB
发送给 slave , slave 会先写入本地磁盘,然后再从本地磁盘加载到内存中
5、接着 master 会将内存中缓存的写命令发送到 slave, salve 也会同步这些数据。
6、slave node 如果跟master node 有网络故障,断开了连接,会自动重连,连接之后 master node 仅会复制给 slave 部分缺少的数据。
缺点
所有的slave 节点数据的复制和同步都由 master 节点来处理,会造成master 节点压力太大,使用主从结构来解决
为了使在部分节点失败或者大部分节点无法通信的情况下 集群仍然可用,所以集群使用了主从复制模型,每个节点都会有N-1 分复制品
redis cluster ,10台机器,5台机器部署了 redis 主实例,另外5台机器部署了 Redis 的从实例,每个主实例挂了一个从实例,5个节点对外提供读写服务,每个节点的读写 高峰QPS可以达到每秒5万,5台机器最多是25万读写请求每秒。
机器是什么配置?32G 内存 + 8核 CPU + 1T 磁盘,但是分配给 redis 进程的是 10G 内存,一般线上生产环境,redis 的内存尽量不要超过10G,超过10G 可能会出现问题
5台机器对外提供读写,一共有 50G 内存
因为每个主实例都挂了一个从实例,所以是高可用的,任何一个主实例宕机,都会自动故障迁移, redis 从实例会自动变成主实例继续提供读写服务
你往内存里写的是什么数据? 每条数据的大小多少? 商品数据,每条数据是 10kb. 100条数据是 1mb,10万条数据是1g。常驻内存的是 200万条商品数据,占用内存是20G,仅仅不到总内存的 50%。目前高峰期每秒就是 3500 左右的请求量。
其实大型的公司,会有基础架构的 team 负责缓存集群的运维
Redis 集群没有使用一致性hash,而是引入了哈希槽的概念,Redis集群有16384个哈希槽,每个key通过CRC16校验后对16384取模来决定放置那个槽,集群的每个节点负责一部分hash槽
Redis 并不能保证数据的强一致性,这意味这在实际中集群在特定的条件下可能会丢失写操作。
异步复制
16384个
Redis 集群目前无法做数据库选择,默认在0数据库。
可以在同一个服务器部署多个Redis的实例,并把它们当做不同的服务器来使用,在某些时候,无论如何一个服务器是不够的,所以,如果你想使用多个CPU,你可以考虑一下分片(shard)
分区可以让Redis 管理更大的内存,Redis将可以使用所有机器的内存。。如果没有分区,你最多只能使用一台机器的内存。分区使Redis的计算能力通过简单地增加计算机得到成倍提升,Redis 的网络带宽也会随着计算机和网卡的增加而成倍增长。
Redis 为单进程模式,采用队列模式将并发访问变成串行访问,且多客户端对Redis的连接并不存在竞争关系Redis中可以使用SETNX命令实现分布式锁。
当且仅当 key 不存在,将key的值设为 value。若给定的 key 已经存在,则 SETNX 不做任何动作
SETNX 是(SET if Not eXists:如果不存在,则set)的简写
使用SETNEX完成同步锁的流程及事项如下:
所谓 Redis 的并发竞争 Key 的问题也就是多个系统同时对一个Key进行操作,但是最后执行的顺序和我们期望的顺序不同,这样也就导致了结果的不同!
推荐一种方案:分布式锁(zookeeper 和 redis 都可以实现分布式锁)。(如果不存在 Redis 的并发竞争 Key 问题,不要使用分布式锁,这样会影响性能)
基于 zookper 临时有序节点可以实现的分布式锁。大致思想为:每个客户端对某个方法加锁时,在zookeeper 上与该方法对应的指定节点的目录下,生成一个唯一的瞬时有序节点。判断是否获取锁的方式很简单,只需要判断有序节点中序号最小的一个。当释放锁的时候,只需将这个瞬时节点删除即可。同时,其可疑避免服务宕机导致的锁无法释放,而产生的死锁问题,完成业务流程后,删除对应的子节点释放锁。
在实践中,当然是从以可靠性为主。所以首推Zookeeper。
既然 Redis 是如此的轻量(单实例只使用1M内存),为了防止以后的扩容,最好的办法就是一开始就启动较多实例。即便你只有一台服务器,你也可以一开始就让Redis以分布式的方式运行,使用分区,在同一台服务器上启动多个实例。
一开始就多设置几个 Redis 实例,例如 32 或者 64 个实例,对大多数用户来说这操作起来可能比较麻烦,但是从长久来看做这点牺牲是值得的
这样的话,当你数据不断增长,需要更多的Redis服务器时,你需要做的仅仅将Redis实例从一台服务器迁移到另外一台服务器而已(而不用考虑重新分区的问题)。一旦你添加了另一台服务器,你需要将你一半的Redis 实例从第一台机器迁移到第二台机器。
Redis 官方站提出了一种权威的基于Redis实现分布式锁的方式名叫 Redlock,此种方式比原先的单节点的方法更安全。它可以保证以下特性:
緩存雪崩 是指同一大面积的失效,所以,后面的请求都会落到数据库上,造成数据库短时间内承受大量请求而崩掉
解决方案:
缓存穿透 : 是指缓存和数据库中都没有的数据,导致所有的请求都落到数据库上,造成数据库短时间内承受大量请求而崩掉。
解决方案:
附加
对于空间的利用到达一种极致,那就是 Bitmap和布隆过滤器(Bloom Filter)
Bitmap:典型的就是哈希表
缺点: Bitmap 对于每个元素只能记录1bit信息,如果还想完成额外的功能,恐怕只能靠牺牲更多的空间、时间来完成了
布隆过滤器
就是引入了 k(k>1)k(k>1)个相互独立的哈希函数,保证在给定的空阿金、误判率下,完成元素判重的过程。
它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难
Bloom-Filter 算法的核心思想就是利用多个不同的hash函数来解决冲突
Hash存在一个冲突(碰撞)的问题,用同一个Hash 得到的两个URL的值有可能相同。为了减少冲突,我们可以多引入几个Hash,如果通过其中的一个Hash值我们得出某元素不在集合中,那么该元素肯定不在集合中。只有在所有的Hash函数告诉我们该元素在集合中时,才能确定该元素存在于集合中。这便是Bloom-Filter 的基本思想
Bloom-Filter 一般用于在大数据量的集合中判定某元素是否存在。
缓存击穿 是指缓存中没有但数据中有数据(一般是缓存时间到期),这时由于并发用户特别多,同时读缓存没读到数据,又同时去数据库去取数据,引起数据库压力瞬间增大,造成过大压力。和缓存雪崩不同的是,缓存击穿指并发查同一条数据,缓存雪崩是不同数据都过期了,很多数据都查不到从而查数据库。
解决方案
缓存预热 就是系统上线后,将相关的缓存数据直接加载到缓存系统。这样就可以避免在用户请求的时候,先查询数据库,然后再将数据缓存的问题!用户直接查询事先被预热的缓存数据。
解决方案:
当访问量剧增、服务器出现问题(如响应时间慢或不响应)或非核心服务影响到核心流程的性能时,仍然需要保证服务还是可用的,即使是有损服务。系统可以根据一些关键数据进行自动降级,也可以配置开关实现人工降级。
缓存降级的最终目的是保证核心服务可用,即使是有损的。而且有些服务是无法降级的(如加入购物车、结算)
在进行降级之前要对系统进行梳理,看看系统进行梳理,看看系统是不是可以丢卒保帅;从而梳理出哪些必须誓死保护,哪些可降级;比如可以参考日志级别设置预案:
服务降级的目的: 是为了防止Redis 服务故障,导致数据库跟着一起发生雪崩问题。因此,对于不重要的缓存数据,可以采取服务降级策略,例如一个比较常见的做法就是,Redis 出现问题,不去数据库查询,而是直接返回默认值给用户。
热点数据,缓存才有价值
对于冷数据而言,大部分数据可能还没有再次访问到就已经被挤出内存,不仅占用内存,而且价值不大。频繁修改的数据,看看情况考虑使用缓存。
对于热点数据而言,比如我们的某IM产品,生日祝福模块,当天的寿星列表,缓存以后可以读取十万次。再举个例子,某导航产品,我们将导航信息,缓存以后可以读取到数百万次。
数据更新前至少读取两次,缓存才有意义。这个是最基本的策略,如果缓存还没有起作用就失效了,那就没有太大价值了。
那存不存在,修改频率过高,但是又不得不考虑缓存的场景呢?有!比如,这个读取接口对数据库压力很大,但是又是热点数据,这个时候就需要考虑通过缓存手段,减少数据库的压力,比如我们的某助手产品的,点赞数,收藏数,分享数等是非常典型的热点数据,但是又不断变化,此时就需要将数据同步到Redis缓存,减少数据库压力。
缓存中的一个key(比如一个促销商品),在某个时间点过期的时候,恰好在这个时间点对这个key有大量的并发请求过来,这些请求发现缓存过期一般都会从后端DB加载数据并回射到缓存中,这个时候大并发的请求可能会瞬间把后端DB压垮。
解决方案
对缓存查询加锁,如果KEY不存在,就加锁,然后查DB入缓存,然后解锁;其他进程如果发现有锁就等待,然后等解锁后返回数据或者进入DB查询
Redisson、Jedis、lettuce等等,官方推荐使用 Redisson。
Redisson 是一个高级的分布式协调Redis客服端,能帮助用户在分布式环境中轻松实现一些Java的对象(Bloom filter,BitSet,Set,SetMultimap,ScoredSortedSet,SortedSet,Map,List,ListMultimap,Queue,BlockingQueue,Deque,BlockingDeque,Semaphore,Lock,ReadWriterLock,AtomicLong,CountDownLatch,Publish/Subscribe,HyperLogLog)。
Jedis 是Redis的java实现的客户端,其API提供比较全面的Redis命令的支持; Redisson 实现了分布式和可扩展的java数据结构,和Jedis相比,功能较为简单,不支持字符操作,不支持排序、事务、管道、分区等Redis特性。Redisson 的宗旨是促进使用者对Redis的关注分离,从而让使用者能够将精力更集中地放在处理业务逻辑上。
两者都是非关系型内存键值数据库,现在公司一般都是用 Redis 来实现缓存,而且 Redis 自身也越来越强大。
Redis 与 Memcached不同,如下表
对比参数 | Redis | Memcached |
---|---|---|
类型 | 1,支持内存;2,非关系型数据库; | 1,支持内存; 2, 键值对形式; 3, 缓存形式;4,非关系型数据库 |
数据存储类型 | 1,String;2,List;3,Set;4,hash;5,Sort Set 【俗称ZSet】 | 1,文本型;2,二进制类型 |
查询【操作】类型 | 1,批量操作;2,事务支持;3,每个类型不同的CRUD | 1,常用的CRUD;2,少量的其他命令 |
附加功能 | 1,发布/订阅 模式;2,主从分区;3,序列化支持;4,脚本支持【Lua脚本】 | 1,多线程服务支持 |
网络IO模型 | 1,单线程的多路IO复用模型 | 1,多线程,非阻塞IO模式 |
事件库 | 自封装简易事件库AeEvent | 贵族血统的LibEvent事件库 |
持久化支持 | 1,RDB;2,AOF | 不支持 |
集群模式 | 原生支持 cluster 模式,可以实现主从复制,读写分离 | 没有原生的集群模式,需要依靠客户端来实现往集群中分片写入数据 |
内存管理机制 | 在Redis中,并不是所有数据都一直存储在内存中,可以将一些很久没有用的 value 交换到磁盘 | Memcached 的数据则会一直在内存中,Memcached 将内存分割成特定长度的块来存储数据,以完全解决内存碎片的问题。但是这种方式会使得内存的利用率不高,例如块的大小为128 bytes,只存储 100 bytes的数据,那么剩下的 28bytes 就浪费掉了 |
适用场景 | 复杂数据结构,有持久化,高可用需求,value存储内容较大 | 纯key-value,数据量非常大,并发量非常大的业务 |
1、memcached 所有的值均是简单的字符串,redis 作为其替代者,支持更为丰富的数据类型
2、redis 的速度比 memcached快很多
3、redis可以持久化其数据
1、Memcached介绍
- Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提供动态、数据库驱动网站的速度,现在已被 LiveJournal、hatena、Facebook、Vox等公司所使用。
2、Memcached工作方式分析
- 许多Web应用都将数据保存到RDBMS中,应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大、访问的集中,就会出现RDBMS的负担加重、数据库响应恶化、网站显示延迟等重大影响。Memcached 是高性能的分布式内存缓存服务器,通过缓存数据库查询结果,减少数据库访问次数,以提高动态Web等应用的速度、提高可扩展性。
其过程是这样的:
- 检查用户请求的数据是缓存中是否存在,如果有存在的话,只需要直接把请求的数据返回,无需查询数据库。
- 如果请求的数据在缓存中找不到,这时候再去查询数据库。返回请求数据的同时,把数据库存储到缓存中一份。
- 保持缓存的“新鲜性”,每当数据发生变化的时候(比如,数据有被修改,或被删除的情况下),要同步的更新缓存信息,确保用户不会再缓存取到旧的数据。
- Memcached 作为高速运行的分布式缓存服务器,具有以下的特点:
- 协议简单
- 基于libevent的事件处理
- 内置内存存储方式
- memcached 不相互通信的分布式
3、Redis
- Redis 是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括String(字符串)、List(链表)、set(集合)、ZSet(有序集合)。这些数据类型都支持push/pop、add/remove 及取交集、并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-stave(主从)同步,当前Redis的应用已经非常广泛,国内像新浪、淘宝;国外像Flickr、GitHub等均在使用Redis的缓存服务。
- Redis 作为一个高性能的 key-value 数据库具有以下特征:
- 多样的数据模型
- 持久化
- 主从同步
- Redis 支持丰富的数据类型,最为常用的数据类型主要由五种:String、Hash、List、Set和Sorted Set。Redis 通常将数据存储与内存中,或者配置为使用虚拟内存。Redis 有一个很重要的特点就是它可以实现持久化数据,通过两种方式可以实现数据持久化;使用RDB快照的方式,将内存中的数据不断写入磁盘;或使用类似MySQL的AOF日志的方式,记录每次更新的日志。前者性能较高,但是可能会引起一定程度的数据丢失;后者相反。Redis 支持将数据同步到多台从数据库上,这种特性对提高读取性能非常有益。
4、两者相似之处
- 让我们先从二者的相似之处谈起。Memcached 与Redis 都属于内存内 键值数据存储方案。它们都从属于数据管理解决方案中的NoSQL家族,而且都基于同样的键值数据模型。双方都选择将全部数据保存在内存中,这自然也就让它们成为非常理想的缓冲层实现方案。从性能表现的角度来看。两类数据存储机制也具备诸多共通性,包括拥有几乎相同的特征(与指标)表现、而且高度关注工作负载的数据吞吐量与延迟状况。
除了同为内存内键值 数据存储方案,Memcached 与 Redis 还都是相当成熟而且极具人气的开源项目。Memcached最初是由Brad Fitzpatrick于2003年开发而成,当时其直接服务对象为LiveJournal交友网站。在此之后,Memcached 被重新用C语言进行了编写(其最初实现方式为Perl语言)且投身于公共领域,并在这里逐步发展为现代Web应用程序的构建基石。Memcached项目的当前开发工作主要关注其运行稳定性及优化效果方面,而不再积极为其打造更多新型功能。
Redis则由Slavatore Sanfilippo与2009年创建,而且时至今日Sanfilippo仍然担任着该项目的首席开发者以及唯一维护者的角色。Redis 有时候会被人们称为“强化版的Memcached”。考虑到从Memcached身上吸取并借鉴到大量宝贵的经验教训,这样评价其实并不令人意外。Redis 在功能多样性方面要胜过Memcached,这虽然让这更为强大也更具有灵活性、但其复杂程度也较为后者为甚。
作为两套被众多企业采纳并部署在无数关键性生产任务环境中的解决方案,Memcached与Redis在任何一种可行性编程语言领域都拥有能够提供支持的客户端库,而且二者也被包含在开发人员使用的多种库及软件包之内。事实上,现在我们甚至已经很难找到一套不包含Memcached或者Redis内置支持机制的web堆栈。
Memcached 与Redis 为什么如此受人拥戴?除了二者卓越的实际效果之外,双方各自极为简便的上手难度也是又一大加分项。无论是Memcached还是Redis,其使用便捷性在开发人员当中都可谓广为人知。只需要几分钟我们就能完成安装工作,并让它们开始与应用程序顺畅协作。换句话说,只需投入一小部分时间与精力,大家就能获得立竿见影且效果极佳的性能表现提升——具体而言,性能将直接步入新的量级,面对如此简单而又能够带来巨大收益的解决方案,又有谁能抗拒得了他们的诱惑呢5、何时应该使用Memcached
- 相对Memcached 而言,Redis的面世时间更晚且具备更多功能,因此开发人员通常将其视为默认性能首选方案。不过有两类特殊场景仍然是Memcached 的一家天下。首先就是对小型静态数据进行缓存处理,最具代表的例子就是HTML代码片段。Memcached 的内部内存管理机制虽然不像Redis的那样复杂,但却更具实际效率——这是因为Memcached在处理元数据时所消耗的内存资源相对更少。作为Memcached 所支持的唯一一种数据类型,字符串非常适合用于保存那些只需要进行读取操作的数据,因为字符串本身无需进行进一步处理。
除此之外,Memcached在横向扩展方面也比Redis更具优势。由于其在设计上的思路倾向以及相对更为简单的功能设置,Memcached在实现扩展时的难度比Redis低得多。不过根据我们了解到的情况,目前已经有多种经过测试且切实有效的方案能够将Redis扩展至多台服务器上,而其即将发布的3.0版本,将包含专门针对横向扩展场景的内置集群化机制。6、何时应该使用Redis
- 除非大家需要考虑某种限定性条件(例如处理传统应用程序)对于Memcached的特殊依赖性,或者自己的实际用例属于前面提到的两类场景中的一种,否则请直接选择Redis并加以运用。凭借着Redis所带来的卓越缓存方案,我们将拥有强大的处理能力——例如对缓存内容及持久性进行细节调整的能力——以及出色的整体执行效率。
Redis 几乎在缓存管理工作中的每一个侧面都表现出显而易见的优越性。这套缓存方案采用所谓数据回收机制,能够将陈旧的数据从内存中删除以提供新数据所必须的缓存空间。Memcached 的数据回收机制使用的是LRU(即最低近期使用量)算法,而且往往会比较武断地直接删除掉与新数据体系相近的原有的内容。相比之下,Redis允许用户更为精准地进行细化控制,利用六种不同回收策略确切提高缓存资源的实际利用率。Redis还采用更为复杂的内存管理与回收对象备选方案。
Redis 还能为我们带来大量的灵活性空间,从而保证管理员在打理缓存对象时拥有充裕的施展平台。在这方面,Memcached将键名限制在250字节,值也被限制在不超过1MB,且只适用于普通字符串。相比之下,Redis则将键名与值的最大上限各自设定为512MB,且支持二进制格式。Redis 支持六种数据类型,因此能够更加智能地对数据进行缓存处理及操作,这相当于为应用程序开发人员敞开了一道通往无尽可能性的大门。
相对于将对象保存为序列化字符串,Redis允许开发人员以散列方式将对象域及值加以保存,并利用单一键对其进行管理。Redis 散列机制的存在保证开发人员无需经历获取完整字符串、反序列化、更新值、对象重新序列化并在每次值更新后利用其替代缓存内完整字符串这一系列复杂的过程——这也意味着资源消耗得以降低、性能表现迎来显著提升。Redis所支持的其它数据类型,例如Lists以及Sets——也可被用于实现更加复杂的缓存管理模式。
Redis 的另一重要的大优势在于,它所保存的数据具备透明化特性,也就是说服务器能够直接对这些数据进行操作。Redis当中提供160多种可用命令,其中大部分用于实现数据处理操作并通过服务端脚本将逻辑嵌入至数据库存储体系当中。这些内置命令及用户脚本带来了极大的灵活性优势,足以帮助大家直接在Redis内部完成数据处理里任务——而不必将数据在网络中的其它专门处理系统之间来回移动
Redis 还提供可选而且能够具体调整的数据持久性方案,其设计目的在于在发生规划内停机或计划外故障之后对缓存内容进行重新引导,虽然我们更倾向于强调缓存内数据的易失性与暂时性,但将数据在磁盘中加以持久保存在某些缓存场景当中仍然极具现实意义。这种机制能够在设备重启之后快速将保存在磁盘上的数据重新载入至缓存中,从而大大缩短缓存预热周期并根据主数据库存储内容对当前缓存内容进行重新评估
最后但也同样重要的一点是,Redis能够提供复制功能。复制功能旨在帮助缓存体系实现高可用性配置方案,从而在遭遇故障的情况下继续为应用程序提供不间断的缓存服务。很明显,一套成熟的缓存方案应该能够在应用程序发生故障时略微甚至完全不给用户体验或者应用程序性能表现带来任何影响,而这种对缓存内容及服务可用性的有力保障在大多数情况下也成为缓存解决方案的一大主要优势。
你只要用缓存,就可能会涉及到缓存与数据库双存储双写,你只要是双写,就一定会有数据一致性的问题,那么如何解决一致性问题?
一般来说,就是如果你的系统不是严格要求缓存+数据库必须一致性的话,缓存可以稍微的跟数据库偶尔不一致的情况,最好不要做这个方案,读请求和写请求串行化,串到一个内存队列里去,这样就可以保证一定不会出现不一致的情况。
串行化之后,就会导致系统的吞吐量会大幅度的降低,用比正常情况下多几倍的机器去支撑线上的一个请求
还有一种方式就是可能会暂时产生不一致的情况,但是发生的几率特别小,就是先更新数据库,然后再删除缓存。
问题场景 | 描述 | 解决 |
---|---|---|
先缓存,在写数据库,缓存写成功,数据库写失败 | 缓存写成功,但写数据库失败或者响应延迟,则下次读取(并发读)缓存时,就出现脏读 | 这个写缓存的方式,本身就是错误的,需要改为写数据库,把旧缓存置为失效;读取数据的时候,如果缓存不存在,则读取数据库再写缓存 |
先写数据库,再写缓存,数据库写成功,缓存写失败 | 写数据库成功,但写缓存失败,则下次读取(并发读)缓存时,则读不到数据 | 缓存使用时,假如读缓存失败,先读数据库,再回写缓存的方式实现 |
需要缓存异步刷新 | 指数据库操作和写缓存不在一个操作步骤中,比如在分布式场景下,无法做到同时写缓存或需要异步刷新(补救措施)的时候 | 确定哪些数据适合此类场景,根据经验值确定合理的数据不一致时间,用户数据刷新的时间间隔 |
因为目前Linux版本已经相当稳定,而且用户量大,无需开发window版本,反而会带来兼容性等问题
512M
Redis2.6 开始redis-cli 支持一种新的被称之为pipe mode的新模式用于执行大量数据插入工作
对方接着问:如果这个redis正在给线上的业务提供服务,那使用keys指令会有什么问题
回答redis关键的一个特性: redis 是单线程的。keys指令会导致线程阻塞一段时间,线上服务会停顿,直到指令执行完毕。服务才能恢复。这个时候可以使用scan指令,scan 指令可以无阻塞的提取指定模式的key列表,但是会有一定的重复概率,在客户端做一次去重就可以了,但是整体所花费的时间会比直接用keys 指令长。
使用list类型保存数据信息,rpush生产消息,lpop消费消息,当lpop没有消息时,可以sleep一段时间,然后再检查有没有信息,如果不想sleep的话,可以使用blpop,在没有信息的时候,会一直阻塞,直到信息的到来。redis 可以通过pub/sub主题订阅模式实现一个生产者,多个消费者,当然也存在一定的缺点,当消费者下线时,生产的消息会丢失。
使用sortedset,使用时间戳做score,消息内容作为key,调用zadd来生产消息,消费者使用zrangbyscore获取n秒之前的数据做轮询处理。
如果一个命令的结果导致大量内存被使用(例如很大的集合的交集保存到一个新的键),不用多久内存限制就会被这个内存使用量超越。
LRU算法