redis

1.什么是NoSQL

NoSQL=not only SQL(不仅仅是SQL) 泛指非关系型数据库;传统的关系型数据库很难对web2.0时代。
很多的数据类型用户的个人信息,社交网络,地理位置,这些数据类型的存储不需要一个固定的格式。不需要多余的操作就可以横向扩展!Map使用键值对来控制!
关系型数据库:表格,行列

2.特点与对比:

解耦
1方便扩展(数据之间没有关系,很好扩展)
2大数据量高性能(Redis一秒写8万次,读取11万,NoSQL的缓存记录是一种细粒度的缓存,性能会比较高!)
3数据类型是多样性的(不需要事先设计数据库!随取随用,如果是数据量十分大的表,很多人就无法设计了)

传统数据库RDBMS与NoSQL

传统RDBMS

  • 结构化组织
  • SQL
  • 数据和关系都存在单独的表中
  • 操作数据定义语言
  • 基础的事务

NoSQL

  • 不仅仅是数据
  • 没有固定的查询语言
  • 键值对存储,列存储,文档存储,图形数据库(社交关系)
  • 最终一致性
  • Cap定理和base(异地多活)
  • 高性能,高可用,高可扩

3.NoSQL的四大类型分类

  • 键值对(key-value)~redis

  • 文档型数据库(bson格式)~MongoDB
    1 MongoDB是一个基于分布式文件存储的数据库,C++编写,主要用来处理大量的文档!
    2 MongoDB是一个介于关系型数据库和非关系型数据库中中间的产品!MongoDB是非关系型数据库中功能最丰富,最像关系型数据库的

  • 列存储数据库
    1 HBase
    2分布式文件系统

  • 图像关系数据库
    他不是存图片的,是放关系,比如:朋友圈社交网络,广告推荐!
    Neo4j,infoGrid

4.Redis

redis ==>remote dictionary server,即远程字典服务;是一个开源的使用ANSI C语言编写,支持网络,可基于内存亦可持久化的日志型、Key-Value数据库,并提高多语言的API。
redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步
免费和开源!是当下最热门的NoSQL技术之一,也被人们称为结构化数据数据库

4.1 redis能干什么?

1 内存存储,持久化(内存中是断电即失,所以说持久化很重要(rdb、aof))
2 效率高,可以用于高速缓存
3 发布订阅系统
4 地图信息分析
5 计时器、计数器(浏览量)

redis-benchmark是一个压力测试工具
官方自带的性能测试工具,redis-benchmark命令可查阅菜鸟教程
redis-benchmark -h localhost -p 6379 -c 100000

4.2 基础知识

有16个数据库;默认使用的是第0个
Redis是单线程的!
Redis很快,官方表示,Redis是基于内存操作,cpu不是Redis性能瓶颈,redis的瓶颈是根据机器的内存和网络带宽,既然可以使用单线程来实现,就使用单线程了。

Redis为什么还这么快?
误区1:高性能服务器一定是多线程的?不一定
误区2:多线程(cpu上下文切换)一定比单线程效率高?不一定,上下文切换耗时
Cup>内存>硬盘的速度
核心:redis是将所有的数据全部放在内存中的,所以使用单线程去操作效率就是最高的,多线程(cup上下文切换,耗时操作),对于内存系统来说,如果没有上下文切换效率就是最高的,多次读写都在一个cpu上的,在内存情况下这个是最佳方案~

常用命令:
Select~切换数据库
FlushDB~清空数据库
Dbsize~查看数据大小

4.3 redis的五种基本数据类型

4.3.1 String(字符串)

String 类似的使用场景:value除了是我们的字符串还可以是我们的数字
计数器
统计多单位的数量
粉丝数
对象存储缓存

4.3.2 list(列表)

在redis中我们可以把list弄成栈、队列、阻塞队列
所有的list命令都是用L开头的
list 实际上是一个链表, before node after ,左右都可以插入值
如果key不存在,创建新链表
如果存在,新增内容
两边插入或者改动,效率最高
消息排队!消息队列(Lpush Rpop),栈(Lpush Lpop)

4.3.3 set(集合)

4.3.4 hash(哈希)

map集合,key-map 这个值是一个map集合

4.3.5 Zset(有序集合)

4.4 三种特殊数据类型

4.4.1 Geospatial地理位置

4.4.2 Hyperloglog基数统计

基数(不重复的元素)= 5 ,可以接受误差
Redis2.8.9 版本就更新了hyperloglog
Redis hyperloglog 基数统计的算法
优点:占用的内存是固定,2^64不同的元素只需12kb的内存;如果要从内存角度来比较的话hyperloglog是首选;

网页的UV(一个人访问多次,但是还是算作一个人)
传统方式,set保存用户的id,然后就可以统计set中的元素作为判断标准!
这个方式保存了大量的用户id,就会比较麻烦!我们的目的是为了计数,而非保存用户id;0.81%的错误率!统计UV任务,可以忽略不计!

4.4.3 Bitmap 位图场景

位存储
Bitmap位图,是一种数据结构!都是操作二进制位进行记录,就只有0和1两个状态

4.5 事务

MySQL~ACID 原子性: 要么全部成功,要么全部失败
Redis事务本质:一组命令的集合!一个事务中的所有命令都会被序列化,在事务执行过程中,会按照顺序执行(一次性,顺序性、排他性执行一系列命令)
Redis事务没有隔离级别的概念所有的命令在事务中,并没有直接执行,只有发起执行命令的时候才回去执行
Redis单条命令是保证原子性的,但是事务不保证原子性;

4.6 Redis的监控

监控
悲观锁:很悲观,认为什么时候都会出问题,无论做什么都会加锁
乐观锁:很乐观,认为什么时候都不会出问题,所以不会上锁,更新数据时候判断一下,在此期间是否有人修改过这个数据
获取version
更新的时候比较version

5.Jedis

我们要使用Java来操作redis;
Jedis是redis官方推荐的Java连接开发工具!使用Java操作redis中间件!

6.Redis持久化

Redis 是内存数据库,如果不将内存的数据库状态保存到磁盘,一旦服务器进程退出,服务器中的数据库状态也会消失,所以redis提供了持久化功能。

6.1 RDB(redis data base)

在指定的时间间隔将内存中的数据集快照写入磁盘,(snapshot),它恢复时将快照文件直接读到内存里。
redis_第1张图片
Redis会单独创建fork一个子进程进行持久化,会先将数据写入到一个临时文件中,待持久化过程结束了,再用这个临时文件替换上次持久化好的文件,整个过程中,主进程是不进行任何IO操作的。这就确保了极高的性能,如果需要进行大规模数据的恢复,且对于数据恢复的完整性不是非常敏感,那么RDB方式要比AOF方式更加高效,RDB的缺点就是最后一次持久化后的数据可能丢失。Redis默认就是RDB,一般情况下不需要修改这个配置。
RDB保存的文件是dump.rdb;
在这里插入图片描述
触发机制

  • Save的规则满足情况下,自动触发rdb规则
  • 执行flushall命令,也会触发我们的rdb规则
  • 退出redis也会产生rdb文件
    如何恢复rdb文件
  • 只需要将rdb文件放在我们redis启动目录就可以,redis启动的时候会自动检查dump.rdb恢复其中的数据
  • 查看需要存在的位置
    在这里插入图片描述
    优点:
    1、适合大规模的数据恢复
    2、对数据性的完整性不高
    缺点:
    1、需要一定的时间间隔,如果redis意外宕机了,这个最后一次修改的数据就没有了
    2、Fork进程的时候会占用一定的内存空间

6.2 AOF(append only file)

redis_第2张图片
以日志的形式记录每个写操作,将redis执行过的所有指令记录下来(读操作不记录),只追加文件但不可以改写文件,redis启动之初会读取该文件重新构建数据,即,redis重启的话就根据日志文件的内容将指令从前到后执行一次,以完成数据的恢复工作
aof保存的是appendonly.aof文件
redis_第3张图片
默认是不开启的,需要手动配置! 一般我们只需要将appendonly改为yes就可以了
重启redis就可以生效了
如果aof文件有错误,这时是启动不了redis的,需要修复aof
Redis-check-aof –fix appendonly.aof
重写规则说明
aof默认是文件无限制追加,文件会越来越大
redis_第4张图片
如果aof文件大于64m,太大了!fork一个新的进程来将我们文件进行重写~!

优点:
在这里插入图片描述

  • 每一次修改都同步,文件的完整性更好
  • 每秒同步一次,可能丢失一秒的数据
  • 从不同步,效率最高
    缺点:
  • 相对于数据文件来说aof远远大于rdb,修复的速度也比rdb慢
  • Aof运行效率也要比rdb慢,所以我们redis默认的配置就是rdb

6.5两种持久化扩展

1 RDB持久化方式能够在指定的时间间隔内对你的数据进行快照存储
2 AOF持久化方式记录每次对服务器写操作,当服务器重启的时候会重新执行这些命令来恢复原始数据,AOF命令以Redis协议追加保存每次写的操作到文件末尾,Redis还能对AOF文件进行后台重写,使得AOF的体积不至于过大。
3 只做缓存,如果你只希望你的数据在服务器运行的时候存在,你也可以不用做任何持久化
4 同时开启两种持久化方式
a.在这种情况下,当redis重启的时候会优先载入AOF文件来恢复原始数据,因为通常情况下AOF文件保存的数据集要比RDB文件保存的更加完整
b.RDB的数据不实时,同时使用两者时服务器重启也只会找到AOF文件;那要不要只使用AOF呢?不建议这样;因为RDB更时候用于备份数据库(AOF在不断变化不好备份),快速重启,而且不会有AOF的可能潜在的bug,留着一种万一的手段。
5 性能建议
a.因为RDB文件只用作后备用途,建议只在slave上持久化RDB文件,而且只需要15分钟备份一次就够了,只保留save 900 1 这条规则。
b.如果enable AOF,好处是在最坏的情况下只会丢失不超过两秒的数据,启动脚本较简单只load自己的AOF文件就可以了,代价

  • 带来了持续的IO;
  • AOF rewrite的最后将rewrite过程中产生的新数据写到新文件造成的阻塞几乎不可避免。只要硬盘许可,应尽量减少AOF rewrite的频率,AOF重写的基础大小默写是64M太小了,可以设到5G以上,默认超过原大小100%重写可改到适当的数值。
    c.如果不enable AOF,仅靠Master-Slave repllcation 实现高可用性能也可以,能省掉一大笔IO,也能减少rewrite时带来的系统波动。代价是如果Master/Slave同时宕掉,会丢失十几分钟的数据,启动脚本也要比较两个Master/Slave中RDB文件,载入较新的那个,微博就是这种架构

7.redis发布订阅

消息队列
Redis发布订阅(pub/sub)是一种消息通信模式;发送者(pub)发送消息,订阅者(sub)接收消息。
Redis客户端可以订阅任意数量的频道。
订阅、发布消息图
redis_第5张图片
下图展示了频道channel1,以及订阅这个频道的三个客户端—client2、client5和client1之间的关系:
redis_第6张图片
当有新消息通过publish命令发送给channel1时,这个消息就会被发送给订阅它的三个客户端:
redis_第7张图片
命令
redis_第8张图片
原理
Redis是使用C实现的,通过分析redis源码里的pubsub.c文件了解发布订阅机制的底层实现,加深对redis的理解。
Redis通过publish、subscribe和psubscribe等命令实现发布和订阅功能。
通过subscribe命令订阅某频道后,redis-server里维护了一个字典,字典的键就是一个个channel,而字典的值则是一个链表,链表中保存了所有订阅这个channel的客户端。Subscribe命令的关键,就是将客户端添加到给定channel的订阅链表中。
通过publish命令向订阅者发送消息,redis-server会使用给定的频道作为键,在它所维护的channel字典中查询记录了订阅这个频道的所有客户端的链表,遍历这个链表,将消息发布给所有订阅者。
Pub/sub从字面上理解就是发布(publish)与订阅(subscribe),在redis中,你可以设定对某一个key值进行消息发布及消息订阅,当一个key值上进行了消息发布后,所有订阅它的客户端都会进行相应的消息。这一功能最明显的用法就是用作实时消息系统,比如普通即时聊天,群聊等功能

8.Redis 主从复制

8.1主从复制的概念及配置

主从复制,是指将一台redis服务器的数据,复制到其他的redis服务器。前者称为主节点(master/leader),后者统称从节点(slave/follower);数据的复制是单向的,只能由主节点到从节点。Master以写为主,slave以读为主。
默认情况下,每台redis服务器都是主节点;而且一个主节点可以有多个丛节点(或者没有从节点),但是一个从节点那只能由一个主节点。
主从复制的作用主要包括:

  • 数据冗余:主从复制实现了数据的热备份,是持久化之外的一种数据冗余方式。
  • 故障恢复:当主节点出问题时,可以由从节点提供服务,实现快速故障恢复;实际上是一种服务的冗余。
  • 负载均衡:在主从复制的基础上,配合读写分离,可以由主节点提供写服务,从节点提供读服务(写redis数据时应用连接主节点,读redis数据时应用连接从节点),分担服务器负载;尤其是在写少读多的场景下,通过多个从节点分担读负载,可以大大提高redis服务器的并发量
  • 高可用基石:除了上述作用以外,主从复制还有哨兵和集群能够实施基础,因此说主从复制是redis高可用的基础

为什么需要主从复制?
一般来说,要将redis运用于工程中,只使用一台redis是不可能的,原因如下:
从结构上,单个redis服务器会发生单点故障,并且一台服务器需要处理所有的请求负载,压力较大
从容量上,单个redis服务器内存容量有限,就算一台redis服务器内存容量为256G,也不能将所有内存用作redis存储内存,一般来说,单台redis最大使用内存不应该超过20G。
电商网站上的商品,一般都是一次上传,无数次浏览,说专业点就算“多读少写”。
对于这种场景,我们可以使用如下这种架构:
redis_第9张图片
环境配置
只配置从库,不用配置主库
redis_第10张图片
复制3个配置文件,然后修改对应的信息
1端口
2 pid名字
3 log文件名字
4 dump.rdb名字
修改完毕之后,启动redis服务

一主二从
默认情况下,每台redis服务器都在主节点;一般只需要配置从机就好
Slaveof host port
redis_第11张图片
真实的主从配置应该在配置文件中配置,这样的话是永久的;用命令操作是暂时的
主机可以写,从机不能写只能读;主机中所有信息和数据,都会自动被从机保存

测试
主机断开连接,从机依旧连接到主机的,但是没有写操作;若这时主机重启后,从机依旧可以直接获取到主机写的信息~
如果是使用命令来配置的主从,这个时候如果重启了,就会变回主机,只要重新配置从机,立马就会从主机中获取值

主从复制原理
Slave启动成功连接到master后会发送一个sync同步命令
Master接到命令,启动后台的存盘进程,同时收集所有接收到的用于修改数据集命令,在后台进程执行完毕之后,master将传送整个数据文件到slave,并完成一次完全同步。
全量复制:salve服务在接收到数据库文件数据后,将其存盘并加载到内存中。
增量复制:master继续将新的所有收集到的修改命令依次传给slave,完成同步
但是只要是重新连接master,一次完全同步(全量复制)将被自动执行

主机挂了
谋朝串位~如果主机断开了连接,我们可以使用==slaveof no one ==让自己变成主机!其他的节点就可以手动连接到最新的主节点上;如果这个时候以前主机重启,想当主机需要重新配置

8.2 哨兵模式(自动选择主机)

概述
主从切换技术的方法是:当主服务器宕机后,需要手动把一台从服务器切换为主服务器,这就需要人工干预,费事费力,还会造成一段时间内服务不可用。这不是一种推荐的方式,更多时候,我们优先考虑哨兵模式。Redis从2.8开始正式提供sentinel(哨兵)架构来解决这个问题。
谋朝串位的自动版,能够后台监控主机是否故障,如果故障了根据投票数自动将从库转为主库。
哨兵模式是一种特殊的模式,首先redis提供了哨兵的命令,哨兵是一个独立的进程,作为进程,它会独立运行。其原理是哨兵通过发送命令,等待redis服务器响应,从而监控运行的多少个redis实例。
redis_第12张图片
这里的哨兵有两个作用

  • 通过发送命令,让redis服务器返回监控其运行状态,包括主服务器和从服务器;
  • 当哨兵监测到master宕机,会自动将slave切换成master,然后通过发布订阅模式通知其他服务器,修改配置文件,让他们切换到主机。
    然而一个哨兵进程对redis服务器进行监控,可能会出现问题,为此,我们可以使用多个哨兵进行监控。各个哨兵之间还会进行监控,这样就现成了哨兵模式。
    redis_第13张图片
    假设主服务器宕机,哨兵1先检测到这个结果,系统并不会马上进行failover[故障转移]过程,仅仅是哨兵1主观的认为主服务器不可用,这个现象称为主观下线。当后面的哨兵也检测到主服务器不可用,并且数量达到一定值时,那么哨兵之间就会进行一次投票,投票结果由一个哨兵发起,进行failover[故障转移]操作。切换成功后,就会通过发布订阅模式,让各个哨兵把自己监控的从服务器实现切换主机,这个过程称为客观下线

测试(我们目前的状态是一主二从)
1配置哨兵配置文件文件sentinel.conf
sentinel monitor 被监控的名称 host port 1
sentinel monitor myredis 127.0.0.1 6379 1
后面的数字1,代表主机挂了,slave投票看让谁接替成为主机
2 启动哨兵
注:如果此后以前的主机修复重启,只能归并到新主机下,当从机;这就是哨兵模式
优点:
哨兵集群,基于主从复制,所有的主从配置优点,他全有
主从可以切换,故障可以转移,系统的可用性就会更好
哨兵模式的主从模式的升级手动到自动,更加健壮
缺点:
Redis不好在线扩容,集群容量一旦达到上限,在线扩容就比较困难
实现哨兵模式的配置其实很麻烦,里面有很多选择

哨兵模式的全部配置

8.3 Redis缓存穿透和雪崩

redis_第14张图片

8.3.1 缓存穿透(查不到)

概念
缓存穿透的概念很简单,用户想要查询一个数据,发现redis内存数据库没有,也就是缓存没有命中,于是向持久层数据库查询,发现也没有,于是本次查询失败。当用户很多时候,缓存都没有命中(秒杀!),于是都去请求了持久层数据库。这个会给持久层数据库造成很大的压力,这时候相当于出现缓存穿透。
布隆过滤器
布隆过滤器是一种数据结构,对所有可能查询的参数以hash形式存储,在控制层进行校验,不符合则丢弃,从而避免了对底层存储系统的查询压力。(图1)
当存储层不命中后,即使返回的空对象也将其缓存起来,同时会设置一个过期时间,之后再访问这个数据将会从缓存中获取,保护了后端数据源;(图2)
redis_第15张图片
但是这种方法会存在两个问题:
1.如果空值能够被缓存起来,这就意味着缓存需要更多的空间存储更多的键,因为这当中可能出现很多空值的键;
2.即使空值设置了过期时间,还是会缓存在缓存层和存储层的数据会有一段时间窗口的不一致,这对于需要保持一致性的业务会有影响。

8.3.2 缓存击穿(失效后,查太多)

概述
这里需要注意和缓存穿透的区别,缓存击穿是指一个key非常热点,在不停的抗着大并发,大并发集中对这一个点进行访问,当这个key在失效的瞬间,持续的大并发就穿破缓存,直接请求数据库,就像在一个屏障上凿开了一个洞。
当某个key在过期的瞬间,有大量的请求并发访问,这类数据一般是热点数据,由于缓存过期,会同时访问数据库来查询最新数据,并且回写缓存,会导致数据库瞬间压力过大。
解决方案
设置热点数据永不过期
从缓存层面来看,没有设置过期时间,所以不会出现热点key过期后产生的问题。
加互斥锁
分布式锁:使用分布式锁,保证对每个key同时只有一个线程去查询后端服务,其他线程没有获得分布式锁的权限,因此只需要等待即可。这种方式将高并发的压力转移到了分布式锁,因此对分布式锁的考验很大。

8.3.3 缓存雪崩(集中过期)

概念
缓存雪崩指在某个时间段,缓存集中过期失效。(比如:Redis宕机)
产生雪崩的原因之一,比如双11零点抢购,被抢购的商品比较集中的放入缓存,假设缓存一个小时,那么到了凌晨1点钟的时候,这批山沟的缓存就都过期了。而对这批商品的访问查询,都落到了数据库上,对于数据库而言,就会产生周期性的压力波峰,于是所有请求都会达到存储层,存储层的调用量会暴增,造成存储层也会挂掉的情况。
redis_第16张图片
其实集中过期,到不是非常致命;比较致命的缓存雪崩,是缓存服务器某个节点宕机或者断网。因为自然形成的缓存雪崩,一定是在某个时间段集中创建缓存,这个时候,数据库也可以顶住压力的。无非就是对数据库产生周期性的压力而已。而缓存服务器节点的宕机,对数据库服务器造成的压力是不可预知的,很有可能瞬间就把数据库压垮。
解决方案
Redis高可用
这个思想的含义是,既然redis有可能挂掉,那么多增设几台redis,这样一台挂掉之后其他还可以继续工作,其实就是搭建的集群(异地多活!)
限流降级
这个解决方案的思想,是在缓存失效后,通过加锁或者队列控制读数据库写缓存的线程数量。比如对某个key只允许一个线程查询数据和写缓存,其他线程等待。
数据预热
数据加热的含义就是在正式部署之前,我们先把可能的数据预先访问一遍,这样部分可能大量访问的数据就会加载到缓存中。在即将发生大并发访问前手动触发加载缓存不同的key,设置不同的过期时间,让缓存失效的时间点尽量均匀。

你可能感兴趣的:(数据库,redis,nosql,数据库)