使用pipeline加速Redis

面试官：怎么快速删除10万个key?
某厂面试题：prod环境，如何快速删除10万个key？
带着思考，我们一来研究Redis pipeline。

why pipeline ?

Redis客户端与server的请求/响应模型

前面的文章 Redis底层协议RESP详解，介绍到redis客户端与redis-server交互通信，采用的TCP请求/响应模型；
我们通过Redis客户端执行命令，如set key value，客户端遵循RESP协议，将命令的协议串发送给redis-server执行，redis-server执行完成后再同步返回结果。
手写Redis客户端-实现自己的Jedis 对这一过程进行了重点分析，并遵循RESP实现了自己简易版的Redis客户端。

Redis客户端与server通信，使用的是客户端-服务器（CS）模式；每次交互，都是完整的请求/响应模式。
这意味着通常情况下一个请求会遵循以下步骤：

客户端连接服务端，基于特定的端口，发送一个命令，并监听Socket返回，通常是以阻塞模式，等待服务端响应。
服务端处理命令，并将结果返回给客户端。

很显然，我们使用jedis或lettuce执行Redis命令，每次都是建立socket连接，并等待返回。

每个命令底层建立TCP连接的时间是省不掉的，即使我们都是在内网使用Redis，内网快但请求/响应的往返时间是不会减少的。
当需要对一组kv进行批量操作时，这组命令的耗时=sum(N*(建立连接时间+发送命令、返回结果的往返时间RTT))，随批量操作的key越多，时间累加呈线性增长。

顺理成章的，就出现了像数据库连接池等池化思想的衍生，redis连接也进行“池化”，如JedisPool。

JedisPool就足够了？

池化connection后，每次执行命令都从池子里“借”，用完之后再将connection“还”到池子。只是节省了创建TCP连接的时间；
当需要对一组kv进行批量操作时，JedisPool池子里的connection连接、极端情况都被用完了，怎么办？
——需要等待JedisPool池里有可复用的connection才能继续执行；

redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool
…
Caused by: java.util.NoSuchElementException: Timeout waiting for idle object
at org.apache.commons.pool2.impl.GenericObjectPool.borrowObject(GenericObjectPool.java:449)

如果在指定的等待时间内没有等到idle空闲连接，就报异常了。

尽管使用了池化、将connection进行复用，但不可避免的带来其他问题：
https://jjlu521016.github.io/2018/12/09/JedisPool常见问题.html

除了池化的connection会被瞬间用完，Redis官网还给出了另外一个性能损耗的原因：

It's not just a matter of RTT
https://redis.io/topics/pipelining

虽然池化的connection，节省了建立连接的时间，但多条命令(发送命令到sever、server返回结果)分别执行多次socket网络IO，涉及到read()和write() syscall系统调用，这意味着从用户态到内核态。上下文切换是巨大的速度损失。

如果能将多条命令“合并”到一起，进行一次网络IO，性能会提高不少吧。
有没有一种方式，占用极少的connection连接，且不浪费请求/响应的往返时间，提高整体吞吐量呢？
这就是今天的主角——Redis pipeline。

pipeline不仅是一种减少往返时间的延迟成本的方法，它实际上还可以极大地提高Redis服务器中每秒可执行的总操作量。

由于网络开销延迟，就算redis-server端有很强的处理能力，也会由于收到的client命令少，而造成吞吐量小。
当client 使用pipeline 发送命令时，redis-server必须将部分请求放到队列中（使用内存），执行完毕后一次性发送结果。

对pipeline的支持
pipeline(管道)功能在命令行CLI客户端redis-cli中没有提供，也就是我们不能通过终端交互的方式使用pipeline；
redis的客户端，如jedis，lettuce等都实现了对pipeline的支持。

pipeline为我们节省了哪部分时间？

pipeline在某些场景下非常有用，比如有多个command需要被“及时的”提交，而且他们对相应结果没有互相依赖，对结果响应也无需立即获得，那么pipeline就可以充当这种“批处理”的工具；而且在一定程度上，可以较大的提升性能：

我们使用JedisPool连接池，节省了建立连接connection的时间；
pipeline节省了多条命令的(发送命令到server、server返回结果)往返时间RTT，包括多次网络IO、系统调用的消耗。

pipeline是万金油？

1、pipeline“独占”connection，直到pipeline结束
pipeline期间将“独占”connection，此期间将不能进行非“管道”类型的其他操作，直到pipeline关闭；如果你的pipeline的指令集很庞大，为了不干扰链接中的其他操作，你可以为pipeline操作新建Client连接，让pipeline和其他正常操作分离在2个client连接中。

2、使用pipeline，如果发送的命令很多的话，建议对返回的结果加标签，当然这也会增加使用的内存；

pipeline实现原理

管道（pipeline）可以一次性发送多条命令并在执行完后一次性将结果返回，pipeline通过减少客户端与redis的通信次数来实现降低往返延时时间。
pipeline 底层实现是队列，队列的先进先出特性，保证了数据的顺序性。 pipeline 的默认的同步的个数为53个，也就是说arges中累加到53条数据时会把数据提交。

需要注意到是用 pipeline方式打包命令发送，redis必须在处理完所有命令前先缓存起所有命令的处理结果。打包的命令越多，缓存消耗内存也越多。所以并不是打包的命令越多越好。具体多少合适需要根据具体情况测试。

pipeline“打包命令”
客户端将多个命令缓存起来，缓冲区满了就发送(将多条命令打包发送)；有点像“请求合并”。
服务端接受一组命令集合，切分后逐个执行返回。

从Redis的RESP协议上看，pipeline并没有什么特殊的地方，只是把多个命令连续的发送给redis-server，然后一一解析返回结果。
手写Redis客户端-实现自己的Jedis 我们自己实现的Redis客户端，遵循RESP协议拼装了协议串，用socket将协议串发送给redis-server，以此实现和redis-server的通信。
pipeline并没有什么特殊的地方，只是一次性append追加了多条RESP指令，然后一次性发送出去而已。

1.pipeline减少了RTT，也减少了IO调用次数（IO调用涉及到用户态到内核态之间的切换）
2.需要控制pipeline的大小，否则会消耗Redis的内存
Jedis客户端缓存是8192，超过该大小则刷新缓存，或者直接发送。

当客户端使用pipeline发送很多请求时，服务器将在内存中使用队列存储这些指令的响应。
所以批量发送的指令数量，最好在一个合理的范围内，比如每次发1万条指令，读取完响应后再发送另外1万条指令。2万条指令，一次性发送和分2次发送，对客户端来说速度是差不多的，但是对服务器来说，内存占用差了1万条响应的大小。

pipeline 的局限性

pipeline 只能用于执行连续且无相关性的命令，当某个命令的生成需要依赖于前一个命令的返回时(或需要一起执行时)，就无法使用 pipeline 了。通过 scripting 功能，可以规避这一局限性。

有些系统可能对可靠性要求很高，每次操作都需要立马知道这次操作是否成功，是否数据已经写进redis了，如Redis实现分布式锁等，那这种场景就不适合了。

批量执行命令的其他方式

Redis事务
Scripting lua脚本

Redis支持使用multi命令，使用Redis事务。
但Redis事务属于弱事务，并不像RDBMS一样ACID的特性，详见Redis事务,你真的了解吗

pipeline与Redis事务(multi)

multi：标记一个事务块的开始。事务块内的多条命令会按照先后顺序被放进一个队列当中，最后由 EXEC 命令原子性(atomic)地执行。
pipeline：客户端将执行的命令写入到缓冲中，最后由exec命令一次性发送给redis执行返回。

multi 是redis服务端一次性返回所有命令执行返回结果。
pipeline管道操作是需要客户端与服务端的支持，客户端将命令写入缓冲，最后再通过exec命令发送给服务端，服务端通过命令拆分，逐个执行返回结果。

两者的区别

pipeline选择客户端缓冲，multi选择服务端队列缓冲；
请求次数的不一致，multi需要每个命令都发送一次给服务端，pipeline最后一次性发送给服务端，请求次数相对于multi减少
multi/exec可以保证原子性，而pipeline不保证原子性

pipeline和“事务”是两个完全不同的概念，pipeline只是表达“交互”中操作的传递的方向性，pipeline也可以在事务中运行，也可以不在。
无论如何，pipeline中发送的每个command都会被server立即执行，如果执行失败，将会在此后的相应中得到信息；也就是pipeline并不是表达“所有command都一起成功”的语义；
但是如果pipeline的操作被封装在事务中，那么将有事务来确保操作的成功与失败。

Scripting lua脚本

Redis 从 2.6 开始内嵌了 Lua 环境来支持用户扩展功能. 通过 Lua 脚本, 我们可以原子化地执行多条 Redis 命令.
在 Redis 中执行 Lua 脚本需要用到 eval 和 evalsha 和 script 这几个命令。

Redis官方文档：https://redis.io/topics/pipelining

本文首发于公众号架构道与术(ToBeArchitecturer)，欢迎关注、学习更多干货~