分库分表后的分页查询

1. 全局视野法

如果要获取第N页的数据(每页S条数据),则将每一个子库的前N页(offset 0,limit N*S)的所有数据都先查出来(有筛选条件或排序规则的话都包含),然后将各个子库的结果合并起来之后,再做查询下top S(可不用带上相同的筛选条件,但还要带上排序规则)即可得出最终结果,这种方式类似es分页的逻辑。

优点: 数据准确,可以跳页
缺点: 深度分页时的性能差,即随着分页参数增加,网络传输数据量越来越大,每个子表每次需要查询的数据越多,性能也越慢

2. 禁止跳页查询(对应es中的scroll方法)

如果要获取第N页的数据,第一页时,是和全局视野法一致,但第二页开始后,需要在每一个子库查询时,加上可以排除上一页的过滤条件(如按时间排序时,获取上一页的最大时间后,需要加上time > ${maxTime_lastPage}的条件;如果没有排序规则,由于是默认主键id的排序规则,也可加上 id > ${maxId_lastPage}的条件),然后再limit S,即可获取各个子库的结果,之后再合并后top S即可得到最终结果。在类似app中列表下拉的场景中,业务上可以禁止跳页查询,此时可以使用这种方式。

优点: 数据准确,性能良好
缺点: 不能跳页

3. 模糊查询

在大数据量的前提下,需要查询的数据,从概率论角度,是均匀分布在各个字库中的,因此可以假定需要查询的第N页数据,在子库中都处于第N/X页的前S/X条中(X=子库数);所以查询子库时,限定offset ((N/X)-1)*S/X,limit S/X即可,例N=S=100,X=2时,子库分页条件为offset 4950,limit 50;然后合并子库结果后即可得出最终结果,当然这个结果是不准确的。在类似网页回帖上的场景下,往往数据精度要求不太高,此时可以使用这种方式。

优点: 性能良好,可以跳页
缺点: 数据不准确

4. 二次查询

也是在大数据量的前提下,依据概率论,可以假定需要查询的第N页的数据,在子库中都处于第N/X页的后面。然后可按如下步骤查询:

1). [第一次查询] 按指定条件(筛选条件或排序规则条件)查询各个子库的S条数据,即offset ((N/X)-1)*S/X,limit S
2). 如果没有排序规则条件,则默认主键id排序,那么获取各个子库的返回数据的最小值和最大值: min_i_id,max_i_id;如果有排序条件,就按排序条件获取
3). 比较各个子库的min_i_id,得到最小的,定义为min_id
4). [第二次查询] 再次查询(有筛选条件的话也要包含)各个子库,加上条件: min_id;(注: min_i_id = min_id的子库可省略查询)
5). 查看第二次查询结果中,min_id_id != min_id的其它子库中,共多了几条数据,如果多了M条,则可以得出全局中,min_id前面的数据有(((N/X)-1)*S/X)*X - M => ((N/X)-1)*S-M 条,((N/X)-1)*S-M即为min_id的全局offset
6). 计算真正的全局offset: ((N-1)*S)min_id的全局offset: ((N/X)-1)*S-M之间的差值K,由公式可得: K>=0
7). 合并第二次查询的各子库结果,并按id排序后,以K为offset,S为limit即可得到最终全局的分页结果

优点: 性能良好,可以跳页,数据相对准备,可以返回各个字库中offset ((N/X)-1)*S/X之后的实际数据
缺点: 需要二次查询,逻辑复杂,不完全精确,可能会漏掉各个子库中offset ((N/X)-1)*S/X之前的实际数据,以及之后不该包含的部

参考: https://mp.weixin.qq.com/s/H_2hyEqQ70Y_OoFZh_P_5A

你可能感兴趣的:(分库分表后的分页查询)