(6)大表优化—MySQL表的四种分区类型(3)

面试问题:

1)什么场景,应该用什么分区策略?

2)怎么选择分区字段和相关算法?

3)怎么解决不均匀和扩容问题?

跨磁盘分散查询,更大查询吞吐量

如SUM()和COUNT()聚合函数查询,容易并行处理。 “SELECT salesperson_id, COUNT (orders) as order_total FROM sales GROUP BY salesperson_id;”。查询可在每个分区上同时进行总计所有分区得结果。

分区类型:RANGE、LIST、HASH、KEY

一、RANGE分区

基于属于一个给定连续区间列值,多行分配给分区。

区间要连续且不重叠,用VALUES LESS THAN操作符定义。实例:

(6)大表优化—MySQL表的四种分区类型(3)_第1张图片

1到5雇员P0中,6到10P1中,PARTITION BY RANGE 语法要求;按顺序定义,从低到高。(72, ‘Michael’, ‘Widenius’, ’1998-06-25′, NULL, 13)新行插入到p2

增加21商店错误。 CREATE TABLE用“catchall” VALUES LESS THAN子句,提供给大于明确指定最高值:MAXVALUE最大可能整数值

(6)大表优化—MySQL表的四种分区类型(3)_第2张图片

基于雇员的工作代码分表,job_code 列值的连续区间。2位数字:普通工人,3数字:办公室和支持人员,4数字:管理层

(6)大表优化—MySQL表的四种分区类型(3)_第3张图片

基于每个雇员离开公司的年份来分割表,YEAR(separated)

(6)大表优化—MySQL表的四种分区类型(3)_第4张图片

1991年前雇佣p0中,1991到1995年p1中, 1996到2000年p2中,2000年后p3中。

适用场景:

1)删除一个分区上的“旧的”数据时,只删除分区即可。DELETE FROM employees WHERE YEAR (separated) <= 1990

2)包含有日期或时间值,包含有从一些其他级数开始增长的值的列。

3)经常运行直接依赖于用于分割表的列的查询。如”SELECT COUNT(*) FROM employees WHERE YEAR(separated) = 2000 GROUP BY store_id;”迅速地确定只有分区p2扫描

二、LIST分区

类RANGE分区,基于列值匹配一个离散值集合中的某个值

(1)“PARTITION BY LIST(expr)”来实现,其中“expr”是某列值或一个基于某个列值、并返回整数值的表达式,VALUES IN (value_list)定义分区,value_list逗号分隔整数列表。

(6)大表优化—MySQL表的四种分区类型(3)_第5张图片
(6)大表优化—MySQL表的四种分区类型(3)_第6张图片

(2) 西区的所有音像店都卖了:“ALTER TABLE employees DROP PARTITION pWest;”相同作用DELETE(删除)查询“DELETE query DELETE FROM employees WHERE store_id IN (4,12,13,14,18);”有效得多。

(3) LIST没有“VALUES LESS THAN MAXVALUE”要匹配的任何值都必须在值列表中找到。

INSERT INTO employees VALUES(224, 'Linus', 'Torvalds', '2002-05-01', '2004-10-12', 42, 21);“store_id”列值21不能在用于定义分区pNorth, pEast, pWest,或pCentral的值列表中找到。

(4)  与其他三种生成复合的子分区

三、HASH分区

“PARTITION BY HASH (expr)”,“expr”返回一个整数表达式。很可能需要再添加“PARTITIONS num”子句,num是非负整数,表示要被分割成分区数量

(6)大表优化—MySQL表的四种分区类型(3)_第7张图片

没有PARTITIONS子句,分区默认为1。NDB Cluster(簇)表,默认分区数将与簇数据节点数量相同,这种修正可能是考虑任何MAX_ROWS设置,确保所有的行都能合适地插入分区中。

用HASH函数对createtime日期进行HASH运算,根据日期来分区数据,10个分区。

LINER HASH

支持线性哈希功能,与常规区别,用线性2幂(powers-of-two)运算法则,常规哈希用模数。语法上区别“PARTITION BY”子句中添加“LINEAR”关键字

表达式expr,保存到分区num 个分区中的分区N,其中N是根据下面的算法得到: 

1. 大于num、2的幂,称为V 

2. V = POWER(2, CEILING(LOG(2, num))) (如,假定num是13。LOG(2,13)就是3.7004397181411。 CEILING(3.7004397181411)就是4,则V = POWER(2,4), 即等于16)。 

3. 设置 N = F(column_list) & (V – 1). 

4.    当 N >= num: ·  设置 V = CEIL(V / 2) ·  设置 N = N & (V – 1) 

例如,假设表t1,使用线性哈希分区且有4个分区,是通过下面的语句创建的: CREATE TABLE t1 (col1 INT, col2 CHAR(5), col3 DATE) PARTITION BY LINEAR HASH( YEAR(col3) ) PARTITIONS 6; 现在假设要插入两行记录到表t1中,其中一条记录col3列值为’2003-04-14′,另一条记录col3列值为’1998-10-19′。第一条记录将要保存到的分区确定如下: V = POWER(2, CEILING(LOG(2,7))) = 8 N = YEAR(’2003-04-14′) & (8 – 1)    = 2003 & 7    = 3 (3 >= 6 为假(FALSE): 记录将被保存到#3号分区中) 第二条记录将要保存到的分区序号计算如下: V = 8 N = YEAR(’1998-10-19′) & (8-1)   = 1998 & 7   = 6 (6 >= 4 为真(TRUE): 还需要附加的步骤) N = 6 & CEILING(5 / 2)   = 6 & 3   = 2   (2 >= 4 为假(FALSE): 记录将被保存到#2分区中) 按照线性哈希分区的优点在于增加、删除、合并和拆分分区将变得更加快捷,有利于处理含有极其大量(1000吉)数据的表。

缺点:分布不均衡。

四、KEY分区

用的少,知道怎么用即可。

类似HASH分区,区别:KEY分区只支持计算一列或多,且MySQL服务器提供其自身的哈希函数。必须有一列或多列包含整数值。

(6)大表优化—MySQL表的四种分区类型(3)_第8张图片

KEY分区中使用关键字LINEAR和在HASH分区中使用具有同样作用,分区编号是通过2的幂(powers-of-two)算法得到,不是通过模数算法

你可能感兴趣的:((6)大表优化—MySQL表的四种分区类型(3))