MYSQL性能优化之分区表（未完待续）

前言

了解分区表之前需要知道，我们先来看一看Mysql对分区的解释，下面一段话摘自官网。

SQL标准不会特别关注数据的物理存储，SQL语言本身则倾向独立于它所使用的模式、表、行或列底层的
任何数据结构或存储媒介。尽管如此，大多数高级数据库管理系统已经可以根据文件系统、硬件或者同时
根据文件系统和硬件来确定特定数据块的物理位置。MySQL中,InnoDB存储引擎一直支持表空间(table
space)的概念,甚至引入分区前MySQL服务器就支持配置不同的物理目录用于存储不同的数据库.
分区(Partitioning)使这个概念更进了一步，它允许根据实际需求设置的规则将表的各个部分跨文件
系统打散(实际上指的是表的水平拆分)。实际上，表的不同部分作为单独的分区表存储在不同的位置。
用户选择的数据划分规则被称为分区函数，在MySQL中，它可以是模数、对一组范围或值列表的简单匹
配、内部哈希函数或线性哈希函数。根据用户指定的分区类型选择函数，并将用户提供的表达式的值作为
其参数。这个表达式可以是一个列值、一个作用于一个或多个列值的函数，或者一个或多个列值的集合，
这取决于所使用的分区类型。
这里的分区被称为水平分区——也就是说，一个表的不同行可能被分配到不同的物理分区。MySQL 5.7不
支持垂直分区(表的不同列被分配到不同的物理分区)。

重要：分区适用于表的所有数据和索引;不能只分区数据而不分区索引，反之亦然，也不能仅对表的一部分
进行分区.

官网的解释可以看出，Mysql的分区是在mysql表空间概念基础上的升级，支持用户自定义规则对单表进行分区，分散存储各分区表；除此之外，需要注意，Mysql分区要求同一张表的所有分区必须采用相同的存储引擎，这一点上来看，分区表与普通表对存储引擎来说没有区别；比如说对表test来说，它的所有分区表只能采用InnoDB或者MyISAM，不能test分区表1采用InnoDB，test分区表2采用MyISAM。但是，不同Server或者DB中的不同表的分区表可以采用不同的存储引擎。Mysql仅支持水平分区(5.7版本)，这是另一个需要注意的点。图示如下：

mysql-分区表.jpg

一、分区优点及使用场景

通常情况下，对于非常大的表，无法全部放在内存中，或者只在表的最后部分有热点数据，适合进行分区。分区表有以下几个优点：

1、数据更容易维护

便于批量处理符合条件的单个分区数据，比如批量删除、备份、恢复等；便于对独立单个分区进行优化、检查、、修复等操作。

2、数据物理隔离，高效利用物理设备

分区表数据可以分布在不同的物理设备上，从而高效利用多个物理设备。

3、有效避免性能瓶颈

可以有效避免性能瓶颈，比如innodb单个索引的互斥访问、ext3文件系统的inode（linux可以通过ls -li查看文件的inodeid）锁竞争等。

二、分区表类型

mysql 支持的分区表类型包括：Range Partitioning（范围分区）、List Partitioning（列表分区）、Column Partitioning（列分区、Hash Partitioning（hash分区）、KEY Partitioning（键值分区）、subPartitioning（子分区），几种，下面我们按照这个顺序，根据官网的介绍一一进行介绍

2.1 Range Partitioning（范围分区）

范围分区根据用户定义的范围规则，将指定列值在范围内的行记录存储至同一张分区表。

例如，原始单表建表语句：

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT NOT NULL,
    store_id INT NOT NULL
);

假设这里按照列store_id进行范围分区，sql语句如下：

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT NOT NULL,
    store_id INT NOT NULL
)
PARTITION BY RANGE (store_id) (
    PARTITION p0 VALUES LESS THAN (6),
    PARTITION p1 VALUES LESS THAN (11),
    PARTITION p2 VALUES LESS THAN (16),
    PARTITION p3 VALUES LESS THAN (21)
);

建表完成之后，查看表：

+----------------+
| Tables_in_test |
+----------------+
| employees      |
+----------------+
1 row in set (0.00 sec)

再来看mysql的数据文件变化，可以在mysql中执行下列语句，查看当前mysql的数据文件存储位置：

SHOW VARIABLES LIKE 'datadir';
-- mac下Mysql数据的默认存储路径是/usr/local/mysql/data/ 
-- 查看路径下数据文件，其中test是DB名称  sudo ls /usr/local/mysql/data/test

进入该目录，查看数据文件,其中，.ibd文件存储的是索引与数据，.frm文件则存储表结构及元数据。可以看到，分区后的employees数据文件被一分为四，拆分为4个ibd文件

20210902232544.jpg

回国过头我们再来看，如果此时执行insert语句，插入一条store_id = 14的数据，那么会落在p2分区；那么，如果插入一条sotre_id = 30的数据，此时Mysql会直接报错，因为该条数据不满足当前的分区规则，Mysql也不知道这条记录应该放在哪个分区。当然，Mysql也提供了解决方案，比如可以新增一个分区，用于存放分区值小于Integer.MaxValue的store_id对应的记录

PARTITION p4 VALUES LESS THAN MAXVALUE*

分区列除了支持int类型外，还支持date、timestamp

-- 按照int类型列分区
CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
)
PARTITION BY RANGE ( YEAR(separated) ) (
    PARTITION p0 VALUES LESS THAN (1991),
    PARTITION p1 VALUES LESS THAN (1996),
    PARTITION p2 VALUES LESS THAN (2001),
    PARTITION p3 VALUES LESS THAN MAXVALUE
);

-- 按照date分区
CREATE TABLE members (
    firstname VARCHAR(25) NOT NULL,
    lastname VARCHAR(25) NOT NULL,
    username VARCHAR(16) NOT NULL,
    email VARCHAR(35),
    joined DATE NOT NULL
)
PARTITION BY RANGE COLUMNS(joined) (
    PARTITION p0 VALUES LESS THAN ('1960-01-01'),
    PARTITION p1 VALUES LESS THAN ('1970-01-01'),
    PARTITION p2 VALUES LESS THAN ('1980-01-01'),
    PARTITION p3 VALUES LESS THAN ('1990-01-01'),
    PARTITION p4 VALUES LESS THAN MAXVALUE
);

-- 按照timestamp分区
CREATE TABLE quarterly_report_status (
    report_id INT NOT NULL,
    report_status VARCHAR(20) NOT NULL,
    report_updated TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP
)
PARTITION BY RANGE ( UNIX_TIMESTAMP(report_updated) ) (
    PARTITION p0 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-01-01 00:00:00') ),
    PARTITION p1 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-04-01 00:00:00') ),
    PARTITION p2 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-07-01 00:00:00') ),
    PARTITION p3 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-10-01 00:00:00') ),
    PARTITION p4 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-01-01 00:00:00') ),
    PARTITION p5 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-04-01 00:00:00') ),
    PARTITION p6 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-07-01 00:00:00') ),
    PARTITION p7 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-10-01 00:00:00') ),
    PARTITION p8 VALUES LESS THAN ( UNIX_TIMESTAMP('2010-01-01 00:00:00') ),
    PARTITION p9 VALUES LESS THAN (MAXVALUE)
);

2.3 List Partitioning（列表分区）

列表分区与范围分区非常相似，不同之处在于，列表分区是根据分区字段值所在的散列值作为分区的规则条件。我们仍以2.2中的employees表为例：

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
);

假设现在有20家音像店，分部在东西南北，4个区域：

RegionStore ID Numbers：
North3, 5, 6, 9, 17
East1, 2, 10, 11, 19, 20
West4, 12, 13, 14, 18
Central7, 8, 15, 16

对应的分区建表语句如下：

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
)
PARTITION BY LIST(store_id) (
    PARTITION pNorth VALUES IN (3,5,6,9,17),
    PARTITION pEast VALUES IN (1,2,10,11,19,20),
    PARTITION pWest VALUES IN (4,12,13,14,18),
    PARTITION pCentral VALUES IN (7,8,15,16)
);

此次，如果老板要卖掉东部地区的音像店，那么此时可以直接删除DB中东部的分区：

-- 这要比从 DELETE FROM employees WHERE store_id IN (4,12,13,14,18)高效的多
ALTER TABLE employees TRUNCATE PARTITION pWest;

另外，与范围分区不同之处在于，列表分区没有兜底的方案，若当前分区字段值不在任一个分区表达式中，那么Mysql会直接报错：

ERROR 1525 (HY000): Table has no partition for value 3

还有一种情况需要注意，单条insert语句插入多条记录时，若其中有若干条记录的分区字段值与分区表达式不匹配，那么此时Mysql是否会报错取决于当前的存储引擎是否支持事务。若使用Innodb，那么insert会被当做一个事务，此时失败事务回滚，所有记录都不会插入成功；若使用的是MyISAM，那么在失败的记录之前的记录可以插入成功，之后的记录不会成功。当然，Mysql提供了这种问题的规避机制，即IGNORE关键字，此时与分区表达式不匹配的记录不会插入，而其他记录会成功插入，且不会报错。

 INSERT IGNORE INTO employees VALUES (2,'1970-01-01','1970-01-01',1, 35), (2,'1970-01-01','1970-01-01',1, 15);

2.3 Column Partitioning（列分区）

2.4 Hash Partitioning（hash分区）

2.5 KEY Partitioning（键值分区）

2.6 subPartitioning（子分区）

三、优点

四、分区表原理

五、分区表维护

六、注意事项

1、单张表最多只能有1024个分区，5.7版本以后可以支持8192个分区，这与系统文件；

2、如果分区字段中有主键或者唯一索引的列，那么所有主键列和唯一索引列都必须包含进来，比如

参考文档：https://dev.mysql.com/doc/refman/5.7/en/partitioning.html