MYSQL性能优化之分区表(未完待续)

前言

了解分区表之前需要知道,我们先来看一看Mysql对分区的解释,下面一段话摘自官网。

SQL标准不会特别关注数据的物理存储,SQL语言本身则倾向独立于它所使用的模式、表、行或列底层的
任何数据结构或存储媒介。尽管如此,大多数高级数据库管理系统已经可以根据文件系统、硬件或者同时
根据文件系统和硬件来确定特定数据块的物理位置。MySQL中,InnoDB存储引擎一直支持表空间(table
space)的概念,甚至引入分区前MySQL服务器就支持配置不同的物理目录用于存储不同的数据库.
分区(Partitioning)使这个概念更进了一步,它允许根据实际需求设置的规则将表的各个部分跨文件
系统打散(实际上指的是表的水平拆分)。实际上,表的不同部分作为单独的分区表存储在不同的位置。
用户选择的数据划分规则被称为分区函数,在MySQL中,它可以是模数、对一组范围或值列表的简单匹
配、内部哈希函数或线性哈希函数。根据用户指定的分区类型选择函数,并将用户提供的表达式的值作为
其参数。这个表达式可以是一个列值、一个作用于一个或多个列值的函数,或者一个或多个列值的集合,
这取决于所使用的分区类型。
这里的分区被称为水平分区——也就是说,一个表的不同行可能被分配到不同的物理分区。MySQL 5.7不
支持垂直分区(表的不同列被分配到不同的物理分区)。

重要:分区适用于表的所有数据和索引;不能只分区数据而不分区索引,反之亦然,也不能仅对表的一部分
进行分区.

官网的解释可以看出,Mysql的分区是在mysql表空间概念基础上的升级,支持用户自定义规则对单表进行分区,分散存储各分区表;除此之外,需要注意,Mysql分区要求同一张表的所有分区必须采用相同的存储引擎,这一点上来看,分区表与普通表对存储引擎来说没有区别;比如说对表test来说,它的所有分区表只能采用InnoDB或者MyISAM,不能test分区表1采用InnoDB,test分区表2采用MyISAM。但是,不同Server或者DB中的不同表的分区表可以采用不同的存储引擎。Mysql仅支持水平分区(5.7版本),这是另一个需要注意的点。图示如下:

mysql-分区表.jpg

一、分区优点及使用场景

通常情况下,对于非常大的表,无法全部放在内存中,或者只在表的最后部分有热点数据,适合进行分区。分区表有以下几个优点:

1、数据更容易维护

便于批量处理符合条件的单个分区数据,比如批量删除、备份、恢复等;便于对独立单个分区进行优化、检查、、修复等操作。

2、数据物理隔离,高效利用物理设备

分区表数据可以分布在不同的物理设备上,从而高效利用多个物理设备。

3、有效避免性能瓶颈

可以有效避免性能瓶颈,比如innodb单个索引的互斥访问、ext3文件系统的inode(linux可以通过ls -li查看文件的inodeid)锁竞争等。

二、分区表类型

mysql 支持的分区表类型包括:Range Partitioning(范围分区)、List Partitioning(列表分区)、Column Partitioning(列分区、Hash Partitioning(hash分区)、KEY Partitioning(键值分区)、subPartitioning(子分区),几种,下面我们按照这个顺序,根据官网的介绍一一进行介绍

2.1 Range Partitioning(范围分区)

范围分区根据用户定义的范围规则,将指定列值在范围内的行记录存储至同一张分区表。

例如,原始单表建表语句:

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT NOT NULL,
    store_id INT NOT NULL
);

假设这里按照列store_id进行范围分区,sql语句如下:

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT NOT NULL,
    store_id INT NOT NULL
)
PARTITION BY RANGE (store_id) (
    PARTITION p0 VALUES LESS THAN (6),
    PARTITION p1 VALUES LESS THAN (11),
    PARTITION p2 VALUES LESS THAN (16),
    PARTITION p3 VALUES LESS THAN (21)
);

建表完成之后,查看表:

+----------------+
| Tables_in_test |
+----------------+
| employees      |
+----------------+
1 row in set (0.00 sec)

再来看mysql的数据文件变化,可以在mysql中执行下列语句,查看当前mysql的数据文件存储位置:

SHOW VARIABLES LIKE 'datadir';
-- mac下Mysql数据的默认存储路径是/usr/local/mysql/data/ 
-- 查看路径下数据文件,其中test是DB名称  sudo ls /usr/local/mysql/data/test

进入该目录,查看数据文件,其中,.ibd文件存储的是索引与数据,.frm文件则存储表结构及元数据。可以看到,分区后的employees数据文件被一分为四,拆分为4个ibd文件


20210902232544.jpg

回国过头我们再来看,如果此时执行insert语句,插入一条store_id = 14的数据,那么会落在p2分区;那么,如果插入一条sotre_id = 30的数据,此时Mysql会直接报错,因为该条数据不满足当前的分区规则,Mysql也不知道这条记录应该放在哪个分区。当然,Mysql也提供了解决方案,比如可以新增一个分区,用于存放分区值小于Integer.MaxValue的store_id对应的记录

PARTITION p4 VALUES LESS THAN MAXVALUE*

分区列除了支持int类型外,还支持date、timestamp

-- 按照int类型列分区
CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
)
PARTITION BY RANGE ( YEAR(separated) ) (
    PARTITION p0 VALUES LESS THAN (1991),
    PARTITION p1 VALUES LESS THAN (1996),
    PARTITION p2 VALUES LESS THAN (2001),
    PARTITION p3 VALUES LESS THAN MAXVALUE
);
-- 按照date分区
CREATE TABLE members (
    firstname VARCHAR(25) NOT NULL,
    lastname VARCHAR(25) NOT NULL,
    username VARCHAR(16) NOT NULL,
    email VARCHAR(35),
    joined DATE NOT NULL
)
PARTITION BY RANGE COLUMNS(joined) (
    PARTITION p0 VALUES LESS THAN ('1960-01-01'),
    PARTITION p1 VALUES LESS THAN ('1970-01-01'),
    PARTITION p2 VALUES LESS THAN ('1980-01-01'),
    PARTITION p3 VALUES LESS THAN ('1990-01-01'),
    PARTITION p4 VALUES LESS THAN MAXVALUE
);
-- 按照timestamp分区
CREATE TABLE quarterly_report_status (
    report_id INT NOT NULL,
    report_status VARCHAR(20) NOT NULL,
    report_updated TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP
)
PARTITION BY RANGE ( UNIX_TIMESTAMP(report_updated) ) (
    PARTITION p0 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-01-01 00:00:00') ),
    PARTITION p1 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-04-01 00:00:00') ),
    PARTITION p2 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-07-01 00:00:00') ),
    PARTITION p3 VALUES LESS THAN ( UNIX_TIMESTAMP('2008-10-01 00:00:00') ),
    PARTITION p4 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-01-01 00:00:00') ),
    PARTITION p5 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-04-01 00:00:00') ),
    PARTITION p6 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-07-01 00:00:00') ),
    PARTITION p7 VALUES LESS THAN ( UNIX_TIMESTAMP('2009-10-01 00:00:00') ),
    PARTITION p8 VALUES LESS THAN ( UNIX_TIMESTAMP('2010-01-01 00:00:00') ),
    PARTITION p9 VALUES LESS THAN (MAXVALUE)
);

2.3 List Partitioning(列表分区)

列表分区与范围分区非常相似,不同之处在于,列表分区是根据分区字段值所在的散列值作为分区的规则条件。我们仍以2.2中的employees表为例:

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
);

假设现在有20家音像店,分部在东西南北,4个区域:

RegionStore ID Numbers:
North3, 5, 6, 9, 17
East1, 2, 10, 11, 19, 20
West4, 12, 13, 14, 18
Central7, 8, 15, 16

对应的分区建表语句如下:

CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
)
PARTITION BY LIST(store_id) (
    PARTITION pNorth VALUES IN (3,5,6,9,17),
    PARTITION pEast VALUES IN (1,2,10,11,19,20),
    PARTITION pWest VALUES IN (4,12,13,14,18),
    PARTITION pCentral VALUES IN (7,8,15,16)
);

此次,如果老板要卖掉东部地区的音像店,那么此时可以直接删除DB中东部的分区:

-- 这要比从 DELETE FROM employees WHERE store_id IN (4,12,13,14,18)高效的多
ALTER TABLE employees TRUNCATE PARTITION pWest;

另外,与范围分区不同之处在于,列表分区没有兜底的方案,若当前分区字段值不在任一个分区表达式中,那么Mysql会直接报错:

ERROR 1525 (HY000): Table has no partition for value 3

还有一种情况需要注意,单条insert语句插入多条记录时,若其中有若干条记录的分区字段值与分区表达式不匹配,那么此时Mysql是否会报错取决于当前的存储引擎是否支持事务。若使用Innodb,那么insert会被当做一个事务,此时失败事务回滚,所有记录都不会插入成功;若使用的是MyISAM,那么在失败的记录之前的记录可以插入成功,之后的记录不会成功。当然,Mysql提供了这种问题的规避机制,即IGNORE关键字,此时与分区表达式不匹配的记录不会插入,而其他记录会成功插入,且不会报错。

 INSERT IGNORE INTO employees VALUES (2,'1970-01-01','1970-01-01',1, 35), (2,'1970-01-01','1970-01-01',1, 15);

2.3 Column Partitioning(列分区)

2.4 Hash Partitioning(hash分区)

2.5 KEY Partitioning(键值分区)

2.6 subPartitioning(子分区)

三、优点

四、分区表原理

五、分区表维护

六、注意事项

1、单张表最多只能有1024个分区,5.7版本以后可以支持8192个分区,这与系统文件;

2、如果分区字段中有主键或者唯一索引的列,那么所有主键列和唯一索引列都必须包含进来,比如

参考文档:https://dev.mysql.com/doc/refman/5.7/en/partitioning.html

你可能感兴趣的:(MYSQL性能优化之分区表(未完待续))