高性能Mysql——分区表详解

文章目录

  • 分表和分区
    • 分表和分区的区别
    • 分表和分区联系呢
  • 分区表分区方式
  • 分区管理
  • 分区表注意事项

分表和分区

分表
MySQL 的分表是真正的分表,一张表分成很多表后,每一个小表都是完整的一张表,都对应三个文件,一个.MYD数据文件,.MYI索引文件,.frm表结构文件。

分区
一张大表进行分区后,它还是一张表,不会变成多张表,但是存放数据的区块变多了。

分表和分区的区别

实现方式上
a) mysql的分表是真正的分表,一张表分成很多表后,每一个小表都是完正的一张表,都对应三个文件,一个 .MYD数据文件,.MYI索引文件,.frm表结构文件

[root@BlackGhost test]# ls |grep user    
    alluser.MRG    
    alluser.frm    
    user1.MYD    
    user1.MYI    
    user1.frm    
    user2.MYD    
    user2.MYI    
    user2.frm  

简单说明一下,上面的分表呢是利用了merge存储引擎(分表的一种),alluser是总表,下面有二个分表,user1,user2。他们二个都是独立的表,取数据的时候,我们可以通过总表来取。这里总表是没有.MYD,.MYI这二个文件的,也就是说,总表他不是一张表,没有数据,数据都放在分表里面

我们来看看.MRG到底是什么东西

[root@BlackGhost test]# cat alluser.MRG |more    
  user1    
  user2    
  #INSERT_METHOD=LAST  

从上面我们可以看出,alluser.MRG里面就存了一些分表的关系,以及插入数据的方式。可以把总表理解成一个外壳,或者是联接池。

b) 分区不一样,一张大表进行分区后,他还是一张表,不会变成二张表,但是他存放数据的区块变多了。

[root@BlackGhost test]# ls |grep user  
user#P#p1.MYD    
user#P#p1.MYI    
user#P#p2.MYD    
usera#P#p2.MYI    
user.frm    
user.par 

我们都知道一张表对应三个文件.MYD,.MYI,.frm。分区呢根据一定的规则把数据文件和索引文件进行了分割,还多出了一个.par文件,打开.par文件后你可以看出他记录了,这张表的分区信息,根分表中的.MRG有点像。分区后,还是一张,而不是多张表。

数据处理上
a) 分表后,数据都是存放在分表里,总表只是一个外壳,存取数据发生在一个一个的分表里面。看下面的例子: select * from alluser where id='12'表面上看,是对表alluser进行操作的,其实不是的。是对alluser里面的分表进行了操作。

b) 分区呢,不存在分表的概念,分区只不过把存放数据的文件分成了许多小块,分区后的表呢,还是一张表。数据处理还是由自己来完成。

提高性能上
a) 分表后,单表的并发能力提高了,磁盘I/O性能也提高了。并发能力为什么提高了呢,因为查寻一次所花的时间变短了,如果出现高并发的话,总表可以根据不同的查询,将并发压力分到不同的小表里面。磁盘I/O性能怎么搞高了呢,本来一个非常大的.MYD文件现在也分摊到各个小表的.MYD中去了。

b) mysql提出了分区的概念,我觉得就想突破磁盘I/O瓶颈,想提高磁盘的读写能力,来增加mysql性能。 在这一点上,分区和分表的测重点不同,分表重点是存取数据时,如何提高mysql并发能力上;而分区呢,如何突破磁盘的读写能力,从而达到提高mysql性能的目的。

实现的难易度上
a) 分表的方法有很多,用merge来分表,是最简单的一种方式。这种方式根分区难易度差不多,并且对程序代码来说可以做到透明的。如果是用其他分表方式就比分区麻烦了。
b) 分区实现是比较简单的,建立分区表,根建平常的表没什么区别,并且对开代码端来说是透明的。

分表和分区联系呢

  1. 都能提高mysql的性高,在高并发状态下都有一个良好的表面。
  2. 分表和分区不矛盾,可以相互配合的,对于那些大访问量,并且表数据比较多的表,我们可以采取分表和分区结合的方式(如果merge这种分表方式,不能和分区配合的话,可以用其他的分表试),访问量不大,但是表数据很多的表,我们可以采取分区的方式等。

分区表分区方式

HASH分区

HASH分区的一大特点就是可以更平均的将数据分散到各个分区中,不会像RANGE分区一样数据可能会集中在一个分区中。HASH分区简单来说是基于取模运算结果进行的分区。HASH分区分为常规分区和线性分区。但是常规分区在分区管理上过于麻烦,所以我们一般使用线性分区。

CREATE TABLE C (
     ID INT NOT NULL,
     NAME  VARCHAR(20),
     SEX VARCHAR(20)
     )
     PARTITION BY LINEAR HASH (ID) PARTITIONS 4;

KEY分区
KEY分区和HASH分区类似,不过KEY分区只支持服务器提供的HASH函数,HASH分区只支持整数,KEY分区支持除BLOB ,Text类型外的其他类型作为分区键。

RANGE分区
按照RANGE分区的表示利用取值范围将数据分成区,区间是连续且不能相互叠加的。
RANGE分区一般用作日志归档,并按照时间来进行分区

CREATE TABLE B(
 ID  INT NOT NULL,
 NAME VARCHAR(30),
 JOB VARCHAR(30),
 TIME DATE NOT NULL DEFAULT '1998-01-01'
 )
 PARTITION BY RANGE(YEAR(TIME))(
 PARTITION P0 VALUES LESS THAN(1999),
 PARTITION P1 VALUES LESS THAN(2000),
 PARTITION P2 VALUES LESS THAN(2001)
 );

LIST分区
LIST分区和RANGE分区比较相似,不过LIST是以一个集合的形式建立分区的。使用LIST分区建立表的操作如下:

Columns分区
Columns分区是mysql5.5以后加入的,用来解决mysql5.1以前的RANGE和LIST分区只支持整数分区,造成的需要进行函数换算得到的整数值。Columns分区包括RANGE Columns和LIST Columns。同时支持整数,时间,字符串三大类型。
利用Columns分区,我们上边RANGE的按时间进行分区的表就可以不添加时间转换函数。具体操作如下:

CREATE TABLE B(
 ID  INT NOT NULL,
 NAME VARCHAR(30),
 JOB VARCHAR(30),
 TIME DATE NOT NULL DEFAULT '1998-01-01'
 )
 PARTITION BY RANGE COLUMNS(TIME)(
 PARTITION P0 VALUES LESS THAN('1999'),
 PARTITION P1 VALUES LESS THAN('2000'),
 PARTITION P2 VALUES LESS THAN('2001')
 );

分区管理

删除分区:

ALTER TABLE A DROP PARTITION P2;

以上语句从表A中删除了P2分区,删除分区后,分区内的数据也会被删除。
在RANGE分区中,再次加入原属于分区P2的数据时,会插入到P3分区内。但在LIST分区中,由于删除的是一个指定的集合,所以再次插入属于此集合的数据时会因找不到分区而出错。

加入分区:

ALTER TABLE A ADD PARTITION (PARTITION P3 VALUES LESS THAN (40));

以上语句在A中添加了p3分区,数值为小于40。在RANGE分区中,只能在分区列表的最大一端添加分区。但在LIST中可以添加在任意地方,不过新建的分区不能包括已有分区包含的元素

转移分区(归档)

ALTER TABLE A exchange PARTITION P1 WITH TABLE ARCH_A;

另外归档的ARCH_A表可以使用归档引擎archieve,归档引擎的好处是比INNODB所占的空间更小,但是只允许读操作,不允许写操作。

ALTER TABLE ARCH_A ENGINE=ARCHIEVE

分区表注意事项

  1. 结合业务场景选择分区方式。
  2. 避免跨分区查询。
  3. 对分区表进行查询最好在WHERE从句中包含分区键(避免跨分区扫描)。
  4. 具有主键或者唯一索引的表,主键或唯一索引必须是分区键的一部分。

你可能感兴趣的:(数据库)