Mycat 分片 详解

在数据切分处理中,特别是水平切分中,中间件最终要的两个处理过程就是数据的切分、数据的聚合。选择合适的切分规则,至关重要,因为它决定了后续数据聚合的难易程度,甚至可以避免跨库的数据聚合处理

数据切分 : 通过特定手段,将放到同一数据库中的数据发散到多个数据库中,或者分散到多个节点中
优点 : 1> 分散单台设备的负载
          2> 提高数据安全性
缺点 : 1> 增加系统复杂度
          2> 引入分布式事务
          3> 跨节点 join
          4> 跨节点的排序分页
          5> 多数据源管理

切分类型
1> 水平切分
2> 垂直切分

切分手段
1> 自己实现 : 进行多数据源管理,通过代码进行需求的操作
2> 客户端组件 : 这样可以减少开发工作量,且相对来说,比手写更容易
3> 数据库中间键

全局序列号 : 在分库分表的情况下,数据库自增主键无法保证主键的全局唯一
实现方式
1> 通过代码手动实现
2> 通过数据库主键生成策略来实现
3> 使用时间戳
4> 第三方的组件


分布式数据库是数据在物理上分布,在逻辑上集中管理的数据库系统
特性 : 数据库的冗余
           自治性

Mycat 全局表
如果业务中有些数据类似于数据字典,比如配置文件的配置,常用业务的配置或者数据量不大很少变动的表,这些表往往不是特别大,而且大部分的业务场景都会用到,那么这种表适合于 Mycat 全局表,无须对数据进行切分,只要在所有的分片上保存一份数据即可,Mycat 在 Join 操作中,业务表与全局表进行 Join 聚合会优先选择相同分片内的全局表 join,避免跨库 Join,在进行数据插入操作时,mycat 将把数据分发到全局表对应的所有分片执行,在进行数据读取时候将会随机获取一个节点读取数据

全局表的配置
type="global" dataNode="dn1,dn2" />

主键分片 : 
   

非主键分片 : 对于非主键分片的 table,填写属性 primaryKey,此时 MyCAT 会将你根据主键查询的 SQL 语句的第一次执行结果进行分析,确定该 Table 的某个主键在什么分片上,并进行主键到分片 ID 的缓存。第二次或后续查询 mycat 会优先从缓存中查询是否有 id–>node 即主键到分片的映射,如果有直接查询,通过此种方法提高了非主键分片的查询性能

数据库切分策略
1> 分片枚举 : 通过在配置文件中配置可能的枚举 id,自己配置分片,本规则适用于特定的场景,比如有些业务需要按照省份或区县来做保存,而全国省份区县固定的,这类业务使用本条规则
`rule.xml
 
    user_id
    hash-int
 

  partition-hash-int.txt
  0
  0


`partition-hash-int.txt
10000=0
10010=1
DEFAULT_NODE=1
标签标识将要分片的表字段, 标签标识分片函数。在分片函数配置中,所有的节点配置都是从 0 开始,及 0 代表节点 1,defaultNode 设置默认节点,小于 0 表示不设置默认节点,大于等于 0 表示设置默认节点。默认节点用于枚举分片时,如果碰到不识别的枚举值,就让它路由到默认节点,如果不配置默认节点 (defaultNode 值小于 0 表示不配置默认节点),碰到不识别的枚举值就会报错  like this:can’ t find datanode for sharding column:column_name val:ffffffff

2> 固定分片 hash 算法 : 这种方式似于十进制的求模运算,区别在于是二进制的操作,是取 id 的二进制低 10 位,即 id 二进制 &1111111111。此算法的优点在于如果按照 10 进制取模运算,在连续插入 1-10 时候 1-10 会被分到 1-10 个分片,增大了插入的事务控制难度,而此算法根据二进制则可能会分到连续的分片,减少插入事务事务控制难度
`rule.xml
 
    user_id
    func1
 

  2,1
  256,512
分区长度 : 默认为最大 2^n=1024,即最大支持 1024 分区
约束 :
count,length 两个数组的长度必须是一致的
1024 = sum((count[i]*length[i])). count 和 length 两个向量的点积恒等于 1024

用法例子 : 将数据水平分成 3 份,前两份各占 25%,第三份占 50% (非均匀分区)
|<————————————————————1024————————————————————>|
|<———256——>|<——-256——>|<————————-512—————————->|
| partition0 | partition1 |     partition2     |
|  共2份,故 count[0]=2     | 共1份,故count[1]=1 |
int[] count = new int[] { 2, 1 };
int[] length = new int[] { 256, 512 };
PartitionUtil pu = new PartitionUtil(count, length);

# 下面代码演示分别以 offerId 字段或 memberId 字段根据上述分区策略拆分的分配结果
int DEFAULT_STR_HEAD_LEN = 8; // cobar 默认会配置为此值
long offerId = 12345;
String memberId = "qiushuo";

# 若根据 offerId 分配,partNo1 将等于 0,即按照上述分区策略,offerId 为 12345 时将会被分配到 partition0 中
int partNo1 = pu.partition(offerId);

# 若根据 memberId 分配,partNo2 将等于 2,即按照上述分区策略,memberId 为 qiushuo 时将会被分到 partition2 中
int partNo2 = pu.partition(memberId, 0, DEFAULT_STR_HEAD_LEN);

如果需要平均分配设置 : 平均分为 4 分片,partitionCount*partitionLength=1024
  4
  256

3> 范围约定 : 此分片适用于,提前规划好分片字段某个范围属于哪个分片,start <= range <= end
range start-end , data node index
K=1000 , M=10000
`rule.xml
 
    user_id
    rang-long
 

  autopartition-long.txt
  0


`autopartition-long.txt
# range start-end ,data node index
# K=1000,M=10000.
0-500M=0
500M-1000M=1
1000M-1500M=2
配置说明 : 所有的节点配置都是从 0 开始,及 0 代表节点 1,此配置非常简单,即预先制定可能的 id 范围到某个分片
0-500M=0
500M-1000M=1
1000M-1500M=2
0-10000000=0
10000001-20000000=1

4> 取模 : 此规则为对分片字段求摸运算
`rule.xml
 
    id
    mod-long
 

 
  3
此种配置非常明确即根据 id 进行十进制求模预算,相比固定分片 hash,此种在批量插入时可能存在批量插入单事务插入多数据分片,增大事务一致性难度

5> 按日期分片
<1> 按天分片
`rule.xml
 
    create_time
    sharding-by-date
 

class="org.opencloudb.route.function.PartitionByDate">
  yyyy-MM-dd
  2014-01-01
  2014-01-02
  10
如果配置 sEndDate 则代表数据达到这个日期的分片后,循环从开始分片插入
Assert.assertEquals(true, 0 == partition.calculate("2014-01-01"));
Assert.assertEquals(true, 0 == partition.calculate("2014-01-10"));
Assert.assertEquals(true, 1 == partition.calculate("2014-01-11"));
Assert.assertEquals(true, 12 == partition.calculate("2014-05-01"));
<2> 按月分片
`rule.xml
 
    create_time
    partbymonth
 

  yyyy-MM-dd
  2015-01-01

6> 取模范围约束 : 此种规则是取模运算与范围约束的结合,主要为后续数据迁移做准备,即可以自主决定取模后数据的节点分布
`rule.xml
 
    user_id
    sharding-by-pattern
 

class="org.opencloudb.route.function.PartitionByPattern">
  256
  2
  partition-pattern.txt


`partition-pattern.txt : 配置文件中,1-32 即代表 id%256 后分布的范围,如果在 1-32 则在分区 1,其他类推,如果 id 非数据,则会分配在 defaoultNode 默认节点
# id partition range start-end ,data node index
###### first host configuration
1-32=0
33-64=1
65-96=2
97-128=3
######## second host configuration
129-160=4
161-192=5
193-224=6
225-256=7
0-0=7

String idVal = "0";
Assert.assertEquals(true, 7 == autoPartition.calculate(idVal));
idVal = "45a";
Assert.assertEquals(true, 2 == autoPartition.calculate(idVal));

7> 截取数字做 hash 求模范围约束 : 此种规则类似于取模范围约束,此规则支持数据符号字母取模
`rule.xml
 
    user_id
    sharding-by-prefixpattern
 

class="org.opencloudb.route.function.PartitionByPrefixPattern">
  256
  5
  partition-pattern.txt


`partition-pattern.txt : 配置文件中,1-32 即代表 id%256 后分布的范围,如果在 1-32 则在分区 1,其他类推
# range start-end ,data node index
# ASCII
# 8-57=0-9 阿拉伯数字
# 64、 65-90=@、 A-Z
# 97-122=a-z
###### first host configuration
1-4=0
5-8=1
9-12=2
13-16=3
###### second host configuration
17-20=4
21-24=5
25-28=6
29-32=7
0-0=7
此种方式类似方式 6 只不过采取的是将列种获取前 prefixLength 位列所有 ASCII 码的和进行求模 sum%patternValue,获取的值,在范围内的分片数
String idVal="gf89f9a";
Assert.assertEquals(true, 0==autoPartition.calculate(idVal));
idVal="8df99a";
Assert.assertEquals(true, 4==autoPartition.calculate(idVal));
idVal="8dhdf99a";
Assert.assertEquals(true, 3==autoPartition.calculate(idVal));

8> 应用指定 : 此规则是在运行阶段由应用自主决定路由到那个分片
`rule.xml
 
    user_id
    sharding-by-substring
 

class="org.opencloudb.route.function.PartitionDirectBySubString">
  0
  2
  8
  0
此方法为直接根据字符子串 (必须是数字) 计算分区号 (由应用传递参数,显式指定分区号)
例如 id=05-100000002
在此配置中代表根据 id 中从 startIndex=0,开始,截取 siz=2 位数字即 05,05 就是获取的分区,如果没传默认分配到 defaultPartition

9> 截取数字 hash 解 : 此规则是截取字符串中的 int 数值 hash 分片
`rule.xml
 
    user_id
    sharding-by-stringhash
 

class="org.opencloudb.route.function.PartitionByString">
  512
  2
  0:2

hashSlice : 0 means str.length(), -1 means str.length()-1

/**
 * "2" -> (0,2)
 * "1:2" -> (1,2)
 * "1:" -> (1,0)
 * "-1:" -> (-1,0)
 * ":-1" -> (0,-1)
 * ":" -> (0,0)
 */
String idVal=null;
rule.setPartitionLength("512");
rule.setPartitionCount("2");
rule.init();
rule.setHashSlice("0:2");
// idVal = "0";
// Assert.assertEquals(true, 0 == rule.calculate(idVal));
// idVal = "45a";
// Assert.assertEquals(true, 1 == rule.calculate(idVal));

// last 4
rule = new PartitionByString();
rule.setPartitionLength("512");
rule.setPartitionCount("2");
rule.init();

// last 4 characters
rule.setHashSlice("-4:0");
idVal = "aaaabbb0000";
Assert.assertEquals(true, 0 == rule.calculate(idVal));
idVal = "aaaabbb2359";
Assert.assertEquals(true, 0 == rule.calculate(idVal));

10> 一致性 hash : 一致性 hash 预算有效解决分布式数据的扩容问题
`rule.xml
 
    user_id
    murmur
 

  0
  2
  160
   
   

11> 按单月小时拆分 : 此规则是单月内按照小时拆分,最小粒度是小时,可以一天最多 24 个分片,最少 1 个分片,一个月完后下月从头开始循环。每个月月尾,需要手工清理数据
`rule.xml
 
    create_time
    sharding-by-hour
 

class="org.opencloudb.route.function.LatestMonthPartion">
  24
columns : 拆分字段,字符串类型 (yyyymmddHH)
LatestMonthPartion partion = new LatestMonthPartion();
partion.setSplitOneDay(24);
Integer val = partion.calculate("2015020100");
assertTrue(val == 0);
val = partion.calculate("2015020216");
assertTrue(val == 40);
val = partion.calculate("2015022823");
assertTrue(val == 27 * 24 + 23);
Integer[] span = partion.calculateRange("2015020100", "2015022823");
assertTrue(span.length == 27 * 24 + 23 + 1);
assertTrue(span[0] == 0 && span[span.length - 1] == 27 * 24 + 23);
span = partion.calculateRange("2015020100", "2015020123");
assertTrue(span.length == 24);
assertTrue(span[0] == 0 && span[span.length - 1] == 23);

12> 范围求模分片 : 先进行范围分片计算出分片组,组内再求模。优点是可以避免扩容时的数据迁移,又可以一定程度上避免范围分片的热点问题综合了范围分片和求模分片的优点,分片组内使用求模可以保证组内数据比较均匀,分片组之间是范围分片可以兼顾范围查询。最好事先规划好分片的数量,数据扩容时按分片组扩容,则原有分片组的数据不需要迁移。由于分片组内数据比较均匀,所以分片组内可以避免热点数据问题
`rule.xml
 
    id
    rang-mod
 

class="org.opencloudb.route.function.PartitionByRangeMod">
  partition-range-mod.txt
  21


`partition-range-mod.txt :  range start-end ,data node group size  以下配置一个范围代表一个分片组,=号后面的数字代表该分片组所拥有的分片的数量
0-200M=5 // 代表有 5 个分片节点
200M1-400M=1
400M1-600M=4
600M1-800M=4
800M1-1000M=6

13> 日期范围 hash 分片 : 思想与范围求模一致,当由于日期在取模会有数据集中问题,所以改成 hash 方法。先根据日期分组,再根据时间 hash 使得短期内数据分布的更均匀。优点是可以避免扩容时的数据迁移,又可以一定程度上避免范围分片的热点问题,要求日期格式尽量精确些,不然达不到局部均匀的目的
`rule.xml
 
    col_date
    range-date-hash
 

class="org.opencloudb.route.function.PartitionByRangeDateHash">
  2014-01-01 00:00:00
  3
  yyyy-MM-dd HH:mm:ss
  6

14> 冷热数据分片 : 根据日期查询日志数据冷热数据分布 ,最近 n 个月的到实时交易库查询,超过 n 个月的按照 m 天分片
`rule.xml
 
    create_time
    sharding-by-hotdate
 

  yyyy-MM-dd
  10
  30

15> 自然月分片 : 按月份列分区 ,每个自然月一个分片,格式 between 操作解析的范例
`rule.xml
 
    create_time
    sharding-by-month
 

class="org.opencloudb.route.function.PartitionByMonth">
  yyyy-MM-dd
  2014-01-01

PartitionByMonth partition = new PartitionByMonth();
partition.setDateFormat("yyyy-MM-dd");
partition.setsBeginDate("2014-01-01");
partition.init();
Assert.assertEquals(true, 0 == partition.calculate("2014-01-01"));
Assert.assertEquals(true, 0 == partition.calculate("2014-01-10"));
Assert.assertEquals(true, 0 == partition.calculate("2014-01-31"));
Assert.assertEquals(true, 1 == partition.calculate("2014-02-01"));
Assert.assertEquals(true, 1 == partition.calculate("2014-02-28"));
Assert.assertEquals(true, 2 == partition.calculate("2014-03-1"));
Assert.assertEquals(true, 11 == partition.calculate("2014-12-31"));
Assert.assertEquals(true, 12 == partition.calculate("2015-01-31"));
Assert.assertEquals(true, 23 == partition.calculate("2015-12-31"));


如果想增加自定义分片方法可以下载 Mycat-Server (https://github.com/MyCATApache/Mycat-Server),。编译打包后放在 MyCat 运行文件的 {MYCAT_HOME}/lib 替换 Mycat-server-1.6-RELEASE.jar 文件
$ pwd
/opt/modules/mycat/lib

$ ll
总用量 17M
-rwxrwxrwx. 1 root root  45K 10月 28 2016 asm-4.0.jar
-rwxrwxrwx. 1 root root 562K 10月 28 2016 commons-collections-3.2.1.jar
-rwxrwxrwx. 1 root root 278K 10月 28 2016 commons-lang-2.6.jar
-rwxrwxrwx. 1 root root  72K 10月 28 2016 curator-client-2.11.0.jar
-rwxrwxrwx. 1 root root 195K 10月 28 2016 curator-framework-2.11.0.jar
-rwxrwxrwx. 1 root root 276K 10月 28 2016 curator-recipes-2.11.0.jar
-rwxrwxrwx. 1 root root  79K 10月 28 2016 disruptor-3.3.4.jar
-rwxrwxrwx. 1 root root 307K 10月 28 2016 dom4j-1.6.1.jar
-rwxrwxrwx. 1 root root 2.1M 10月 28 2016 druid-1.0.26.jar
-rwxrwxrwx. 1 root root 1.3M 10月 28 2016 ehcache-core-2.6.11.jar
-rwxrwxrwx. 1 root root 380K 10月 28 2016 fastjson-1.2.12.jar
-rwxrwxrwx. 1 root root 2.3M 10月 28 2016 guava-19.0.jar
-rwxrwxrwx. 1 root root  44K 10月 28 2016 hamcrest-core-1.3.jar
-rwxrwxrwx. 1 root root  52K 10月 28 2016 hamcrest-library-1.3.jar
-rwxrwxrwx. 1 root root  86K 10月 28 2016 jline-0.9.94.jar
-rwxrwxrwx. 1 root root 614K 10月 28 2016 joda-time-2.9.3.jar
-rwxrwxrwx. 1 root root  33K 10月 28 2016 jsr305-2.0.3.jar
-rwxrwxrwx. 1 root root 137K 10月 28 2016 kryo-2.10.jar
-rwxrwxrwx. 1 root root 225K 10月 28 2016 leveldb-0.7.jar
-rwxrwxrwx. 1 root root 9.1K 10月 28 2016 leveldb-api-0.7.jar
-rwxrwxrwx. 1 root root  24K 10月 28 2016 libwrapper-linux-ppc-64.so
-rwxrwxrwx. 1 root root  12K 10月 28 2016 libwrapper-linux-x86-32.so
-rwxrwxrwx. 1 root root  15K 10月 28 2016 libwrapper-linux-x86-64.so
-rwxrwxrwx. 1 root root 479K 10月 28 2016 log4j-1.2.17.jar
-rwxrwxrwx. 1 root root  37K 10月 28 2016 log4j-1.2-api-2.5.jar
-rwxrwxrwx. 1 root root 144K 10月 28 2016 log4j-api-2.5.jar
-rwxrwxrwx. 1 root root 1.1M 10月 28 2016 log4j-core-2.5.jar
-rwxrwxrwx. 1 root root  23K 10月 28 2016 log4j-slf4j-impl-2.5.jar
-rwxrwxrwx. 1 root root 406K 10月 28 2016 mapdb-1.0.7.jar
-rwxrwxrwx. 1 root root 4.9K 10月 28 2016 minlog-1.2.jar
-rwxrwxrwx. 1 root root 410K 10月 28 2016 mongo-java-driver-2.11.4.jar
-rwxrwxrwx. 1 root root 1.8M 10月 28 2016 Mycat-server-1.6-RELEASE.jar
-rwxrwxrwx. 1 root root 128K 10月 28 2016 mysql-binlog-connector-java-0.4.1.jar
-rwxrwxrwx. 1 root root 1.2M 10月 28 2016 netty-3.7.0.Final.jar
-rwxrwxrwx. 1 root root  36K 10月 28 2016 objenesis-1.2.jar
-rwxrwxrwx. 1 root root  14K 10月 28 2016 reflectasm-1.03.jar
-rwxrwxrwx. 1 root root 470K 10月 28 2016 sequoiadb-driver-1.12.jar
-rwxrwxrwx. 1 root root  25K 10月 28 2016 slf4j-api-1.6.1.jar
-rwxrwxrwx. 1 root root 318K 10月 28 2016 univocity-parsers-2.2.1.jar
-rwxrwxrwx. 1 root root 439K 10月 28 2016 velocity-1.7.jar
-rwxrwxrwx. 1 root root  82K 10月 28 2016 wrapper.jar
-rwxrwxrwx. 1 root root 775K 10月 28 2016 zookeeper-3.4.6.jar


你可能感兴趣的:(MyCat)