通过在配置文件中配置可能的枚举id,自己配置分片,本规则适用于特定的场景,比如有些业务需要按照省份或区县来做保存, 而全国省份区县固定的,这类业务使用本条规则,配置如下:
<tableRule name="sharding-by-intfile"> <rule>
<columns>user_idcolumns>
<algorithm>hash-intalgorithm> rule>
tableRule>
<function name="hash-int" class="org.opencloudb.route.function.PartitionByFileMap">
<property name="mapFile">partition-hash-int.txtproperty>
<property name="type">0property>
<property name="defaultNode">0property>
function>
partition-hash-int.txt 配置:
10000=0
10010=1
DEFAULT_NODE=1
此分片适用于,提前规划好分片字段某个范围属于哪个分片
<tableRule name="auto-sharding-long">
<rule>
<columns>user_idcolumns>
<algorithm>rang-longalgorithm>
rule>
tableRule>
<function name="rang-long" class="org.opencloudb.route.function.AutoPartitionByLong">
<property name="mapFile">autopartition-long.txtproperty>
<property name="defaultNode">0property>
function>
autopartition-long.txt
0-500M=0
500M-1000M=1
1000M-1500=2
或
0-10000000=0
10000000-20000000=1
此规则为对分片字段求摸运算。
<tableRule name="mod-long">
<rule>
<columns>user_idcolumns>
<algorithm>mod-longalgorithm>
rule>
tableRule>
<function name="mod-long" class="org.opencloudb.route.function.PartitionByMod">
<property name="count">3property>
function>
此种配置非常明确即根据id进行十进制求模预算,相比固定分片hash,此种在批量插入时可能存在批量插入单事务插入多数据分 片,增大事务一致性难度。
<tableRule name="sharding-by-date">
<rule>
<columns>create_timecolumns>
<algorithm>sharding-by-datealgorithm>
rule>
tableRule>
<function name="sharding-by-date" class="org.opencloudb.route.function.PartitionByDate">
<property name="dateFormat">yyyy-MM-ddproperty>
<property name="sBeginDate">2014-01-01property>
<property name="sPartionDay">10property>
function>
配置说明:
本条规则类似于十进制的求模运算,区别在于是二进制的操作,是取id的二进制低10位,即id二进制&1111111111。 此算法的优点在于如果按照10进制取模运算,在连续插入1-10时候1-10会被分到1-10个分片,增大了插入的事务控制难度,而 此算法根据二进制则可能会分到连续的分片,减少插入事务事务控制难度。
<tableRule name="rule1">
<rule>
<columns>user_idcolumns>
<algorithm>func1algorithm>
rule>
tableRule>
<function name="func1" class="org.opencloudb.route.function.PartitionByLong">
<property name="partitionCount">2,1property>
<property name="partitionLength">256,512property>
function>
约束 :
count和length两个向量的点积恒等于1024
用法例子: 本例的分区策略:希望将数据水平分成3份,前两份各占25%,第三份占50%。(故本例非均匀分区)
// |<———————1024————————>|
// |<—-256—>|<—-256—>|<———-512———->|
// | partition0 | partition1 | partition2 |
// | 共2份,故count[0]=2 | 共1份,故count[1]=1 |
此种规则是取模运算与范围约束的结合,主要为了后续数据迁移做准备,即可以自主决定取模后数据的节点分布。
<tableRule name="sharding-by-pattern">
<rule>
<columns>user_idcolumns>
<algorithm>sharding-by-patternalgorithm>
rule>
tableRule>
<function name="sharding-by-pattern" class="org.opencloudb.route.function.PartitionByPattern">
<property name="patternValue">256property>
<property name="defaultNode">2property>
<property name="mapFile">partition-pattern.txtproperty>
function>
partition-pattern.txt
1-32=0
33-64=1
65-96=2
97-128=3
######## second host configuration 129-160=4
161-192=5
193-224=6
225-256=7
0-0=7
配置说明:
上面columns 标识将要分片的表字段,algorithm 分片函数,patternValue 即求模基数,defaoultNode 默认节点,如果配置了默认,则不会按照求模运算
mapFile 配置文件路径
配置文件中,1-32 即代表id%256后分布的范围,如果在1-32则在分区1,其他类推,如果id非数据,则会分配在defaoultNode 默认节点
此种规则类似于取模范围约束,此规则支持数据符号字母取模。
<tableRule name="sharding-by-prefixpattern">
<rule>
<columns>user_idcolumns>
<algorithm>sharding-by-prefixpatternalgorithm> rule>
tableRule>
<function name="sharding-by-pattern" class="org.opencloudb.route.function.PartitionByPrefixPattern">
<property name="patternValue">256property>
<property name="prefixLength">5property>
<property name="mapFile">partition-pattern.txtproperty>
function>
partition-pattern.txt
# range start-end ,data node index # ASCII
# 8-57=0-9阿拉伯数字
# 64、65-90=@、A-Z
# 97-122=a-z
###### first host configuration 1-4=0
5-8=1
9-12=2
13-16=3
###### second host configuration 17-20=4
21-24=5
25-28=6
29-32=7
0-0=7
patternValue 即求模基数,prefixLength ASCII 截取的位数
配置文件中,1-32 即代表id%256后分布的范围,如果在1-32则在分区1,其他类推
此种方式类似方式6只不过采取的是将列种获取前prefixLength位列所有ASCII码的和进行求模sum%patternValue ,获取的值, 在范围内的分片数
此规则是在运行阶段有应用自主决定路由到那个分片。
<tableRule name="sharding-by-substring"> <rule>
<columns>user_idcolumns>
<algorithm>sharding-by-substringalgorithm> rule>
tableRule>
<function name="sharding-by-substring" class="org.opencloudb.route.function.PartitionDirectBySubString">
<property name="startIndex">0property>
<property name="size">2property>
<property name="partitionCount">8property>
<property name="defaultPartition">0property>
function>
此方法为直接根据字符子串(必须是数字)计算分区号(由应用传递参数,显式指定分区号)。
例如id=05-100000002 在此配置中代表根据id中从startIndex=0,开始,截取siz=2位数字即05,05就是获取的分区,如果没传默认分配到 defaultPartition
此规则是截取字符串中的int数值hash分片。
<tableRule name="sharding-by-stringhash">
<rule>
<columns>user_idcolumns>
<algorithm>sharding-by-stringhashalgorithm>
rule>
tableRule>
<function name="sharding-by-stringhash" class="org.opencloudb.route.function.PartitionByString">
<property name=length>512property>
<property name="count">2property>
<property name="hashSlice">0:2property>
function>
函数中length代表字符串hash求模基数,count分区数,hashSlice hash预算位 即根据子字符串中int值 hash运算
hashSlice : 0 means str.length(), -1 means str.length()-1
一致性hash预算有效解决了分布式数据的扩容问题。
<tableRule name="sharding-by-murmur">
<rule>
<columns>user_idcolumns>
<algorithm>murmuralgorithm> rule>
tableRule>
<function name="murmur" class="org.opencloudb.route.function.PartitionByMurmurHash">
<property name="seed">0property>
<property name="count">2property>
<property name="virtualBucketTimes">160property>
function>
此规则是单月内按照小时拆分,最小粒度是小时,可以一天最多24个分片,最少1个分片,一个月完后下月从头开始循环。 每个月月尾,需要手工清理数据。
<tableRule name="sharding-by-hour">
<rule>
<columns>create_timecolumns>
<algorithm>sharding-by-houralgorithm>
rule>
tableRule>
<function name="sharding-by-hour" class="org.opencloudb.route.function.LatestMonthPartion">
<property name="splitOneDay">24property>
function>
columns: 拆分字段,字符串类型(yyyymmddHH)
splitOneDay : 一天切分的分片数
按月份列分区 ,每个自然月一个分片,格式 between操作解析的范例。
<tableRule name="sharding-by-month">
<rule>
<columns>create_timecolumns>
<algorithm>sharding-by-monthalgorithm>
rule>
tableRule>
<function name="sharding-by-month" class="org.opencloudb.route.function.PartitionByMonth">
<property name="dateFormat">yyyy-MM-ddproperty>
<property name="sBeginDate">2014-01-01property>
function>
columns: 分片字段,字符串类型
dateFormat : 日期字符串格式
sBeginDate : 开始日期