Schema.xml作为MyCat中重要的配置文件之一,管理着MyCat的逻辑库、表、分片规则、DataNode以及DataSource。弄懂这些配置,是正确使用MyCat的前提。这里就一层层对该文件进行解析。
<schema name="TESTDB" checkSQLschema="false" sqlMaxLimit="100">schema>
schema 标签用于定义MyCat实例中的逻辑库,MyCat可以有多个逻辑库,每个逻辑库都有自己的相关配置。可以使用 schema 标签来划分这些不同的逻辑库。
如果不配置 schema 标签,所有的表配置,会属于同一个默认的逻辑库。
<schema name="TESTDB" checkSQLschema="false" sqlMaxLimit="100">
<table name="travelrecord" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" >table> schema>
<schema name="USERDB" checkSQLschema="false" sqlMaxLimit="100">
<table name="company" dataNode="dn10,dn11,dn12" rule="auto-sharding-long" >table> schema>
如上所示的配置就配置了两个不同的逻辑库,逻辑库的概念和MYSQL数据库中Database的概念相同,我们在查询这两个不同的逻辑库中表的时候需要切换到该逻辑库下才可以查询到所需要的表。
如果你发现显示该错误信息,需要到server.xml添加该用户可以访问到的schema就可以了。具体的内容待后续章节阐述。
schema标签的相关属性:
属性名—值—数量限制
dataNode—任意String—(0..1)
checkSQLschema—Boolean—(1)
sqlMaxLimit—Integer—(1)
1 dataNode
该属性用于绑定逻辑库到某个具体的database上,1.3版本如果配置了dataNode,则不可以配置分片表,1.4可以配置默认分片,只需要配置需要分片的表即可,具体如下配置:
1.3配置:
<schema name="USERDB" checkSQLschema="false" sqlMaxLimit="100" dataNode="dn1"> <!—里面不能配置任何表--> schema>
1.4配置:
<schema name="USERDB" checkSQLschema="false" sqlMaxLimit="100" dataNode="dn2"> <!—配置需要分片的表--> <table name=“tuser” dataNode=”dn1”/> schema>
那么现在tuser就绑定到dn1所配置的具体database上,可以直接访问这个database,没有配置的表则会走默认节点dn2,这里注意没有配置在分片里面的表工具查看无法显示,但是可以正常使用。
2 checkSQLschema
当该值设置为 true 时,如果我们执行语句
select * from TESTDB.travelrecord;
则MyCat会把语句修改为
select * from travelrecord;
即把表示schema的字符去掉,避免发送到后端数据库执行时报
(ERROR 1146 (42S02): Table ‘testdb.travelrecord’ doesn’t exist)。
不过,即使设置该值为 true ,如果语句所带的是并非是schema指定的名字,例如:
select * from db1.travelrecord;
那么MyCat并不会删除db1这个字段,如果没有定义该库的话则会报错,所以在提供SQL语句的最好是不带这个字段。
3 sqlMaxLimit
当该值设置为某个数值时。每条执行的SQL语句,如果没有加上limit语句,MyCat也会自动的加上所对应的值。例如设置值为100,执行
select * from TESTDB.travelrecord;
的效果为和执行
select * from TESTDB.travelrecord limit 100;相同。
设置该值的话,MyCat默认会把查询到的信息全部都展示出来,造成过多的输出。所以,在正常使用中,还是建议加上一个值,用于减少过多的数据返回。
当然SQL语句中也显式的指定limit的大小,不受该属性的约束。
需要注意的是,如果运行的schema为非拆分库的,那么该属性不会生效。需要手动添加limit语句。
<table name="travelrecord" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" >table>
Table 标签定义了MyCat中的逻辑表,所有需要拆分的表都需要在这个标签中定义。
table标签的相关属性:
属性名—值—数量限制
name—String—(1)
dataNode—String—(1..*)
rule—String—(0..1)
ruleRequired—boolean—(0..1)
primaryKey—String—(1)
type—String—(0..1)
autoIncrement—boolean—(0..1)
subTables—String—(1)
needAddLimit—boolean—(0..1)
1 name属性
定义逻辑表的表名,这个名字就如同我在数据库中执行create table命令指定的名字一样,同个schema标签中定义的名字必须唯一。
2 dataNode属性
定义这个逻辑表所属的dataNode, 该属性的值需要和dataNode标签中name属性的值相互对应。如果需要定义的dn过多可以使用如下的方法减少配置:
<table name="travelrecord" dataNode="multipleDn$0-99,multipleDn2$100-199" rule="auto-sharding-long" >table>
<dataNode name="multipleDn" dataHost="localhost1" database="db$0-99" >dataNode>
<dataNode name="multipleDn2" dataHost="localhost1" database=" db$0-99" >dataNode>
这里需要注意的是database属性所指定的真实database name需要在后面添加一个,例如上面的例子中,我需要在真实的mysql上建立名称为dbs0到dbs99的database。
3 rule属性
该属性用于指定逻辑表要使用的规则名字,规则名字在rule.xml中定义,必须与tableRule标签中name属性属性值一一对应。
4 ruleRequired属性
该属性用于指定表是否绑定分片规则,如果配置为true,但没有配置具体rule的话 ,程序会报错。
5 primaryKey属性
该逻辑表对应真实表的主键,例如:分片的规则是使用非主键进行分片的,那么在使用主键查询的时候,就会发送查询语句到所有配置的DN上,如果使用该属性配置真实表的主键。难么MyCat会缓存主键与具体DN的信息,那么再次使用非主键进行查询的时候就不会进行广播式的查询,就会直接发送语句给具体的DN,但是尽管配置该属性,如果缓存并没有命中的话,还是会发送语句给具体的DN,来获得数据。
6 type属性
该属性定义了逻辑表的类型,目前逻辑表只有“全局表”和”普通表”两种类型。对应的配置:
7 autoIncrement属性
mysql对非自增长主键,使用last_insert_id()是不会返回结果的,只会返回0。所以,只有定义了自增长主键的表才可以用last_insert_id()返回主键值。
mycat目前提供了自增长主键功能,但是如果对应的mysql节点上数据表,没有定义auto_increment,那么在mycat层调用last_insert_id()也是不会返回结果的。
由于insert操作的时候没有带入分片键,mycat会先取下这个表对应的全局序列,然后赋值给分片键。这样才能正常的插入到数据库中,最后使用last_insert_id()才会返回插入的分片键值。
如果要使用这个功能最好配合使用数据库模式的全局序列。
使用autoIncrement=“true” 指定这个表有使用自增长主键,这样mycat才会不抛出分片键找不到的异常。
使用autoIncrement=“false” 来禁用这个功能,当然你也可以直接删除掉这个属性。默认就是禁用的。
8 subTables
使用方式添加subTables=”t_order$1-2,t_order3”
目前分表1.6以后开始支持 并且dataNode在分表条件下只能配置一个,分表条件下不支持各种条件的join语句。
9 needAddLimit属性
指定表是否需要自动的在每个语句后面加上limit限制。由于使用了分库分表,数据量有时会特别巨大。这时候执行查询语句,如果恰巧又忘记了加上数量限制的话。那么查询所有的数据出来,也够等上一小会儿的。
所以,mycat就自动的为我们加上LIMIT 100。当然,如果语句中有limit,就不会在次添加了。
这个属性默认为true,你也可以设置成false`禁用掉默认行为。
childTable标签用于定义E-R分片的子表。通过标签上的属性与父表进行关联。
childTable标签的相关属性:
属性名—值—数量限制
name—String—(1)
joinKey—String—(1)
parentKey—String—(1)
primaryKey—String—(0..1)
needAddLimit—boolean—(0..1)
1 name属性
定义子表的表名。
2 joinKey属性
插入子表的时候会使用这个列的值查找父表存储的数据节点。
3 parentKey属性
属性指定的值一般为与父表建立关联关系的列名。程序首先获取joinkey的值,再通过parentKey属性指定的列名产生查询语句,通过执行该语句得到父表存储在哪个分片上。从而确定子表存储的位置。
4 primaryKey属性
同table标签所描述的。
5 needAddLimit属性
同table标签所描述的。
<dataNode name="dn1" dataHost="lch3307" database="db1" >dataNode>
dataNode 标签定义了MyCat中的数据节点,也就是我们通常说所的数据分片。一个dataNode标签就是一个独立的数据分片。
例子中所表述的意思为:使用名字为lch3307数据库实例上的db1物理数据库,这就组成一个数据分片,最后,我们使用名字dn1标识这个分片。
dataNode标签的相关属性:
属性名—值—数量限制
name—String—(1)
dataHost—String—(1)
database—String—(1)
1 name属性
定义数据节点的名字,这个名字需要是唯一的,我们需要在table标签上应用这个名字,来建立表与分片对应的关系。
2 dataHost属性
该属性用于定义该分片属于哪个数据库实例的,属性值是引用dataHost标签上定义的name属性。
3 database属性
该属性用于定义该分片属性哪个具体数据库实例上的具体库,因为这里使用两个纬度来定义分片,就是:实例+具体的库。因为每个库上建立的表和表结构是一样的。所以这样做就可以轻松的对表进行水平拆分。
作为Schema.xml中最后的一个标签,该标签在mycat逻辑库中也是作为最底层的标签存在,直接定义了具体的数据库实例、读写分离配置和心跳语句。现在我们就解析下这个标签。
<dataHost name="localhost1" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native"> <heartbeat>select user()heartbeat>
<writeHost host="hostM1" url="localhost:3306" user="root" password="123456">
writeHost>
dataHost>
dataHost标签的相关属性:
属性名—值—数量限制
name—String—(1)
maxCon—Integer—(1)
minCon—Integer—(1)
balance—Integer—(1)
writeType—Integer—(1)
dbType—String—(1)
dbDriver—String—(1)
1 name属性
唯一标识dataHost标签,供上层的标签使用。
2 maxCon属性
指定每个读写实例连接池的最大连接。也就是说,标签内嵌套的writeHost、readHost标签都会使用这个属性的值来实例化出连接池的最大连接数。
3 minCon属性
指定每个读写实例连接池的最小连接,初始化连接池的大小。
4 balance属性
负载均衡类型,目前的取值有3种:
5 writeType属性
负载均衡类型,目前的取值有3种:
6 dbType属性
指定后端连接的数据库类型,目前支持二进制的mysql协议,还有其他使用JDBC连接的数据库。例如:mongodb、oracle、spark等。
7 dbDriver属性
指定连接后端数据库使用的Driver,目前可选的值有native和JDBC。使用native的话,因为这个值执行的是二进制的mysql协议,所以可以使用mysql和maridb。其他类型的数据库则需要使用JDBC驱动来支持。
从1.6版本开始支持postgresql的native原始协议。
如果使用JDBC的话需要将符合JDBC 4标准的驱动JAR包放到MYCAT\lib目录下,并检查驱动JAR包中包括如下目录结构的文件:META-INF\services\java.sql.Driver。在这个文件内写上具体的Driver类名,例如:com.mysql.jdbc.Driver。
8 switchType属性
-1 表示不自动切换
1 默认值,自动切换
2 基于MySQL主从同步的状态决定是否切换
心跳语句为 show slave status
3 基于MySQL galary cluster的切换机制(适合集群)(1.4.1)
心跳语句为 show status like ‘wsrep%’.
9 tempReadHostAvailable属性
如果配置了这个属性writeHost 下面的readHost仍旧可用,默认0 可配置(0、1)。
这个标签内指明用于和后端数据库进行心跳检查的语句。例如,MYSQL可以使用select user(),Oracle可以使用select 1 from dual等。
这个标签还有一个connectionInitSql属性,主要是当使用Oracla数据库时,需要执行的初始化SQL语句就这个放到这里面来。例如:alter session set nls_date_format=’yyyy-mm-dd hh24:mi:ss’
1.4主从切换的语句必须是:show slave status
1 writeHost标签、readHost标签
这两个标签都指定后端数据库的相关配置给mycat,用于实例化后端连接池。唯一不同的是,writeHost指定写实例、readHost指定读实例,组着这些读写实例来满足系统的要求。
在一个dataHost内可以定义多个writeHost和readHost。但是,如果writeHost指定的后端数据库宕机,那么这个writeHost绑定的所有readHost都将不可用。另一方面,由于这个writeHost宕机系统会自动的检测到,并切换到备用的writeHost上去。
这两个标签的属性相同,这里就一起介绍。
属性名—值—数量限制
host—String—(1)
url—String–(1)
password—String—(1)
user—String—(1)
weight—String—(1)
usingDecrypt—String—(1)
2 host属性
用于标识不同实例,一般writeHost我们使用*M1,readHost我们用*S1。
3 url属性
后端实例连接地址,如果是使用native的dbDriver,则一般为address:port这种形式。用JDBC或其他的dbDriver,则需要特殊指定。当使用JDBC时则可以这么写:jdbc:mysql://localhost:3306/。
4 user属性
后端存储实例需要的用户名字
5 password属性
后端存储实例需要的密码
6 weight 属性
权重 配置在readhost 中作为读节点的权重(1.4以后)
7 usingDecrypt 属性
是否对密码加密默认0 否 如需要开启配置1,同时使用加密程序对密码加密,加密命令为:
执行mycat jar 程序(1.4.1以后):
java -cp Mycat-server-1.4.1-dev.jar org.opencloudb.util.DecryptUtil 1:host:user:password
1:host:user:password 中 1 为db端加密标志,host为dataHost 的host 名称
1 配置
server.xml几乎保存了所有mycat需要的系统配置信息。其在代码内直接的映射类为SystemConfig类。
2 user标签
<user name="test">
<property name="password">testproperty>
<property name="schemas">TESTDBproperty>
<property name="readOnly">trueproperty>
<property name="benchmark">11111property>
<property name="usingDecrypt">1property>
<privileges check="false">
<schema name="TESTDB" dml="0010" showTables="custome/mysql"> <table name="tbl_user" dml="0110">table>
<table name="tbl_dynamic" dml="1111">table>
schema> privileges> user>
server.xml中的标签本就不多,这个标签主要用于定义登录mycat的用户和权限。例如上面的例子中,我定义了一个用户,用户名为test、密码也为test,可访问的schema也只有TESTDB一个。 如果我在schema.xml中定义了多个schema,那么这个用户是无法访问其他的schema。在mysql客户端看来则是无法使用use切换到这个其他的数据库。
如果使用了use命令,则mycat会报出这样的错误提示:
ERROR 1044 (HY000): Access denied for user 'test' to database 'xxx'
这个标签嵌套的property标签则是具体声明的属性值,正如上面的例子。我们可以修改user标签的name属性来指定用户名;修改password内的文本来修改密码;修改readOnly为true 或false来限制用户是否只是可读的;修改schemas内的文本来控制用户可放问的schema;修改schemas内的文本来控制用户可访问的schema,同时访问多个schema的话使用 , 隔开,例如:
<property name="schemas">TESTDB,db1,db2property>
Benchmark属性 Benchmark:mycat连接服务降级处理: benchmark 基准, 当前端的整体connection数达到基准值是, 对来自该账户的请求开始拒绝连接,0或不设表示不限制 例如
<property name="benchmark">1000property>
usingDecrypt 属性
是否对密码加密默认0 否 如需要开启配置1,同时使用加密程序对密码加密,加密命令为:
执行mycat jar 程序:
java -cp Mycat-server-1.4.1-dev.jar org.opencloudb.util.DecryptUtil 0:user:password Mycat-server-1.4.1-dev.jar
为mycat download 下载目录的jar 1:host:user:password 中 0 为前端加密标志
privileges子节点
对用户的schema及 下级的 table 进行精细化的 DML 权限控制,privileges 节点中的 check 属性是用于标识是否开启 DML 权限检查, 默认false 标识不检查,当然 privileges 节点不配置,等同 check=false,由于Mycat一个用户的schemas 属性可配置多个schema ,所以privileges 的下级节点schema 节点同样
可配置多个,对多库多表进行细粒度的DML 权限控制
Schema/Table 上的 dml属性描述
参数—说明—事例(禁止增删改查)
dml—insert,update,select,delete—0000
注: 设置了 schema , 但只设置了个别 table 或 未设置table 的 DML,自动继承 schema 的 DML 属性
privileges 配置事例如下:
<user name="zhuam">
<property name="password">111111property> <property name="schemas">TESTDB,TESTDB1property>
<privileges check="true">
<schema name="TESTDB" dml="0110" >
<table name="table01" dml="0111">table>
<table name="table02" dml="1111">table> schema>
<schema name="TESTDB1" dml="0110">
<table name="table03" dml="1110">table>
<table name="table04" dml="1010">table> schema> privileges> user>
这个标签内嵌套的所有property标签都与系统配置有关,请注意,下面我会省去标签property直接使用这个标签的name属性内的值来介绍这个属性的作用。
1 charset属性
字符集设置。
配置属性charset "charset">utf8
如果需要配置utf8mb2等特殊字符集可以在 index_to_charset.properties 配置中
配置数据库短的字符集ID=字符集
例如: 224=utf8mb4 配置字符集的时候一定要坚持mycat的字符集与数据库端的字符集是一致的,可以通过变量来查询:
show variables like 'collation_%'; show variables like 'character_set_%';
2 defaultSqlParser属性
由于mycat最初是时候Foundation DB的sql解析器,而后才添加的Druid的解析器。所以这个属性用来指定默认的解析器。目前的可用的取值有:druidparser和 fdbparser。使用的时候可以选择其中的一种,目前一般都使用druidparser。
1.3 解析器默认为fdbparser,1.4默认为druidparser,1.4以后fdbparser作废。
3 processors属性
这个属性主要用于指定系统可用的线程数,默认值为机器CPU核心线程数。
主要影响processorBufferPool、processorBufferLocalPercent、processorExecutor属性。NIOProcessor的个数也是由这个属性定义的,所以调优的时候可以适当的调高这个属性。
4 processorBufferChunk属性
这个属性指定每次分配Socket Direct Buffer的大小,默认是4096个字节。这个属性也影响buffer pool的长度。如果一次性获取的数过大buffer不够用 经常出现警告,则可以适当调大。
5 processorBufferPool属性
这个属性指定bufferPool计算 比例值。由于每次执行NIO读、写操作都需要使用到buffer,系统初始化的时候会建立一定长度的buffer池来加快读、写的效率,减少建立buffer的时间。
Mycat中有两个主要的buffer池:
- BufferPool
- ThreadLocalPool
BufferPool由ThreadLocalPool组合而成,每次从BufferPool中获取buffer都会优先获取ThreadLocalPool中的buffer,未命中之后才会去获取BufferPool中的buffer。也就是说ThreadLocalPool是作为BufferPool的二级缓存,每个线程内部自己使用的。当然,这其中还有一些限制条件需要线程的名字是由$_开头。然而,BufferPool上的buffer则是每个NIOProcessor都共享的。
默认这个属性的值为: 默认bufferChunkSize(4096) * processors属性 * 1000
BufferPool的总长度 = bufferPool / bufferChunk。
若bufferPool不是bufferChunk的整数倍,则总长度为前面计算得出的商 + 1
假设系统线程数为4,其他都为属性的默认值,则:
bufferPool = 4096 * 4 * 1000
BufferPool的总长度 : 4000 = 16384000 / 4096
6 processorBufferLocalPercent属性
前面提到了ThreadLocalPool。这个属性就是用来控制分配这个pool的大小用的,但其也并不是一个准确的值,也是一个比例值。这个属性默认值为100。
线程缓存百分比 = bufferLocalPercent / processors属性。
例如,系统可以同时运行4个线程,使用默认值,则根据公式每个线程的百分比为25。最后根据这个百分比来计算出具体的ThreadLocalPool的长度公式如下:
ThreadLocalPool的长度 = 线程缓存百分比 * BufferPool长度 / 100
假设BufferPool的长度为 4000,其他保持默认值。
那么最后每个线程建立上的ThreadLocalPool的长度为: 1000 = 25 * 4000 / 100
7 processorExecutor属性
这个属性主要用于指定NIOProcessor上共享的businessExecutor固定线程池大小。mycat在需要处理一些异步逻辑的时候会把任务提交到这个线程池中。新版本中这个连接池的使用频率不是很大了,可以设置一个较小的值。
8 sequnceHandlerType属性
指定使用Mycat全局序列的类型。0为本地文件方式,1为数据库方式,2为时间戳序列方式,3为分布式ZK ID生成器,4为zk递增id生成。
从1.6增加 两种ZK的全局ID生成算法。
9 TCP连接相关属性
- StandardSocketOptions.SO_RCVBUF
- StandardSocketOptions.SO_SNDBUF
- StandardSocketOptions.TCP_NODELAY
以上这三个属性,分别由:
frontSocketSoRcvbuf 默认值: 1024 * 1024
frontSocketSoSndbuf 默认值: 4 * 1024 * 1024
frontSocketNoDelay 默认值: 1
backSocketSoRcvbuf 默认值: 4 * 1024 * 1024
backSocketSoSndbuf 默认值: 1024 * 1024
backSocketNoDelay 默认值: 1
各自设置前后端TCP连接参数。Mycat在每次建立前、后端连接的时候都会使用这些参数初始化连接。可以按系统要求适当的调整这些buffer的大小。TCP连接参数的定义,可以查看Javadoc。
10 Mysql连接相关属性
初始化mysql前后端连接所涉及到的一些属性:
packetHeaderSize : 指定Mysql协议中的报文头长度。默认4。
maxPacketSize : 指定Mysql协议可以携带的数据最大长度。默认16M。
idleTimeout : 指定连接的空闲超时时间。某连接在发起空闲检查下,发现距离上次使用超过了空闲时间,那么这个连接会被回收,就是被直接的关闭掉。默认30分钟,单位毫秒。
charset : 连接的初始化字符集。默认为utf8。
txIsolation : 前端连接的初始化事务隔离级别,只在初始化的时候使用,后续会根据客户端传递过来的属性对后端数据库连接进行同步。默认为REPEATED_READ,设置值为数字默认3。
READ_UNCOMMITTED = 1;
READ_COMMITTED = 2;
REPEATED_READ = 3;
SERIALIZABLE = 4;
sqlExecuteTimeout:SQL执行超时的时间,Mycat会检查连接上最后一次执行SQL的时间,若超过这个时间则会直接关闭这连接。默认时间为300秒,单位秒。
11 心跳属性
mycat中有几个周期性的任务来异步的处理一些我需要的工作。这些属性就在系统调优的过程中也是比不可少的。
processorCheckPeriod : 清理NIOProcessor上前后端空闲、超时和关闭连接的间隔时间。默认是1秒,单位毫秒。。
dataNodeIdleCheckPeriod : 对后端连接进行空闲、超时检查的时间间隔,默认是300秒,单位毫秒。
dataNodeHeartbeatPeriod : 对后端所有读、写库发起心跳的间隔时间,默认是10秒,单位毫秒。
12 服务相关属性
这里介绍一个与服务相关的属性,主要会影响外部系统对myact的感知。
bindIp : mycat服务监听的IP地址,默认值为0.0.0.0。
serverPort : 定义mycat的使用端口,默认值为8066。
managerPort : 定义mycat的管理端口,默认值为9066。
13 fakeMySQLVersion
mycat模拟的mysql版本号,默认值为5.6版本,如非特需,不要修改这个值,目前支持设置5.5,5.6版本,其他版本可能会有问题。
此特性从1.6版本开始支持。
14 全局表一致性检测
<property name="useGlobleTableCheck">0property>
原理通过在全局表增加_MYCAT_OP_TIME字段来进行一致性检测,类型为bigint,create语句通过mycat执行会自动加上这个字段,其他情况请自己手工添加。
此特性从1.6版本开始支持。
“增加mycat新任务,全局表定义中,需要有一个时间戳字段,每次记录的update,insert,确保 时间字段赋值,并且mycat增加定时检测逻辑,检测记录总量,以及最新时间戳的匹配,简单有效的发现全局表不一致的问题。/ 测试修复类 / 1.5&2.0 /12.9 /leader-us”
全局表一致性定时检测主要分为两个部分:
- SQL拦截部分
主要实现对所有全局表中记录进行修改的语句进行拦截,比如:
ServerParse.INSERT,
ServerParse.UPDATE,
ServerParse.REPLACE(mycat-server不支持)
对所有对全局表的 insert, update操作进行拦截,首先判断该全局表是否存在一个记录时间戳的内部列_mycat_op_time:
public class GlobalTableUtil{
/** 全局表 保存修改时间戳的字段名,用于全局表一致性检查 */
public static final String GLOBAL_TABLE_MYCAT_COLUMN = "_mycat_op_time";
如果不存在,输出警告,哪个db的哪个全局表没有内部列:
if(innerColumnNotExist.size() > 0){
for(SQLQueryResult
然后返回原始sql. 不需要进行拦截。
如果存在一个记录时间戳的内部列,那么对该 insert或者update语句进行SQL拦截修改:
if(sqlType == ServerParse.INSERT){
sql = convertInsertSQL(sql, tableName);
}
if(sqlType == ServerParse.UPDATE){
sql = convertUpdateSQL(sql, tableName);
}
1.1 insert语句的拦截逻辑
对所有对全局表进行insert的sql语句,进行改写,比如下面的user是全局表:
insert into user(id,name)
valueS(1111,'dig'),
(1111, 'dig'),
90
(1111,'dig') ,
(1111,'dig');
会被改写成:
insert into user(id,name, _mycat_op_time)
valueS(1111,'dig', 1450423751170),
(1111, 'dig', 1450423751170),
(1111,'dig', 1450423751170) ,
(1111,'dig', 1450423751170);
其中_mycat_op_time 是内部列的名称:
public static final String GLOBAL_TABLE_MYCAT_COLUMN = "_mycat_op_time";
而1450423751170 是在插入时在 mycat-server上生成的一个时间戳对应的long整数(对应到数据库是bigint)。然后该语句发送给所有db在其全局表中进行插入。
如果insert语句自带了内部列_mycat_op_time,比如:
insert into user(id,name, _mycat_op_time)
valueS(1111,'dig',13545);
那么会输出警告,并且也进行拦截改写成如下形式:
insert into user(id,name, _mycat_op_time)
valueS(1111,'dig', 1450423751170);
然后发送给所有db在其全局表中进行插入。
对mycat-server不支持的sql语句,本拦截器,不进行任何操作,直接返回原始sql。如果在拦截过程中发生任何异常,也返回原始sql语句,不进行任何修改操作。保证该拦截不会影响系统原有的健壮性。
1.2 update语句的拦截逻辑
Update语句的拦截逻辑和insert语句原理是相似的。也是判断是否有内部列。
如果没有输出警告信息,如果有则进行拦截。
对全局表 user 的如下update:
update user set name='dddd',pwd='aaa'
where id=2
会被改写成:
update user set name='dddd',pwd='aaa', _mycat_op_time=1450423751170
where id=2
如果原始sql带有_mycat_op_time 那么进行警告,然后替换它的值,比如:
update user set name='dddd',pwd='aaa', _mycat_op_time=1111
where id=2;
会被改写成:
update user set name='dddd',pwd='aaa', _mycat_op_time=1450423751170
where id=2;
然后将语句发送给所有的全局表进行执行。
这样的话,如果有哪个表上的insert,update执行失败,那么内部列_mycat_op_time 的最大值,以及全局表的记录总数就会不一致。Delete语句也一样,只是无需拦截。下面的检查机制就是根据这个原理来操作的。
- 一致性的定时检测
在MycatServer的startup中引入一个定时检查任务:
timer.schedule(glableTableConsistencyCheck(), 0L, 1000 * 1000L);
// 全局表一致性检查任务
private TimerTask glableTableConsistencyCheck() {
return new TimerTask() {
@Override
public void run() {
timerExecutor.execute(new Runnable() {
@Override
public void run() {
GlobalTableUtil.consistencyCheck();
}
});
}
};
其实现在GlobalTableUtil 类中:
该类首先获得所有的全局表:
static {
getGlobalTable(); // 初始化 globalTableMap
}
其实现,参见代码。
GlobalTableUtil.consistencyCheck() 的实现,主要思路是,首先根据所有的全局表,找到对应的PhysicalDBNode,然后找到对应的PhysicalDatasource,然后对PhysicalDatasource中的所有db进行三项检测:
2.1 检测全局表的内部列是否存在
checker.checkInnerColumnExist();
检测的实现是通过一个SQLJob来异步操作的,对应的SQL语句为:
select count(*) as inner_col_exist from information_schema.columns where column_name=' _mycat_op_time' and table_name='user' and table_schema='db1';
如果返回的inner_col_exist 大于0,那么就表示存在内部列,如果等于0,那么就表示不存在内部列。
如果PhysicalDatasource上某个db的全局表没有内部列,那么将这些db记录在一个list中,然后在 SQL 拦截过程中进行判断,如果是全局表,但是没有内部列,那么就输出警告,不对SQL进行拦截改写,因为该全局表没有内部列,无需改写SQL。在第一项检测完成之后,才能进行第二项检测。
2.2 检测全局表的记录总数
checker.checkRecordCout();
检查过程是类似的,都是通过SQLjob来完成的,只是对应的语句不一样:
select count(*) as record_count from user; (假设user表为全局表)
2.3 检测全局表的时间戳的最大值
checker.checkMaxTimeStamp();
检查过程是类似的,都是通过SQLjob来完成的,只是对应的语句不一样:
select max(_mycat_op_time) as max_timestamp from user (假设user表为全局表)
三项检查完成之后,就获得了如下所示的结果:
全局表的记录总数(user表为全局表,并且系统有三个db):
db1. user.record_count: 43546565
db2. user.record_count: 43546565
db3. user.record_count: 43546565
全局表的最大时间戳:
93
db1. user.max_timestamp: 1450578802241
db2. user.max_timestamp: 1450578802241
db3. user.max_timestamp: 1450578802241
然后前端,比如 mycat-eye 就可以将该结果显示出来。目前直接在log中输出,也可以考虑引入像H2这样的Java实现的嵌入式数据库来记录该结果。H2实现为仅仅一个jar包,十分适合作为mycat-server层面的一个非文件存储方式。有一些信息如果存在在文件中,查询起来不太方便,比如上面的检测结果就是如此。
实际的SQLJob的执行,主要参照了原有的heartbeat的实现,主要在下面两个类中:
MySQLConsistencyChecker
MySQLConsistencyHelper
具体可以参考代码,和heartbeat的实现基本是一样的。
每一次定时检查,会对所有全局表进行上述三项检测。
总结成一句:
SQL的拦截实现记录全局表被修改时的时间戳;定时任务实现对全局表记录总数和时间戳最大值的获取。
- 如何使用全局表一致性检测
1> 在所有全局表中增加一个 bigint 的内部列,列名为
_mycat_op_time,(alter table t add column _mycat_op_time bigint [not null default 0]); 同时建议在该列上建立索引(alter table t add index _op_idx(_mycat_op_time))
2> 在对全局表进行crud时,最好将内部列当作不存在一样,也就是最好不要对内部列update,insert等操作,不然会在Log中进行警告:不用操作内部列;
3> 因为全局表多了一个内部列,所以在对全局表进行insert时,必须携带列名,也就是insert into t(id,name) values(xx,xx),不能使用insert into t values(xx,xx); 因为会报错:列数不对。这是唯一的一个小问题。未来可能会fix掉。
15 分布式事务开关
<property name="handleDistributedTransactions">0property>
主要应用场景,主要为了控制是否允许跨库事务。
此特性从1.6版本开始支持。
16 Off Heap for Mycat
此特性从1.6版本开始支持。 1
1.使用非堆内存(Direct Memory)处理跨分片结果集的Merge/order by/group by/limit。
2.通过server.xml中的useOffHeapForMerge参数配置是否启用非堆内存处理跨分片结果集
3.Mycat内存分层管理:
a.结果集处理内存
b.系统预留内存
c.网络处理内存共三块,
其中网络处理内存部分全部为Direct Memory,结果集内存分为Direct Memory 和 HeapMemory.
但目前仅使用Direct Memory。系统预留内存为 On Heap Memory。JVM参数,必须设置-XX:MaxDirectMemorySize和 -Xmx
例如:-Xmx1024m -Xmn512m -XX:MaxDirectMemorySize=2048m -Xss256K -XX:+UseParallelGC
上述分层可以避免OOM问题,以及减少Full GC回收时间,提高mycat响应速度。
4.使用TimeSort 和RadixSort,跨分片结果集合并排序使用PriorityQueue,其中经测试RadixSort适合LONG,INT,SHORT,Float,Double,String数据类型排序,性能优越
5.Java obj连续内存存取,二进制序列化和反序列化,使用缓存友好的数据结构Map和Row
6.支持内存和外存并存的排序方式,结果集排序可以达上亿规模。此时应注意:
例如:
-Xmx1024m -Xmn512m -XX:MaxDirectMemorySize=2048m -Xss256k -XX:+UseParallelGC
rule.xml里面就定义了我们对表进行拆分所涉及到的规则定义。我们可以灵活的对表使用不同的分片算法,或者对表使用相同的算法但具体的参数不同。这个文件里面主要有tableRule和function这两个标签。在具体使用过程中可以按照需求添加tableRule和function。
这个标签定义表规则。
定义的表规则,在schema.xml:
<tableRule name="rule1"> <rule> <columns>idcolumns> <algorithm>func1algorithm> rule> tableRule>
name 属性指定唯一的名字,用于标识不同的表规则。
内嵌的rule标签则指定对物理表中的哪一列进行拆分和使用什么路由算法。
columns 内指定要拆分的列名字。
algorithm 使用function标签中的name属性。连接表规则和具体路由算法。当然,多个表规则可以连接到同一个路由算法上。table标签内使用。让逻辑表使用这个规则进行分片。
<function name="hash-int" class="org.opencloudb.route.function.PartitionByFileMap"> <property name="mapFile">partition-hash-int.txtproperty> function>
name 指定算法的名字。
class 制定路由算法具体的类名字。
property 为具体算法需要用到的一些属性。
路由算法的配置可以查看算法章节。