数据管理功能的重要性
MySQL可以支持多种数据备份和数据导出功能,其中mysqldump可以把数据导出到执行机器上,并且可以包含建表语句,而还有一种常见的是采用select ... into outfile..来把数据导出成格式化的数据,对于后者,MySQL还对应与导出文件对应的load data infile功能,可以快速的把数据导入到MySQL表中。通过这样的数据文件管理,可以方便数据在不同平台之间的分享和再次加工处理。
scadb在数据管理上的考量
scadb是一套分布式的MySQL中间件,如果没有数据管理功能,一旦需要数据管理,就需要DBA去底层MySQL中把数据从各个分区表中导出合并,既增加了DBA的工作量,也容易造成不必要的故障。
所以笔者在开发scadb的时候,首先考虑的就是如何管理数据。而且考虑实现的方便性以及性能方面的考量,导出采用select ...into outfile,导入采用load data infile的方式。但是我们知道MySQL在导出和导入数据时,都是操作一个文件;而对于scadb来说,如果操作一个文件那么效率肯定无法让人满意,一旦数据库上亿条,导入导出会非常慢,而且无法把主机资源利用起来。
并发显然是最好的方式,这也符合分布式系统的特点。所以在scadb上,笔者采用了基于目录的导入导出,两个语法中指定的不是一个文件,而是一个目录,由scadb根据需要在相应的目录下创建和读取文件,从而充分的调动系统资源,加快海量数据的导入导出速度。
scadb数据导出
导出语法例子:select * into outfile 'a' from a
在该例子中,我们会从scadb中把a表的数据导出到a目录下,scadb的表对应到多个MySQL分区表,可以在多个MySQL分区表中同时执行导出,并生成多个文件。
如何从MySQL中导出数据?
导出数据,如图中所示,最终文件需要存储在scadb所在主机,而MySQL的select ..... into outfile语法会把数据格式化导出,但是它导出的数据是存放在MySQL实例所在服务器上,为了把文件传到scadb所在主机,可以在MySQL实例所在机器部署一个进程,如:Vitess的方案所示:
Vitess为每个MySQL对应部署一个vttablet进程。这样应用和应用部署的复杂度都会大大增加,这与scadb的轻量级设计相悖。
scadb导出使用的方案图如下,显然不能使用MySQL的select ... into outfile功能。
为了解决这个问题,笔者改造了MySQL,开发了新的语法select ... into localfile,该语法会把格式化好的数据通过记录的形势发送到客户端,举个栗子:
mysql> select * into localfile 'a' FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' from b \G
*************************** 1. row ***************************
send_cnt: 80
send_data: 1,"ttt113ffadsf3czdsfad"
2,"12313ffadsf3czdsfadf"
3,"12313ffadsf3czdsfadf"
...
*************************** 2. row ***************************
send_cnt: 77
send_data: 81,"ttt113ffadsf3czdsfad"
82,"12313ffadsf3czdsfadf"
83,"12313ffadsf3czdsfadf"
84,"33313ffadsf3czdsfadf"
....
该语法与普通的查询语法类似,但是返回的字段总是两个字段:
send_cnt: 记录行数
send_data: 格式化的记录数据
通过这种方式,我们可以通过执行一条普通的SQL语句一样,获取到的格式化的数据集,把这些数据集保存到对应的文件中。
select * into localfile ‘a’ from a_0 -----> a/a_0.txt
select * into localfile ‘a’ from a_1 -----> a/a_1.txt
select * into localfile ‘a’ from a_2 -----> a/a_2.txt
...............
select * into localfile ‘a’ from a_99 -----> a/a_99.txt
后续我会专门写篇文章介绍如何在MySQL上实现该功能。
scadb数据导入
scadb数据导入方案与数据导出类似,但是有一个点是相对复杂一点的,那就是数据导入在内部分为两个步骤:
格式化数据
把输入目录下的数据按照分区格式化成对应分区的数据,这里需要对目录下的所有的文件的每一行数据进行分析,它属于哪个分区,确定好分区,再把它放到对应规范化的分区数据文件中。
性能考虑:因为有可能处理的数据量过大,所以在这里需要考虑并行化处理这些记录,笔者按照数据块进行分解,每个任务负责处理数据块,然后把每个任务交给一个线程池去处理。导入数据
这一步与数据导出功能类似,对于应用程序来说发起了一个load data infile,而对应到每个分区文件,系统会采用load data local infile语法来把数据导入到对应的分区表中。
scadb导入导出的并发度控制
有了数据导出方案,还得考虑一个问题,就是导出数据的并发度,导出数据并发度过高,就会造成资源过滤使用,如果系统是个线上系统,可能会影响线上服务;如果并发度过低,导入导出就会过慢。所以我们需要按需找到平衡点。
由于系统的差异性,笔者把控制权交给调用者,系统在load data和 select ... into outfile语法前面可以添加hint,来指定并发度。
例如:
/*!scadb:concurrent=10*/select * into outfile 'a' from a;
以并发度10导出数据,最多同时执行10个分区表导出
/*!scadb:step=1 concurrent=10*/load data infile 'a' into table a;
以并发度10执行导入数据的第一步;