DataX是一个让你方便的在异构数据源之间交换数据的工具。实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换,由淘宝数据平台部门完成。之所以关心这个datax 是想关注一下各个数据源到hdfs是怎样实现高效数据传递?
datax 通过BlockingQueue机制核心类 DoubleQueue 进行数据的交互,+简单的常用一些数据库常用技术就诞生了一个datax数据交互通用工具Queue机制详见jdk 源码实现 ,是一组通过Condition阻塞机制实现的可阻塞队列。
首先来认识一下BlockingQueue,阻塞队列首先是一个队列,而一个队列在数据结构所起的作用大致如下图所示:
.
从上图我们可以很清楚看到,通过一个共享的队列,可以使得数据由队列的一端输入,从另外一端输出;
常用的队列主要有以下两种:(当然通过不同的实现方式,还可以延伸出很多不同类型的队列,DelayQueue就是其中的一种)
先进先出(FIFO):先插入的队列的元素也最先出队列,类似于排队的功能。从某种程度上来说这种队列也体现了一种公平性。
后进先出(LIFO):后插入队列的元素最先出队列,这种队列优先处理最近发生的事件。
多线程环境中,通过队列可以很容易实现数据共享,比如经典的“生产者”和“消费者”模型中,通过队列可以很便利地实现两者之间的数据共享。假设我们有若干生产者线程,另外又有若干个消费者线程。如果生产者线程需要把准备好的数据共享给消费者线程,利用队列的方式来传递数据,就可以很方便地解决他们之间的数据共享问题。但如果生产者和消费者在某个时间段内,万一发生数据处理速度不匹配的情况呢?理想情况下,如果生产者产出数据的速度大于消费者消费的速度,并且当生产出来的数据累积到一定程度的时候,那么生产者必须暂停等待一下(阻塞生产者线程),以便等待消费者线程把累积的数据处理完毕,反之亦然。然而,在concurrent包发布以前,在多线程环境下,我们每个程序员都必须去自己控制这些细节,尤其还要兼顾效率和线程安全,而这会给我们的程序带来不小的复杂度。好在此时,强大的concurrent包横空出世了,而他也给我们带来了强大的BlockingQueue。(在多线程领域:所谓阻塞,在某些情况下会挂起线程(即阻塞),一旦条件满足,被挂起的线程又会自动被唤醒)
下面两幅图演示了BlockingQueue的两个常见阻塞场景:
如上图所示:当队列中没有数据的情况下,消费者端的所有线程都会被自动阻塞(挂起),直到有数据放入队列。
如上图所示:当队列中填满数据的情况下,生产者端的所有线程都会被自动阻塞(挂起),直到队列中有空的位置,线程被自动唤醒。
常见BlockingQueue
在了解了BlockingQueue的基本功能后,让我们来看看BlockingQueue家庭大致有哪些成员?
由于Datax中用到的DoubleQueue基本是仿照ArrayBlockingQueue来实现的。所有大概介绍一下这个类。
基于数组的阻塞队列实现,在ArrayBlockingQueue内部,维护了一个定长数组,以便缓存队列中的数据对象,这是一个常用的阻塞队列,除了一个定长数组外,ArrayBlockingQueue内部还保存着两个整形变量,分别标识着队列的头部和尾部在数组中的位置。
ArrayBlockingQueue在生产者放入数据和消费者获取数据,都是共用同一个锁对象,由此也意味着两者无法真正并行运行;按照实现原理来分析,ArrayBlockingQueue完全可以采用分离锁,从而实现生产者和消费者操作的完全并行运行。Doug Lea之所以没这样去做,也许是因为ArrayBlockingQueue的数据写入和获取操作已经足够轻巧,以至于引入独立的锁机制,除了给代码带来额外的复杂性外,其在性能上完全占不到任何便宜。
总结一下,BlockingQueue不光实现了一个完整队列所具有的基本功能,同时在多线程环境下,他还自动管理了多线间的自动等待于唤醒功能,从而使得程序员可以忽略这些细节,关注更高级的功能。
datax 实现了自己的一个queue 结构来实现 2个数组数据交换 。
自实现的DoubleQueue 仅提供poll 及push 带超时时间方法的操作且增加了2方法的数据批量接口.其中的大部分核心实现和 jdk ArrayDoubleQueue 90%的相似或者说是参照他实现:
大致说一下这个类的实现功能,DataX的一个输入类中,代表一个区域有2个交换空间,一个是存储源数据,一个是存储目标数据。DoubleQueue类大致处理流程:在开始,空间A和空间B都是空的,装载任务开始将数据装载到空间A,当A几乎快满的时候,让源数据开始向空间B装载数据,然后取数据任务开始从空间A取走数据送到目标,当A空间空了,交换2个空间的放数据和取数据任务。
分析一下主要方法:
放入数据:
offer(Line line):表示如果可能的话,将 line加到DoubleQueue里,即如果DoubleQueue可以容纳,则返回true,否则如果在20milliseconds,还不能往队列中加入DoubleQueue,则返回失败
offer(Line line, long timeout, TimeUnit unit),可以设定等待的时间,如果在指定的时间内,还不能往队列中加入DoubleQueue,则返回失败。
获取数据:
poll():取走DoubleQueue里排在首位的对象,若不能立即取出,则可以等20 milliseconds,取不到时返回null;
poll(Line[] ea, long timeout, TimeUnit unit):从DoubleQueue取出一个队首的line buffer,如果在指定时间内,队列一旦有数据可取,则立即返回队列中的数据。否则知道时间超时还没有数据可取,返回失败。
RAMStorage 在DoubleQueue接口上进一步封装提供基于DoubleQueue的服务接口操作,它是用内存空间来存储交换空间,提供了高速安全的数据交换。
本来DoubleQueue接口都带有超时实现 poll push方法超时时会返回NULL或无数据值,在RAMStorage中对其进行超时情况的统计,对poll push进行while(true)操作,封装过后的方法会超时后再尝试直到获取数据,在其中对尝试计数进行累计,
比如push 时队列一直为full 状态 可能是poll 消费者处理数据过慢,push操作超时次数达到一定计数时自动关闭push接口的对外服务 , 但是poll消费者仍然可以取到相应数据单看这俩接口组合对外提供服务,个人猜想会带来一些性能上的问题,当通过poll push单个对数据进行pollpush 操作时,内部会不断的进行数组交换及加锁阻塞操作,程序的这种额外处理代价远远高出一条记录本身传递的代价.所以猜想应该是建议通过DoubleQueue 实现批量poll push 进行操作.
为了解决这个猜疑的问题?继续查看进一步RAMStorage上的业务处理。
Datax实现了2个基于RAMStorage的Exchanger数据交换服务,相应的接口有 LineSender和LineReceiver定义数据的操作接口。
LineSender的作用:在DataX里主要是用Storage来帮助Reader和Writer交换数据,Reader用LineSender来放数据到Storage对象中。
在LineSender接口里,主要有这几个接口:
createLine():构造一个将要被用来交换数据的Line对象
sendToWriter(Line line): 用来将一个Line对象put到Storage抽象类里。
flush()用来将buffer的数据flush到Storage对象中。
LineReceiver的作用:在DataX里主要是用Storage来帮助Reader和Writer交换数据,Writer用LineReceiver来从到Storage对象中获取数据。
在LineReceiver接口里,主要有一个接口:
getFromReader():获取下一个Storage中的Line对象。
基于RAMStorage的批量数据changer:BufferedLineExchanger
内部初始化一个指定大小的数组缓冲,提供参数可以指定 默认64 也就是说BufferedLineExchanger
在push数据时会先写满64个数组再单次写入DoubleQueue队列,Poll时返回的大小可能会小于64个单位,由当时数组的实际大小决定。
数据接口定义:Line类图如下,这个类代表数据库或者HDFS文件里的一条记录。Reader类和Writer类用Line类来交换数据,通常每次都是交换多行数据。
默认实现DefaultLine
接下去的事情就非常的简单了,src/com/taobao/datax/plugins/包下面定义各种数据源的写入和读出实现
读接口 publicabstract class Reader extends AbstractPlugin implements Pluginable。
写接口类似:
接口定义操作流程:
init(),获得bufferSize,fieldsplit,encoding,ignoreKey,colFilter
连接源信息再connect再读或写再finish ();
比如一个具体的MysqlReaderinit 初始化取得数据库信息connect 连接数据库
startRead 执行sql 返回ResultSet对象 通过 LineSender发送到队列,另一边对应一个*Reader 从队列取数据即可
接口的调试由相应的*worker负责
整个datax 由Engine类驱动执行,分析加载xml文件读取 输入源 和写入目的指定quere大小 ,针对quere的处理线程个数指定相应的处理类
从xml解析出来的一堆jar class 通过反射进行实例并运行 相对数据的交互时间这里反射的代价可以忽略不计。
.