Trafodion 架构简介

介绍

Trafodion提供基于Hadoop之上的一个SQL引擎,一个可以在Hadoop大数据环境中进行操作的解决方案。

主要包括:

  • 完整的ANSI SQL标准支持
  • 对读写查询的ACID保护,提供分布式的事务保护机制
  • 能够访问多种存储引擎中的数据,包括本地HBase及Hive中的数据
  • 支持对客户端应用的高可用性
  • 使用优化过的并行查询机制可支持大数据集的查询访问
  • 通过对编译期及运行期的优化实现使得对OLTP操作具有较高的性能


进程架构

进程架构图如下,

Trafodion 架构简介_第1张图片


上述架构图可以简单介绍为,

客户端应用通过JDBC/ODBC接口访问Trafodion,Trafodion把客户端发过来的请求交到Master执行进程,Master执行进程是执行客户端发送过来的SQL语句的根进程,它包含了一份编译过的SQL代码,绝大部分的SQL语句在这个进程中都是被编译的。有一些少量的SQL代码(如DDL及一些Utilies)需要第二个实例来处理,也就是上面的CMP进程。Trafodion支持几种运行期的并行处理机制,当一个查询计划需要并行处理的时候,会自动的分配一系列的ESP进程,每个ESP进程执行查询计划中的一段(Fragment)。上图中的DTM进程用来管理分布式事务,包括事务日志管理及事务间的协调。下层的存储引擎包括一系列的HBase进程和Hadoop进程。Trafodion允许通过SQL直接访问本地的HBase表。Trafodion通过先读取HBase元数据来处理这些表。Trafodion本身也提供表结构(这些表最终存储为HBase表)来为OLTP应用提供更高效的手段,对于Trafodion本身的这些表它也会维护一套元数据并保存在HBase中。


连接

DCS框架使得外部应用可以通过JDBC/ODBC API来访问Trafodion服务端。DCS是一个分布式的服务,它使用底层的HBase Zookeeper来管理。Apache Zookeeper提供一个集中式的服务,可以管理配置信息,命名,分布式同步以及分组服务。所有的节点和客户端都应该能访问正在运行的Zookeeper服务。

DCS包括以下组件:

  • ODBC/JDBC 驱动:提供标准的编程接口来访问DBMS。
  • DCS Master进程:监控集群中所有的服务端进程,分配客户端的JDBC/ODBC连接到相应的MXOSRVR进程。如果Master进程挂掉有一个备用进程来接管主进程。
  • DCS Server进程:负责启动并保持MXOSRVR进程的运行状态。每个节点有一个DCS进程。
  • Master执行进程:数据库服务端进程,与客户端连接一一对应,即一个连接对应一个这样的进程,也称之为MXOSRVR。


事务

Trafodion使用MVCC模式来保证分布式的事务一致性。这个事务管理基于HBase-trx项目。DTM在每个节点上都运行一个相应的进程。DTM拥有并跟踪所在节点的事务。当客户端开始执行一个SQL语句后,它会通过TM(Transaction Manager)检查并开始一个事务。TM生成一个唯一的事务ID,这个事务ID会被Trafodion的执行器进程传播给执行SQL语句的各个进程。通过事务ID可以跟踪一个事务是否正常还是消亡状态。


编译器

Trafodion编译器(Compiler)把SQL语句翻译成可以在执行引擎(Executor)中执行的查询计划。编译过程分为多个步骤,每个步骤会把上一个编译步骤的结果进行编译生成新的结果。编译器内部代码是用C++实现的。


执行器

Trafodion执行器内部执行过程类型一个数据流。每个操作被被看作一个任务的集合被执行,这些操作以Queue的方式相互通信。



你可能感兴趣的:(Trafodion 架构简介)