Pivotal和EMC谈下一代数据湖技术:Tachyon + Spark将极为重要

在纽约举办的2014年Strata+Hadoop World大会开幕的前一天,Pivotal在官方博客上发布了一篇名为《数据湖(Data Lake)的未来架构:基于Tachyon和Apache Spark的In-memory数据交换平台》的文章,表达Pivotal与EMC对下一代数据湖技术的展望:

下一代数据湖技术的关键在于In-memory处理的普及+能够在单一环境下支持多重数据分析负载的架构。

文中表示,Pivotal Big Data Suite一直以来的理念是将数据湖作为企业内所有数据的中心化仓库,这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行SQL级别的处理,同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高,内存数据库的相关技术与企业越来越成熟,Pivotal认为未来的数据湖将基于一种组合式的新架构:磁盘存储+内存处理的混合框架。

Pivotal选择了Tachyon和Spark这两个开源项目作为此新架构的基础。其中,Tachyon作为其内存数据交换平台,而Spark作为内存计算层。文章在末尾处表示,Pivotal相信Tachyon会给HDFS这样的文件存储与内存处理的交互方式带来革命性的变化,并展望Tachyon会成为其Pivotal Big Data Suite的中心数据交换层。

InfoQ此前对Spark项目有过为数不少的报道和介绍,这个孵化自AMPLab的项目在过去两年间受到业界的广泛关注,被视为实时数据处理的一个优先选项。Tachyon项目也是来自于AMPLab,最早在2012年底对外发布,是一个相对年轻的项目,在最近也受到了越来越多公司的关注,这包括雅虎、红帽、Intel还有EMC——EMC已经在其闪存产品DSSD和Isilon中尝试集成Tachyon,Pivotal的文章中称Tachyon是AMPLab历史上成长最快的项目。

根据该项目官网的介绍,Tachyon是一个内存分布式文件系统,效果是“在Spark或MapReduce等集群框架中实现内存级速度的跨集群文件共享”。它具有类Java的文件API、兼容Hadoop MapReduce和Spark、底层文件系统可插拔等特性。

InfoQ中文站针对此事采访了Tachyon项目的负责人、UC Berkeley AMPLab的博士候选人李浩源,沟通内容如下:

InfoQ:很高兴看到Tachyon得到越来越多的关注。Tachyon是你的博士研究方向,当时为何选择了这样一个课题?

李浩源:一方面是个人兴趣,一直以来,我对存储有很大的兴趣,因为计算机数据处理流程分为读取、处理分析、以及写入,前后都是都是有存储系统来完成。另一方面是机会,我是3年前加入UC Berkeley AMPLab的,实验室有过很多成功的项目,比如Apache Mesos和Apache Spark,但是它们一个是计算机集群资源调度层,一个是并行计算层,还没有一个存储层的支撑。两方面结合,我就选择了这个课题。

InfoQ:在Github上看到现在参与Tachyon项目的开发者和企业也有将近50人,你从大家的patch来看,是否感觉各个公司的侧重点有些不同呢?目前项目是如何管理的?

李浩源:参与Tachyon项目的开发者实际上大于Github上的统计数据(其中包括不少来自国内的开发者),并且还有一些比较大的功能在一些公司和科研机构已经内部测试过,正在提交的过程中。

因为每个公司机构的战略不一样,所以的确侧重点是不一样。比如说,网络硬件公司就会对Tachyon的网络层更加有兴趣,系统集成公司对Tachyon的兼容性更有兴趣。

从项目管理上来讲,Tachyon有一个开放的社区,很欢迎更多的开发者加入。目前的流程是比较小规模的改动,开发者会自己提交一个Patch。而对于比较大的功能,开发者和我会紧密的合作,确保功能和项目的总体方向切合,并有一个初步设计意向。而后社区会对设计和代码提出建议,经过一些轮的改动之后,我会尽快把代码融合(merge)到项目的公共代码库中。

随着项目的发展,越来越多的公司和机构已经或者开始投入全职员工对项目进行开发,其中包括很多在其领域领先的上市公司,从长期来讲,我们会像Apache Mesos以及Apache Spark一样,进入Apache Software Foundation。这里欢迎更多的开发者加入。

InfoQ:你以前说过,在学校做东西需要有学术价值,但企业更注重将东西产品化、商业化。现在Tachyon毫无疑问是越来越商业化了,你现在觉得出论文和商业化有很大的差别吗?

李浩源:差别的确是有的,但是不一定‘很大’。我的经验还很浅薄,但是在我做的领域,学术是需要有前瞻性(比如需要预测未来的趋势,根据趋势来指引方向),可以作为工业化的基础,但是工业化在此基础上还需要做大量的工作。这两件事情在Tachyon这个项目上目前来看是相辅相成的。比如我们Tachyon第一篇论文只是项目中的一个功能、或者说是一个点,从这个点出发,我们做大量的工作来工业化。这些工作的直观成果是,今年以来,使用Tachyon的公司数量在指数增长,根据三个月前的调查,已经有至少50-100家公司已经在使用Tachyon。这些工作的间接成果是,通过更多公司的使用,使得学术机构看到很多不同的应用案例,从而进行相对应的研究。目前我们实验室内部,以及和其他高校合作,就有不少基于目前Tachyon项目的相关科研工作,明年应该会看到更多的成果。因为这些科研距离实际案例很近,所以会相对更加容易的增强Tachyon在产业界的应用和价值。

李浩源将在10月16日的Strata大会上就Tachyon项目进行分享。

你可能感兴趣的:(Pivotal和EMC谈下一代数据湖技术:Tachyon + Spark将极为重要)