下一代数据湖技术:Tachyon + Spark将极为重要

下一代数据湖技术的关键在于In-memory处理的普及+能够在单一环境下支持多重数据分析负载的架构。

文中表示,Pivotal Big Data Suite一直以来的理念是将数据湖作为企业内所有数据的中心化仓库,这样的好处是可以对所有的数据——无论是内存数据还是磁盘数据——进行SQL级别的处理,同时具有将多种计算范式持久化的能力。然而随着高性能内存的性价比越来越高,内存数据库的相关技术与企业越来越成熟,Pivotal认为未来的数据湖将基于一种组合式的新架构:磁盘存储+内存处理的混合框架。

Pivotal选择了Tachyon和Spark这两个开源项目作为此新架构的基础。其中,Tachyon作为其内存数据交换平台,而Spark作为内存计算层。文章在末尾处表示,Pivotal相信Tachyon会给HDFS这样的文件存储与内存处理的交互方式带来革命性的变化,并展望Tachyon会成为其Pivotal Big Data Suite的中心数据交换层。

   、、、

你可能感兴趣的:(DATA,Lake)