Tachyon 概述(译)

Tachyon 概述

    Tachyon是一个以内存为中心的分布式存储系统,能够可靠的在跨集群框架之间以内存速度进行共享,比如 Spark 和 MapReduce。它通过利用 lineage 信息和使用内存实现了高性能,Tachyon 在内存中缓存工作文件集,从而避免频繁读取的数据从磁盘去加载数据,这使得不同的 jobs/queries 和框架 以内存的速度 去访问缓存的文件集。


    Tachyon与 Hadoop 是可以兼容的,现有的Spark 和 MapReduce 程序能够在它上面运行而不用修改任何代码。这个项目是开源的(Apache License 2.0) ,被部署在多个公司。已经有超过过来自30多个机构的80余贡献者,包括:Yahoo,IntelRed Hat, 和 Tachyon Nexus. 该项目是Berkeley 数据分析栈(BDAS)的存储层,并还有部分Fedora发行版的(Fedora distribution.)


GIt仓库(Github Repository) | 发布和下载(Releases and Downloads) | 用户文档(User Documentation) | (开发者文档)Developer Documentation | Meetup 组(Meetup Group) | JIRA | User Mailing List


现阶段特性

  • 类似Java 文件API:Tachyon’s 本地化API类似于 java.io.File 类, 提供了 InputStream and OutputStream 接口, 高效的支持内存I/O映射. 我们推荐使用Tacyon这些API 获得最佳效能。 

  • 兼容性: Tachyon 实现了Hadoop FileSystem 接口.因此,Hadoop MapReduce 和 Spark 能够不做修改进行运行。然后,紧密结合才能充分利用Tachyon的优势,我们正在努力实现这个目标。点到点延迟加速依赖于工作负载和所述框架,由于各种框架有不同的执行开销。

  • 可插拔底层文件系统: 为了提供容错机制, Tachyon checkpoints 内存缓存数据到底层文件系统. 它提供了一个通用的接口,使不同的底层文件系统很容易插拔。我们当前支持 HDFS, S3, GlusterFS, 和 单节点本地文件系统,  并且 以后还会支持更多其他的文件系统。

  • 本地化支持原生表:在数据仓库中表中的数据超过几百列斯很常见的,Tachyon提供了本地支持多列数据,为了节省空间使用选项只将常用列存放存储器。

  • Web UI: Users can browse the file system easily through the web UI. Under debug mode, administrators can view detailed information of each file, including locations, checkpoint path, etc.

  • 命令行接口: Users can use ./bin/tachyon tfs to interact with Tachyon, e.g. copy data in and out of the file system.

用户文档

Deployment Guide:

  • 单节点

  • 集群

  • Master 容错集群

  • Tachyon 部署模块 (Virtualbox 和 AWS EC2)

  • Amazon AWS Through mesos/spark-ec2

配置:

  • Configure Underlayer Storage System: Learn how to configure underlayer storage system or to create a new one.

  • Configuration 配置: 如何配置 Tachyon.

关于Tachyon框架:

  • 运行 Apache Spark 基于 Tachyon: Get Apache Spark running on Tachyon

  • 运行 Shark 基于 Tachyon: Get Shark running on Tachyon

  • 运行 Apache Hadoop MapReduce 基于 Tachyon: Get Apache Hadoop MapReduce running on Tachyon

  • 运行 Apache Flink 基于 Tachyon: 获取有关运行Apache Flink 基于 Tachyon

其他:

  • 命令行接口: Interact with Tachyon through the command line.

  • Syncing the Underlayer Storage System: Make Tachyon understand an existing underlayer storage system.

  • FAQ

  • Tachyon Java API (Javadoc)

  • 容错存储(Beta)

Tachyon 简述:

  • Strata and Hadoop World 2014 (October, 2014) pdf pptx

  • Spark Summit 2014 (July, 2014) pdf

  • Strata and Hadoop World 2013 (October, 2013) pdf

开发文档

捐助/贡献 Tachyon

创建Tachyon Master 分支

外部资源

Tachyon 迷你课程:

  • AMPCamp 5

  • Strata 2014

Hot Rod Hadoop With Tachyon on Fedora 21

支持与联系

You are welcome to join our mailing list to discuss questions and make suggestions. We use JIRA to track development and issues. If you are interested in trying out Tachyon in your cluster, please contact Haoyuan.

感谢

Tachyon is an open source project started in the UC Berkeley AMP Lab. This research is supported in part by NSF CISE Expeditions Award CCF-1139158, LBNL Award 7076018, and DARPA XData Award FA8750-12-2-0331, and gifts from Amazon Web Services, Google, SAP, The Thomas and Stacey Siebel Foundation, Adatao, Adobe, Apple, Inc., Blue Goji, Bosch, C3Energy, Cisco, Cray, Cloudera, EMC, Ericsson, Facebook, Guavus, Huawei, Informatica, Intel, Microsoft, NetApp, Pivotal, Samsung, Splunk, Virdata, VMware, and Yahoo!.

We would also like to thank to our project contributors.

相关项目

Berkeley Data Analysis Stack (BDAS) 来自 AMPLab 伯克利分校


你可能感兴趣的:(Tachyon 概述(译))