我们有了解分布式文件系统(HDFS)、分布式计算(如Spark),但是肯定有许多小伙伴未曾了解过 Alluxio,当然我也未曾深入了解,那么,今天,我们就一起初步了解下 Alluxio。
它是什么?它能用在哪里?它的特性是什么?以及它是怎样工作的?
Alluxio项目起源于加州大学伯克利分校AMPLab的一项名为Tachyon的研究项目,该项目是伯克利数据分析堆栈(BDAS)的数据层。有关详细信息,请参阅 李浩源 的博士论文Alluxio:虚拟分布式文件系统。
以内存为中心 - 在处理远程存储系统时,读/写吞吐量通常受网络和磁盘速度限制在100 Mbps到10 Gbps。但是,对于RAM,吞吐量可以达到10到100 Gbps。理想情况下,Alluxio与应用程序位于同一位置,在许多情况下,这些应用程序允许直接在本地内存上执行读取和写入操作。我们说 'centric' 是因为您还可以在Alluxio层使用SSD和HDD以及分层存储功能。
Virtual - Alluxio提供单个文件系统命名空间(alluxio://),你可以通过该命名空间访问各种底层存储系统。应用程序只需要与Alluxio通信,然后Alluxio与已安装到其上的其他文件系统进行通信。它还可以根据用户配置透明地将数据保存到存储下。
分布式 - Alluxio设计用于商用硬件,易于扩展。对于独立部署或多节点群集,数据分布在已分配给它的所有本地存储中。Alluxio为节点提供了执行 read/writes 的框架,而计算框架确保了良好的数据 locality 。
Alluxio在大数据生态系统中占有独特的地位,存在于Amazon S3,Google云存储,EMC ECS,Apache HDFS或OpenStack Swift等存储系统以及Apache Spark或Hadoop MapReduce等计算框架和应用程序之间。
它管理数据访问和快速存储,促进作业之间的数据共享和位置,无论它们是否使用相同的计算引擎运行。结果是大数据应用程序的性能显着提高,同时为数据访问提供了通用接口。
Alluxio还弥补了大数据应用程序与各种存储系统之间的差距。由于Alluxio从应用程序中抽象出存储系统的集成,因此任何底层存储都可以支持在Alluxio上运行的所有应用程序和框架。再加上安装多个存储系统的能力,Alluxio可以作为任意数量的各种数据源的统一层。
Alluxio可以部署在单个主机或多节点群集上。
Alluxio的理想部署是将工人(我们将进一步覆盖的概念)与应用程序放在一起。这使应用程序可以直接访问内存中的数据。
为了解释Alluxio如何工作,让我们来看一下读取文件操作。有了Alluxio,所有应用程序需要做的就是调用 read方法:
read(alluxio://)
应用程序只需要获得数据的内容,而不是它的来源。但在引擎中会发生更多的事情。
(1)如果文件在Alluxio中并且在本地可用,则可以以内存速度读取。
(2)如果它在Alluxio中,但在不同的节点上,客户端会对该节点上的Alluxio工作者进行远程调用,并且必须以本地网络的速度读取数据。
(3)如果文件根本不在Alluxio中,Alluxio会透明地确定存储位置并取出它; 一旦加载,它将保持可重用。
注意:应用程序的任何输出都可以同步写入Alluxio,存储之下或两者,具体是取决于用户的配置。
为了实现上述功能,涉及几个组件,即主服务器,工作服务器和客户机。
Master - Alluxio master是负责管理系统全局元数据的过程,例如文件系统树。客户端与主服务器交互以读取或修改此元数据。此外,所有工作人员定期向主人发出心跳,以维持他们对集群的参与。主设备不会启动与其他组件的通信; 它只通过响应请求与其他组件交互。
Alluxio可以部署在两种主模式之一,单主模式或容错模式。
Workers - Alluxio工作人员负责管理分配给Alluxio的本地资源。这些资源可以是本地内存,SSD和/或硬盘。Alluxio工作人员将数据存储为块并提供来自客户端的读/写请求。但是,工作人员只负责这些块中的数据; 从文件到块的实际映射存储在主服务器中。
Alluxio的理想部署是将工作人员与应用程序放在一起的部署。这使应用程序可以直接访问内存中的数据。
Clients - Alluxio客户端为用户提供了一个通过文件系统API与Alluxio服务器交互的网关。它启动与主设备的通信以执行元数据操作,并与工作人员在Alluxio中读取和写入数据。存储在底层存储中但在Alluxio中不可用的数据可通过底层存储客户端直接访问。
由于Alluxio位于现有存储解决方案之上,因此无需数据迁移和最少的代码更改,因此可轻松插入。功能文档跳转链接如下
Alluxio存储 - Alluxio 可以管理内存和本地存储,如SSD和HDD,以加速数据访问。如果需要更细粒度的控制,分层存储功能可用于自动管理不同层之间的数据,从而将热数据保持在更快的层中。自定义策略易于插拔,引脚概念允许直接用户控制。
可插拔存储 - Alluxio将内存数据保存到底层存储系统。当使用多个存储系统时,这可以实现容错和有效的数据管理。支持流行的存储后端,包括Amazon S3,Google云端存储,OpenStack Swift,Apache HDFS,GlusterFS和阿里巴巴OSS。
灵活的文件API - 我们的Alluxio Filesystem API类似于java.io.File类,提供InputStream和OutputStream接口以及对内存映射I / O的有效支持。我们建议使用此API以获得最佳性能。或者,我们提供Hadoop兼容接口,允许现有的Hadoop MapReduce和Spark程序使用Alluxio代替HDFS而无需更改任何代码。
Web UI和CLI - 用户可以通过Web UI轻松浏览文件系统。在调试模式下,管理员可以查看每个文件的详细信息,例如块位置和存储路径。用户还可以使用./bin/alluxio fs
命令行客户端与Alluxio进行交互; 例如,从Alluxio复制数据。
对于不熟悉Alluxio的小伙伴,可以在本地 安装 Alluxio。
有关其他安装方法,请访问我们的文档,了解如何使用Alluxio Manager安装Alluxio或安装不带Alluxio Manager的Alluxio。
https://github.com/Alluxio/alluxio
http://www.alluxio.com/
http://www.alluxio.com/docs/community/1.8/en/