Apache推出Google Dremel的开源版本Drill

在大数据时代,对于Hadoop中的信息,越来越多的用户需要能够获得快速且互动的分析方法。现在,谷歌正在使用Dremel工具来快速分析事务,而Apache基金会则支持了一个类似于Dremel的开源版本——Drill。(CSDN编者注:Dremel是一种用来分析信息的方法,它可以在数以千计的服务器上运行,允许你“请求查询”海量数据,如网络文件的集合或是数字图书馆等,甚至是描述成百上千万条垃圾游戏信息的数据。这类似于分析一个使用SQ语言L的传统数据库。而Dremel能以极快的速度处理网络规模的海量数据。据谷歌的研究报告显示,你能以PB数量级来进行查询,而且只需几秒钟时间就能完成。)在Apache基金会文档中如此描述:Drill,一个专为互动分析大型数据集的分布式系统。

目前来看,MapReduce通常用于执行Hadoop数据上的批处理分析,但并不适合于你想快速得到结果或者重新定义查询参数。如果想要做到这些,你需要一个新工具,比如Drill。其可以通过对PB字节数据的快速扫描(大约几秒内)完成相关分析。

“Drill与MapReduce相辅相成。在谷歌,数以千计的工程师每天都在使用Dremel和MapReduce,未来也将有着更多的人来使用Drill与MapReduce, ”Tomer Shiran如此表示。他也是MapR的产品管理总监,一直支持Drill的开发。

Apache这一项目最初的目标是建立共同的API和制定架构来容纳更多数据源,数据格式和查询语言。早期参与者包含MapR的技术员工如Shiran、Jason Frantz、Ted Dunning、MC Srivas、Keys Botzum和Gera Shegalov。Shiran表示,希望更多贡献者的加入,比如来自电子商务公司和Web2.0的企业即使他们是MapR的竞争对手。“人们已经看到Google是如何利用Dremel的,我们希望也能做的那样好。”

支持者认为Drill可以和Hive、Pig以及Cascading一样成为在MapReduce中所需要的高级编译语言,并且可以更快(Hadoop已经提供了在庞大的数据集合中运行SQL查询请求的工具,Pig和Hive等姊妹项目也是为此而构建的,但使用Hadoop会有迟延时间)。显然,如何使大数据查询更快已经成为如今的一大主题。在一些情况中,用户需要分析大量的数据流来寻找满足一个任务的适合产品,比如像是暴风雨或是Nodeable的StreamReduce。但是企业要想在现有Hbase或者Hadoop的数据中实现快速或者瞬时查询,也许Drill就是答案。(编译/郭雪梅,审校/李智)

延伸阅读:要了解Drill就要先了解Dremel!谷歌Dremel让大数据变小 

原文链接:GigaOM

你可能感兴趣的:(apache,drill,Dremel)