3款值得关注的数据分析工具！

DT时代，物联网的发展不断推动着市场推出新型的分析工具，尤其是开源数据分析工具。物联网发展的同时，带来了众多传感器及其他设备，这些设备在源源不断地生成数据流，因此，市场需要更多更全面的完善数据分析生态系统的新工具。今天就来跟随大圣众包威客平台看看3款勇敢逆袭传统数据分析工具的数据分析新星！

一、ApacheKafka

1.起源

最初由LinkedIn开发的ApacheKafka，在2011年年初开放了源代码。而LinkedIn当初开发Kafka的那些工程师，还成立了专注于Kafka的Confluent。

2.优点

ApacheKafka具有统一、高吞吐量、低延迟等优点，它提供了处理实时数据的功能。而上文提到的Confluent及其他组织，还开发了自定义工具，以便Kafka与数据流结合使用更为方便快捷。作为一种经过加固和测试的工具，ApacheKafka项目已凭借实时数据跟踪功能，成为一颗数据分析新星。

3.影响

得益于强大的功能，使得ApacheKafka在大数据产业的地位越来越重要，现在，许多企业组织都要求员工拥有ApacheKafka方面的知识。在实际应用中，一些知名的公司如思科、网飞、贝宝、优步、Spotify等，都在使用它。

二、ApacheDrill

1.起源

Dremel是来自Google的一种用来分析大数据信息的方法，它能够帮助Google实现海量数据集的分析处理，如抓取Web文档的分析、跟踪AndroidMarket上的应用程序数据信息、分析垃圾邮件，等等。而主角ApacheDrill，正是基于Dremel而实现的开源项目。

2.优点

ApacheDrill的核心模块是Drillbit服务。Drillbit服务模块包括远程访问子模块、SQL解析器、查询优化器、任务计划执行引擎、存储插件接口（DFS、HBase、Hive等的接口）、分布式缓存模块等几部分。因此，让ApacheDrill具有了适于实时的分析和快速的应用开发、适于半结构化/嵌套数据的分析、兼容现有的SQL环境和ApacheHive等特征。ApacheDrill之所以在流数据应用程序中如此出名，是因为它是一种分布式、无模式（schema-free）的SQL引擎。

另外，为什么说ApacheDrill敢于逆袭多个传统而闻名的数据分析工具，如Hadoop和ApacheSpark？因为，ApacheDrill是一个能够对大数据进行交互分析、开源的分布式系统，它能够运行在上千个节点的服务器集群上，并且能够在几秒内处理PB级或者万亿条的数据记录。总的来说，在面对大数据时，ApacheDrill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。

3.影响

作为Apache的一个顶级项目，ApacheDrill与ApacheSpark一同应用于许多流数据场景。就在今年1月份召开的纽约ApacheDrill大会上，MapR的系统工程师就展示了在用于涉及数据包捕获、近实时查询及搜索的一种使用场合下，ApacheDrill和ApacheSpark是如何协同的。ApacheDrill项目在大数据领域带来了重大的影响，以至于MapR等公司甚至把它纳入到其Hadoop的发行版中。

三、Grappa

1.起源

Grappa——起源于一群基于克雷（Cray）系统运行大数据任务有丰富经验的工程师的构想。这群工程师希望有一款可与Cray系统现成商用硬件的实现分析功能一较高下的硬件，于是，Grappa开源项目华丽诞生了。

2.优点

可以在大众化集群上扩展数据密集型应用程序的Grappa，提供了一种新型的抽象机制，比经典的分布式共享内存（DSM）系统更胜一筹。Grappa还采用了BSD许可证，让其在GitHub上可以免费获取。只要在应用程序的README文件中，遵照通俗易懂的快速启动说明构建Grappa应用程序，就可以在集群上运行，可以获得Grappa的源代码，这样，你就可以亲身感受这款开源项目的魅力了。

3.影响

进入大数据时代，众多企业组织正致力研究从数据流提取宝贵信息的新方法。在这些数据流里面，包含了许多在处理集群上生成的数据，及处理商用硬件上生成的数据。这样一来，成本合理的、以数据为中心的方法便受到了重视，这也是Grappa开始被广泛使用的原因之一。

流数据分析工具，可以用来帮助新型药物的发现，甚至分析TB级的复杂的外太空无线电信号流等等，于人类，于社会，都在贡献着它独特而又强大的功能。

原文地址：http://www.dashengzb.cn/articles/a-272.html

（更多大数据与商业智能领域干货、或电子书，可添加个人微信号（dashenghuaer))

3款值得关注的数据分析工具！

你可能感兴趣的:(3款值得关注的数据分析工具！)