1.Hadoop
Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:Windows、Linux和OSX。
2.Ambari
作为Hadoop生态系统的一部分,这个Apache项目提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。有些开发人员想把Ambari的功能整合到自己的应用程序当中,Ambari也为他们提供了充分利用REST(代表性状态传输协议)的API。
支持的操作系统:Windows、Linux和OSX。
3.Avro
这个Apache项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用JSON来定义,它很容易与动态语言整合起来。
4.Cascading
Cascading是一款基于Hadoop的应用程序开发平台。提供商业支持和培训服务。
5.Chukwa
Chukwa基于Hadoop,可以收集来自大型分布式系统的数据,用于监控。它还含有用于分析和显示数据的工具。
支持的操作系统:Linux和OSX。
6.Flume
Flume可以从其他应用程序收集日志数据,然后将这些数据送入到Hadoop。官方网站声称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机制。”
支持的操作系统:Linux和OSX。
7.HBase
HBase是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数据进行随机性的实时读取/写入访问。它有点类似谷歌的Bigtable,不过基于Hadoop和Hadoop分布式文件系统(HDFS)而建。
8.Hadoop分布式文件系统(HDFS)
HDFS是面向Hadoop的文件系统,不过它也可以用作一种独立的分布式文件系统。它基于Java,具有容错性、高度扩展性和高度配置性。
支持的操作系统:Windows、Linux和OSX。
9.Hive
ApacheHive是面向Hadoop生态系统的数据仓库。它让用户可以使用HiveQL查询和管理大数据,这是一种类似SQL的语言。
10.Hivemall
Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。
11.Mahout
据官方网站声称,Mahout项目的目的是“为迅速构建可扩展、高性能的机器学习应用程序打造一个环境。”它包括用于在HadoopMapReduce上进行数据挖掘的众多算法,还包括一些面向Scala和Spark环境的新颖算法。
12.MapReduce
作为Hadoop一个不可或缺的部分,MapReduce这种编程模型为处理大型分布式数据集提供了一种方法。它最初是由谷歌开发的,但现在也被本文介绍的另外几个大数据工具所使用,包括CouchDB、MongoDB和Riak。
13.Oozie
这种工作流程调度工具是为了管理Hadoop任务而专门设计的。它能够按照时间或按照数据可用情况触发任务,并与MapReduce、Pig、Hive、Sqoop及其他许多相关工具整合起来。
支持的操作系统:Linux和OSX。
14.Pig
ApachePig是一种面向分布式大数据分析的平台。它依赖一种名为PigLatin的编程语言,拥有简化的并行编程、优化和可扩展性等优点。
15.Sqoop
企业经常需要在关系数据库与Hadoop之间传输数据,而Sqoop就是能完成这项任务的一款工具。它可以将数据导入到Hive或HBase,并从Hadoop导出到关系数据库管理系统(RDBMS)。
16.Spark
作为MapReduce之外的一种选择,Spark是一种数据处理引擎。它声称,用在内存中时,其速度比MapReduce最多快100倍;用在磁盘上时,其速度比MapReduce最多快10倍。它可以与Hadoop和ApacheMesos一起使用,也可以独立使用。
支持的操作系统:Windows、Linux和OSX。
17.Tez
Tez建立在ApacheHadoopYARN的基础上,这是“一种应用程序框架,允许为任务构建一种复杂的有向无环图,以便处理数据。”它让Hive和Pig可以简化复杂的任务,而这些任务原本需要多个步骤才能完成。
支持的操作系统:Windows、Linux和OSX。
18.Zookeeper
这种大数据管理工具自称是“一项集中式服务,可用于维护配置信息、命名、提供分布式同步以及提供群组服务。”它让Hadoop集群里面的节点可以彼此协调。
支持的操作系统:Linux、Windows(只适合开发环境)和OSX(只适合开发环境)。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
送给大数据开发初学者的良言,有兴趣的可以看看
http://www.duozhishidai.com/article-7742-1.html
在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?
http://www.duozhishidai.com/article-2052-1.html
对于大数据开发的学习,最经典的学习路线是什么?
http://www.duozhishidai.com/article-1544-1.html
多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站