Hadoop软件栈(生态系统)

Hadoop软件栈(生态系统)_第1张图片
图片发自App


Hadoop是Apache开源项目,是一个分布式大数据处理系统。Hadoop由Doug Cutting和Mike Cafarella在2005年创造。现在已经重构到Yarn(Hadoop2.0)!Mapreduce是一个批处理框架用于大数据集的计算,它简单而且强大!使用Hadoop系统可以简单的实现对大量数据的有效管理!新版的YARN的核心组件包括job tracker, resource management(资源管理器),job scheduling(资源调度器) 和monitoring(监控器)。HDFS(分布式文件系统)作为后台文件系统。Mapreduce成为一个独立的组件,YARN也可以集成Apache PIG, Apache Hive,HBase(列值数据库)等其他的处理组件。其他组件:

Oozie,它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务。

Sqoop,实现SQL数据库与HDFS的双向交互。

Tez 一个新的分布式执行框架,支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。它并不直接面相最终用户,但如果HBASE,HIVE等产品使用Tez将大幅提高速度!

Spark 传统Hadoop的替代者,使用内存计算提高了近100倍的速度,可以简单的执行复杂的计算,而且很好的支持机器学习。它可以容易的集成到YARN中!

你可能感兴趣的:(Hadoop软件栈(生态系统))