Hadoop编程接口简述

Hadoop提供了很多可以直接使用的编程接口,大部分可以直接使用。

整个编程模型位于应用程序层和MapReduce 执行器之间,可以分为两层。第一层是最基本的Java API,主要有5 个可编程组件, 分别是InputFormat、Mapper、Partitioner、Reducer 和OutputFormat 。
Hadoop 自带了很多直接可用的InputFormat、Partitioner 和OutputFormat,大部分情况下,用户只需编写Mapper 和Reducer 即可。第二层是工具层,位于基本Java API 之上,主要是为了方便用户编写复杂的MapReduce 程序和利用其他编程语言增加MapReduce 计算平台的兼容性而提出来的。在该层中,主要提供了4 个编程工具包。
 
1. JobControl :方便用户编写有依赖关系. 的作业,这些作业往往构成一个有向图,所以通常称为DAG(Directed Acyclic Graph)作业,如第2 章中的朴素贝叶斯分类算法
实现便是4 个有依赖关系的作业构成的DAG。
2. ChainMapper/ChainReducer:方便用户编写链式作业,即在 Map 或者 Reduce 阶段存在多个Mapper,形式如下:[MAPPER+ REDUCER MAPPER*]
3. Hadoop Streaming :方便用户采用非 Java 语言编写作业,允许用户指定可执行文件或者脚本作为Mapper/Reducer。
4. Hadoop Pipes:专门为 C/C++ 程序员编写 MapReduce 程序提供的工具包。Hadoop编程接口简述_第1张图片


注:文中内容引自《Hadoop技术内幕-深入解析Mapreduce框架设计与实现原理

你可能感兴趣的:(Hadoop编程接口简述)