php与hadoop

应用场景:

1 计数和统计
2 整理
3 过滤
4 排序 

1、Hadoop安装
2、映射器(Mapper)
映射器的任务是将输入转换成一系列的键值对。比如在字计数器的情况下,输入是一系列的行。我们按单词将它们分开,把它们变成键值对(如key:word,value:1),看起来像这样:

the       1
water    1
on        1
on        1
water    1
on        1
...         1

3、reducer

reducer的任务是检索(排序)对,迭代并转换为所需输出。 在单词计数器的例子中,取单词数(值),并将它们相加得到一个单词(键)及其最终计数。如下:

water 2
the   1
on    3

4、基于单词计数器的理解:

hadoop jar /usr/hadoop/2.5.1/libexec/lib/hadoop-streaming-2.5.1.jar \
 -mapper "./mapper.php"//将数据处理成键值对
  -reducer "./reducer.php"//将键值对归类
 -input "hello/mobydick.txt"//将数据写入文件
 -output "hello/result"//输出统计结果写入文件

你可能感兴趣的:(php与hadoop)