hadoop 尝试(一)

按mapreduce定义,即便

hadoop jar /usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar \

-input /file/tblog/user/all/userdataaa \
-output /wanglei/test4 \
-mapper "awk -F '\t' '{print \$8}'" \
-reducer "uniq -c"
这个普通的操作,因为被【hadloop】map为多个子进程即便单机跑,可能比 awk -F '\t' '{print \$8}'文件|wc -l 快。

你可能感兴趣的:(mapreduce,hadoop,jar)