hadoop程序开发实践——简单程序

本篇在hadoop上实践了几个hadoop程序。

分别是:词频统计(wordcount)、数据去重、数据排序、平均成绩、单表关联、多表关联、倒排索引。

对hadoop程序的运行机制,特别是mapreduce的运行过程、接口规范、shuffle有了进一步了解。

对mapper、combine、reducer三个重要函数进行了重写。

对输入输出文件夹input、output文件的删除、更新、上载下载有了实践操作。


程序一:wordcount.hadoop的hello world程序。

程序二:depulication.数据去重。对多个文件中,重复的数据及整理,只输出出现一次的数据。

程序三:sort.数据排序。对多个文件中的数据,进行排序,输出到一个文件中,并给出数据在原文件位次。

程序四:singleTableCorrelation.单表关联。对单个文件内的数据关联进行挖掘,输出有关系的数据组合。

程序五:doubleTableCorrelation.多表关联。对多个文件内,数据之间的关系进行挖掘,输出有关系的数据之间的组合。它是单表关联的扩展,逻辑上更加清晰。

程序六:average.平均值。对多个文件内,同一个人、商品的多个维度的值求均值。输出一个列出所有人、商品平均值的文件。

程序七:invertedindex:倒排索引。倒排索引是文件检索系统常用的数据结果,能够快速找出与查找字符相关的文件。


小结:

hadoop编程主要集中在map、combine、reduce三个函数的编写。

hadoop需要经常读写文件,所以效率并不高。

优点是能够利用hadoop集群,实现高吞吐量。


参考文章:

1、http://penghuaiyi.iteye.com/blog/1943464(详细列出了上述程序的源码java实现,思路、相关input\output文件)

你可能感兴趣的:(mapreduce,hadoop)