《Hadoop The Definitive Guide》ch14 Case Studies

1. Hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

2. Nutch

参考:http://blog.csdn.net/javaman_chen/article/details/7180076

Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。

3. Cascading

Cascading is an application framework for Java developers to quickly and easily develop robust Data Analytics and Data Management applications on Apache Hadoop.

4. TeraByte Sort on Apache Hadoop

现在最快的是微软,http://cloud.csdn.net/a/20120322/313445.html http://cloud.csdn.net/a/20120530/2806125.html 

5. Using Pig and Wukong to Explore Billion-edge Network Graphs

你可能感兴趣的:(《Hadoop The Definitive Guide》ch14 Case Studies)